Introducción al manejo de datos en Python 🐍

Sobre el curso: Este curso tiene por finalidad el aprendizaje práctico de Python orientado al manejo básico y sencillo de datos.

Sesión 2: Manejo básico de datos en Python

En esta segunda sesión, vamos a importar y trabajar con Pandas para explorar sus funcionalidades básicas.

1. Importar Pandas

Una vez instalado, podemos importar Pandas para comenzar a trabajar con datos:

import pandas as pd

2. Importar datos

Pandas soporta la lectura de una variedad de formatos de archivos como CSV, Excel entre otros. El método read_csv es frecuentemente usado:

df = pd.read_csv('ruta/al/archivo.csv', sep=',', header=0)

Parámetros principales:

filepath_or_buffer: Ruta del archivo o un objeto similar a un archivo que contiene los datos.
sep: el delimitador del archivo (por defecto, ,).
header: índice de la fila que se usa como cabecera.
skiprows: Número de filas o lista de números de línea para omitir al leer el archivo.
na_values: Secuencia de valores que, si se encuentran en el archivo, deben ser tratados como NaN.
dtype: Tipo de datos para las columnas. Por ejemplo, {'a': np.float64, 'b': np.int32}.
encoding: Codificación del archivo (generalmente UTF-8).

3. Previsualización de datos

Para obtener una vista rápida de los datos, podemos utilizar:

df.head()  # Muestra las primeras 5 filas

También puede usar:

head(), tail(): Muestra las primeras o últimas 'n' filas.
describe(): Proporciona estadísticas descriptivas resumidas.
info(): Resumen conciso del DataFrame, incluyendo el tipo de datos de las columnas y los valores no nulos.
dtypes: Muestra los tipos de datos de cada columna.
value_counts(): Cuenta cuántas veces aparece cada valor único en una columna.

4. Seleccionar columnas

Para seleccionar una sola columna, utilizamos:

columna = df['NombreColumna']

5. Seleccionar filas por índice

Podemos seleccionar filas específicas usando su índice:

filas = df.iloc[0:5]  # Selecciona las primeras 5 filas

6. Seleccionar filas usando condiciones

También podemos seleccionar filas que cumplan una condición:

condicion = df[df['Edad'] > 30]  # Selecciona filas donde la columna 'Edad' es mayor que 30

7. Exportar a CSV

Para exportar un DataFrame a CSV, utilizamos:

df.to_csv('ruta/al/nuevo_archivo.csv', index=False)

Parámetros principales:

index: indica si incluir el índice de las filas en el archivo.
sep: el delimitador del archivo (por defecto, ,).
encoding: Codificación del archivo (generalmente UTF-8).

Información

Autor: Wenceslao Arroyo-Machado
Fecha de actualización: 26/04/2024
GitHub: https://github.com/Wences91/teaching

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Introducción al manejo de datos en Python 🐍

Sesión 2: Manejo básico de datos en Python

1. Importar Pandas

2. Importar datos

3. Previsualización de datos

4. Seleccionar columnas

5. Seleccionar filas por índice

6. Seleccionar filas usando condiciones

7. Exportar a CSV

Información

FilesExpand file tree

17_python_1.md

Latest commit

History

17_python_1.md

File metadata and controls

Introducción al manejo de datos en Python 🐍

Sesión 2: Manejo básico de datos en Python

1. Importar Pandas

2. Importar datos

3. Previsualización de datos

4. Seleccionar columnas

5. Seleccionar filas por índice

6. Seleccionar filas usando condiciones

7. Exportar a CSV

Información