Saltar la navegación

Pandas

La base de la ciencia de datos

Proporciona herramientas de análisis y manipulación de datos de alto rendimiento, su nombre viene de panel data y es la librería de análisis de datos de python, donde podemos cargar, preparar, modelar, manipular y analizar datos.

Las series son matrices de una sola dimensión con índices en las columnas.

Dataframe: son estructuras de datos etiquetados bidimensionales. Constan de los datos, los índices y las columnas. Cuentan con índices tanto en columnas como en filas. Las columnas deben estar compuestas por datos del mismo tipo. 

Creación de un data frame de Pandas desde el código

lista1=["Pedro","Juan","María","Carlos","Ana","Fer"]
df=pd.DataFrame({"Nombres":lista1,"Edad":[25,24,23,21,20,23],"Peso":[70,80,50,75,55,60]})

Mediante df.describe() podemos acceder a los principales datos estadísticos de un data frame. 

  • df["Columna"] - devuelve un df con la columna
  • df.iloc[i,j] - devuelve el elemento que se encuentra en la fila i y la columna j del DataFrame df
  • df.iloc[i] - devuelve una serie con los elementos de la fila i del DataFrame df
  • df["Sexo"]=["H","H","M","H","M","M"] - agraga la columna sexo al DF
  • del df["nombre"] - elimina la columna nombre
  • df.drop([filas]) - devuelve el DataFrame que resulta de eliminar las filas con los nombres indicados en la lista filas del DataFrame df.

Para poder importar archivos cvs que previamente se encuentra almacenado en nuestro equipo usaremos el siguiente código:

from google.colab import files
uploaded = files.upload()
df2 = pd.read_csv("petroleo1.csv")

Creado con eXeLearning (Ventana nueva)