数据分析之Pandas基础一

数据分析之路漫漫,贵在坚持.梅花香自苦寒来

pandas基础一

  1. pandas的数据结构说明
  2. pandas的数据结构介绍

pandas的数据结构说明

pandas含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具

pandas是基于Numpy数组构建的,特别是基于数组的函数和不适用for循环的数据处理

特点

  1. pandas是专门为处理表格和混杂数据设计的
  2. 而Numpy更适合处理统一的数值数组数据
  3. 用的最多的是使用Series 和 DataFrame

注意:别忘记安装pandas库

IMAGE

pandas数据结构介绍

pandas主要有2个非常重要的数据结构,分别是Series和DataFrame,他们提供了一种可靠的易于使用的基础

Series

Series类似于一维数组的对象,由一组数据以及一组与之相关的数据标签组成

IMAGE

自定义索引

IMAGE

一些运算

IMAGE

类比定长的有序字典

IMAGE

通过字典创建Series

IMAGE

检测缺失值

IMAGE

重要功能

Series最重要的一个功能是会根据运算的索引标签自动对齐数据

IMAGE

Series对象本身和索引都有一个name属性,这个属性和pandas的其它关键功能非常密切

IMAGE

IMAGE

DataFrame

DataFrame是一个表格型的数据结构,含有一组有序的列,每列可以是不同的值类型。

DataFrame既有行索引也有列索引.其中的数据是以一个或多个二维快存放的

IMAGE

通过head方法取前5行数据

IMAGE

可以指定具体列进行排列

IMAGE

如果传入列数据找不到产生缺失值

IMAGE

通过字典表及或者属性方式可以获取一个series

IMAGE

行值和列值得获取

IMAGE

IMAGE

IMAGE

使用del删除列

IMAGE

处理另一种常见的数据(嵌套字典)

嵌套字典转换为dataframe,外层字典的键作为列,内层键作为行索引

IMAGE

可以用T方法进行行和列的交换

IMAGE

IMAGE

索引对象

pandas的索引对象负责管理元数据,无论构建哪种类型,用到的任何数组和序列都会转换成一个Index

注意:与集合不同,pandas的索引是可以包含重复的标签

索引一些方法和属性

IMAGE