数据分析之路漫漫,贵在坚持.梅花香自苦寒来
pandas基础一
- pandas的数据结构说明
- pandas的数据结构介绍
pandas的数据结构说明
pandas含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具
pandas是基于Numpy数组构建的,特别是基于数组的函数和不适用for循环的数据处理
特点
- pandas是专门为处理表格和混杂数据设计的
- 而Numpy更适合处理统一的数值数组数据
- 用的最多的是使用Series 和 DataFrame
注意:别忘记安装pandas库
pandas数据结构介绍
pandas主要有2个非常重要的数据结构,分别是Series和DataFrame,他们提供了一种可靠的易于使用的基础
Series
Series类似于一维数组的对象,由一组数据以及一组与之相关的数据标签组成
自定义索引
一些运算
类比定长的有序字典
通过字典创建Series
检测缺失值
重要功能
Series最重要的一个功能是会根据运算的索引标签自动对齐数据
Series对象本身和索引都有一个name属性,这个属性和pandas的其它关键功能非常密切
DataFrame
DataFrame是一个表格型的数据结构,含有一组有序的列,每列可以是不同的值类型。
DataFrame既有行索引也有列索引.其中的数据是以一个或多个二维快存放的
通过head方法取前5行数据
可以指定具体列进行排列
如果传入列数据找不到产生缺失值
通过字典表及或者属性方式可以获取一个series
行值和列值得获取
使用del删除列
处理另一种常见的数据(嵌套字典)
嵌套字典转换为dataframe,外层字典的键作为列,内层键作为行索引
可以用T方法进行行和列的交换
索引对象
pandas的索引对象负责管理元数据,无论构建哪种类型,用到的任何数组和序列都会转换成一个Index
注意:与集合不同,pandas的索引是可以包含重复的标签