越来越有意思了,坚持坚持
数据加载,存储与文件格式
- 读写文本格式的数据
读写文本格式的数据
利用pandas的数据输入和输出,输入和输出划分几个大类:读取文本文件,加载数据库中的数据,利用webapi操作网络资源
pandas提供了一些用于将表格型数据读取为DataFrame对象的函数,其中readcsv和readtable是比较常用的

读取逗号分隔

指定分隔符读取

针对无标题行的文件

多个列层次化索引

有些表格并未用特定的分隔符

跳过注释

缺失值处理
一般来说缺失值要么为空,要么没有.pandas会用一组经常出现的标记值进行识别.比如NA或者Null

通过na_value替换值

逐块读取文本文件
在处理很大的文件时,找出大文件中参数以便后续处理.

通过nrows指定读取几行

逐块读取

将数据学出到文本格式

弥补缺失值

Series中使用

处理分隔符格式

转化为符合要求的数据格式

JSON数据
1 | obj = """ |
json之间的转换

向一个DataFrame传入一个字典列表

特殊json
假定json数组中每个对象是表格中的一行

web信息收集
安装所需要的库
1 | pip3 install lxml -i http://pypi.douban.com/simple/ |

小例子看出现频率最高的

解析html
1 | pip3 install requests -i https://pypi.tuna.tsinghua.edu.cn/simple |
有待改进


再次优化
