越来越有意思了,坚持坚持
数据加载,存储与文件格式
- 读写文本格式的数据
读写文本格式的数据
利用pandas的数据输入和输出,输入和输出划分几个大类:读取文本文件,加载数据库中的数据,利用webapi操作网络资源
pandas提供了一些用于将表格型数据读取为DataFrame对象的函数,其中readcsv和readtable是比较常用的
读取逗号分隔
指定分隔符读取
针对无标题行的文件
多个列层次化索引
有些表格并未用特定的分隔符
跳过注释
缺失值处理
一般来说缺失值要么为空,要么没有.pandas会用一组经常出现的标记值进行识别.比如NA或者Null
通过na_value替换值
逐块读取文本文件
在处理很大的文件时,找出大文件中参数以便后续处理.
通过nrows指定读取几行
逐块读取
将数据学出到文本格式
弥补缺失值
Series中使用
处理分隔符格式
转化为符合要求的数据格式
JSON数据
1 | obj = """ |
json之间的转换
向一个DataFrame传入一个字典列表
特殊json
假定json数组中每个对象是表格中的一行
web信息收集
安装所需要的库
1 | pip3 install lxml -i http://pypi.douban.com/simple/ |
小例子看出现频率最高的
解析html
1 | pip3 install requests -i https://pypi.tuna.tsinghua.edu.cn/simple |
有待改进
再次优化