数据分析之数据加载,存储与文件格式一

越来越有意思了,坚持坚持

数据加载,存储与文件格式

  1. 读写文本格式的数据

读写文本格式的数据

利用pandas的数据输入和输出,输入和输出划分几个大类:读取文本文件,加载数据库中的数据,利用webapi操作网络资源

pandas提供了一些用于将表格型数据读取为DataFrame对象的函数,其中readcsv和readtable是比较常用的

IMAGE

读取逗号分隔

IMAGE

指定分隔符读取

IMAGE

针对无标题行的文件

IMAGE

多个列层次化索引

IMAGE

有些表格并未用特定的分隔符

IMAGE

跳过注释

IMAGE

缺失值处理

一般来说缺失值要么为空,要么没有.pandas会用一组经常出现的标记值进行识别.比如NA或者Null

IMAGE

通过na_value替换值

IMAGE

逐块读取文本文件

在处理很大的文件时,找出大文件中参数以便后续处理.

IMAGE

通过nrows指定读取几行

IMAGE

逐块读取

IMAGE

将数据学出到文本格式

IMAGE

弥补缺失值

IMAGE

Series中使用

IMAGE

处理分隔符格式

IMAGE

转化为符合要求的数据格式

IMAGE

JSON数据

1
2
3
4
5
6
7
8
9
obj = """
{"name": "Wes",
"places_lived": ["United States", "Spain", "Germany"],
"pet": null,
"siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]},
{"name": "Katie", "age": 38,
"pets": ["Sixes", "Stache", "Cisco"]}]
}
"""

json之间的转换

IMAGE

向一个DataFrame传入一个字典列表

IMAGE

特殊json

假定json数组中每个对象是表格中的一行

IMAGE

web信息收集

安装所需要的库

1
2
pip3 install lxml -i http://pypi.douban.com/simple/
pip3 install bs4 html5lib -i https://pypi.tuna.tsinghua.edu.cn/simple

IMAGE

小例子看出现频率最高的

IMAGE

解析html

1
pip3 install requests -i  https://pypi.tuna.tsinghua.edu.cn/simple

有待改进

IMAGE

IMAGE

再次优化

IMAGE