做好数据分析,先好好理解数据和工具
数据分析前的准备工作
- 数据与python
- python处理数据问题上面重要的库
- 环境安装以及常用的学习工具与开发工具
数据与python
数据
数据这个词是抽象的,我们如何认识数据,有2个点我们需要我们作为前提
- 数据有可能代表是世界,人等一切事物,及时杂乱无序,但是也在当中存在规律
- 从数据中找到合适的规律和特点,那么我们需要结构化数据。那么结构化的数据有哪些?比如:表格类型的数据,多维数组,通过关键列构建的表格类型数据等
注意:大部分数据集都能转换成结构化的数据,结构化只是一种形式,更多的还是人自主的思维能力.比如:一组新闻文章里面的内容可以提取出词频表,而这个表就可以对于以后的情感进行分析
为什么选择用python
- python作为胶水语言可以随时沾和随时撕掉
- python语言在设计的过程中就是构建以数据为中心的应用型数据
- python适用于构建分析应用和一些常见的通用系统(日常的管理系统)
注:python作为一种解释性语言没有编译性语言的运行时间效率要高.这也是python的不足之处
python重要的库
Numpy (数值处理)
- 可以构建快速高效的多维数组对象(ndarray)
- 可以用于对数组执行数学运算和计算.提供了大量的函数
- 可以用于读写硬盘中基于数组的数据集的工具
- 常见的线性代数等包含随机数的生成
pandas (面板数据)
- 能够处理大量结构化数据
- 常用的2个对象一个是DataFrame和Series,分别是面向列的二维表结构以及一个一维的标签化数组对象
- 提供复杂精细的索引功能,能够快速的完成重塑,切片,切块,聚合以及选取数据子集等操作
matplotlib
- 绘制图表以及其他二维数据可视化的工具
ipython与jupyter
- 2个都是良好的交互工具
- ipython用于运行,调试,测试等操作
- jupyter良好的学习笔记工具
Scipy与scikit-learn与statsmodels
- Scipy解决计算中各种标准问题域
- scikit-learn机器学习的工具包,偏重于预测
- statsmodels统计分析包,偏重于统计与推断
环境安装以及常用的学习工具
python环境的安装
python环境的安装不在进行说明,只是需要注意的是检查不同系统的变量设置,macos系统比较特殊,需要检查.bash_prifile中是否添加
ipython
jupyter
1.更新pip
python -m pip install -U pip setuptools
2.安装,使用国内源满速安装
pip install jupyter -i https://pypi.tuna.tsinghua.edu.cn/simple
3.在命令中直接jupyter notebook