数据分析前的准备工作

做好数据分析,先好好理解数据和工具

数据分析前的准备工作

  1. 数据与python
  2. python处理数据问题上面重要的库
  3. 环境安装以及常用的学习工具与开发工具

数据与python

数据

数据这个词是抽象的,我们如何认识数据,有2个点我们需要我们作为前提

  1. 数据有可能代表是世界,人等一切事物,及时杂乱无序,但是也在当中存在规律
  2. 从数据中找到合适的规律和特点,那么我们需要结构化数据。那么结构化的数据有哪些?比如:表格类型的数据,多维数组,通过关键列构建的表格类型数据等

注意:大部分数据集都能转换成结构化的数据,结构化只是一种形式,更多的还是人自主的思维能力.比如:一组新闻文章里面的内容可以提取出词频表,而这个表就可以对于以后的情感进行分析

为什么选择用python

  1. python作为胶水语言可以随时沾和随时撕掉
  2. python语言在设计的过程中就是构建以数据为中心的应用型数据
  3. python适用于构建分析应用和一些常见的通用系统(日常的管理系统)

注:python作为一种解释性语言没有编译性语言的运行时间效率要高.这也是python的不足之处

python重要的库

Numpy (数值处理)

  1. 可以构建快速高效的多维数组对象(ndarray)
  2. 可以用于对数组执行数学运算和计算.提供了大量的函数
  3. 可以用于读写硬盘中基于数组的数据集的工具
  4. 常见的线性代数等包含随机数的生成

pandas (面板数据)

  1. 能够处理大量结构化数据
  2. 常用的2个对象一个是DataFrame和Series,分别是面向列的二维表结构以及一个一维的标签化数组对象
  3. 提供复杂精细的索引功能,能够快速的完成重塑,切片,切块,聚合以及选取数据子集等操作

matplotlib

  1. 绘制图表以及其他二维数据可视化的工具

ipython与jupyter

  1. 2个都是良好的交互工具
  2. ipython用于运行,调试,测试等操作
  3. jupyter良好的学习笔记工具

Scipy与scikit-learn与statsmodels

  1. Scipy解决计算中各种标准问题域
  2. scikit-learn机器学习的工具包,偏重于预测
  3. statsmodels统计分析包,偏重于统计与推断

环境安装以及常用的学习工具

python环境的安装

python环境的安装不在进行说明,只是需要注意的是检查不同系统的变量设置,macos系统比较特殊,需要检查.bash_prifile中是否添加

ipython

IMAGE

jupyter

1.更新pip
python -m pip install -U pip setuptools

2.安装,使用国内源满速安装
pip install jupyter -i https://pypi.tuna.tsinghua.edu.cn/simple

3.在命令中直接jupyter notebook

IMAGE