数据分析之Pandas基础三

协方差和相关系数非常的有意思,可以让你衍生出现在就想关心数据应该怎么组合

pandas基础三

  1. 汇总和计算描述统计

汇总和计算描述统计

pandas对象拥有一组常用的数学和统计方法,大部分是属于约简和汇总统计。用于从series提取单个值或者从DataFrame的行或者列中提取一个series,都是基于没有缺失数据假设构建的

返回一个列的所有的和

IMAGE

按照行进行求和运算

IMAGE

求平均值

IMAGE

间接统计和累计统计,以及多次汇总

IMAGE

IMAGE

例如,两组数的集合{0,5,9,14}和{5,6,8,9}其平均值都是7,但第二个集合具有较小的标准差。标准差可以当作不确定性的一种测量。例如在物理科学中,做重复性测量时,测量数值集合的标准差代表这些测量的精确度。当要决定测量值是否符合预测值,测量值的标准差占有决定性重要角色:如果测量平均值与预测值相差太远(同时与标准差数值做比较),则认为测量值与预测值互相矛盾。这很容易理解,因为如果测量值都落在一定数值范围之外,可以合理推论预测值是否正确。标准差应用于投资上,可作为量度回报稳定性的指标。标准差数值越大,代表回报远离过去平均数值,回报较不稳定故风险越高。相反,标准差数值越小,代表回报较为稳定,风险亦较小

计算均方差,要看样本量是等概率,还有概率的。如果没有概率,直接计算离差的平方=(样本金额-平均值)的平方,然后所以样本量的离差平方求和,再除以(样本个数-1),然后开根号,就是标准差。如果有概率的话,只需要在计算合计数时考虑加权平均,不用再除以个数-1,直接开根号。

对于非数值的统计

IMAGE

IMAGE

相关系数与协方差

1、协方差是一个用于测量投资组合中某一具体投资项目相对于另一投资项目风险的统计指标,通俗点就是投资组合中两个项目间收益率的相关程度,正数说明两个项目一个收益率上升,另一个也上升,收益率呈同方向变化.如果是负数,则一个上升另一个下降,表明收益率是反方向变化.协方差的绝对值越大,表示这两种资产收益率关系越密切;绝对值越小表明这两种资产收益率的关系越疏远.2、由于协方差比较难理解,所以将协方差除以两个投资方案投资收益率的标准差之积,得出一个与协方差具有相同性质却没有量化的数.这个数就是相关系数.计算公式为相关系数=协方差/两个项目标准差之积.

IMAGE

关于相关系数可以参考如下2篇文章

协方差和相关系数

计算相关系数

IMAGE

总结

其实协方差和相关系数除了公式还要琢磨之外,更多的应该理解他们的作用。其实也是看待一件事物和另一件事物的紧密性,也可以叫做关联度.可以用到彩票,交易,产业发展组合