当前位置:网站首页 > 统计学与数据分析 > 正文

数据分析基础:从统计学入手数据分析!_从零进阶!数据分析的统计基础

来源 | 知乎

https://zhuanlan.zhihu.com/p/


统计学是在数据分析的基础上,研究如何测定、收集、整理、归纳和分析反映数据,以便给出正确消息的科学。如果要学习数据分析,那么扎实的统计知识是必备的。

本文参考《深入浅出统计学》二 、三、 四、 五 章知识,对重点内容进行归纳总结。最后有几个统计概率应用的例子以及使用python分析6家上市公司股票的干货。

01

统计学基础

1.均值

平均数的一般量度:

有时候一些数据重复了,这时候需要用到频数:

2.中位数

偏斜数据和异常值使均值误导的时候,用它,它是中间值。

3.众数

数据中出现最多的数值。

4.四分数

四分位数(Quartile)是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。

注意:由小到大排列。

  • 第一四分位数 (Q1):又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
  • 第二四分位数 (Q2):又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
  • 第三四分位数 (Q3):又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
  • 第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range, IQR)。

5.方差(Variance)

统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数

6.标准差(Standard deviation) 

离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根

标准差能反映一个数据集的离散程度平均数相同的两组数据,标准差未必相同

方差所得的数值之平方根就是总体的标准偏差

7.标准分

是一种由原始分推导出来的相对地位量数,它是用来说明原始分在所属的那批分数中的相对位置的。

02

概率计算

概率是对随机事件发生的可能性的度量,一般以一个在0到1之间的实数表示一个事件发生的可能性大小。

1.对立事件

若A交B为不可能事件,A并B为必然事件,那么称A事件与事件B互为对立事件。其含义是:事件A和事件B必有一个且仅有一个发生。

对立事件概率之间的关系:P(A)+P(B)=1

例如:在掷骰子试验中,A={出现的点数为偶数},b={出现的点数为奇数},A∩B为不可能事件,A∪B为必然事件,所以A与B互为对立事件。

2.相交事件

可能同时发生的两件事。

3.互斥事件

两件事中只可能发生一件

抛硬币,正反面是互斥,抛出正面就不可能有反面。

4.独立事件

发生概率不受其他事件影响

你抛一个硬币三次,结果全是"正面"……下一次抛掷的结果也是"正面"的可能性是多少?

可能性是 ½(0.5),和任何一次抛掷一样。

以前的抛掷不会影响这次抛掷!

贝叶斯定理(英语:Bayes' theorem)是概率论中的一个定理,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解释中,贝叶斯定理(贝叶斯公式)能够告知我们如何利用新证据修改已有的看法

在介绍贝叶斯定理之前,先简单地介绍一下条件概率,描述的是事件 A 在另一个事件 B 已经发生条件下的概率

A 和 B 可能是相互独立的两个事件,也可能不是。

03

概率统计的应用

1.期望值 

在概率论和统计学中,一个离散性随机变量的期望值(或数学期望、或均值,亦简称期望,物理学中称为期待值)是试验中每次可能的结果乘以其结果概率的总和

2.夏普比率

现代投资理论的研究表明,风险的大小在决定组合的表现上具有基础性的作用。风险调整后的收益率就是一个可以同时对收益与风险加以考虑的综合指标,以期能够排除风险因素对绩效评估的不利影响。夏普比率就是一个可以同时对收益与风险加以综合考虑的三大经典指标之一。

如果夏普比率为正值,说明在衡量期内基金的平均净值增长率超过了无风险利率,在以同期银行存款利率作为无风险利率的情况下,说明投资基金比银行存款要好。

夏普比率越大,说明基金的单位风险所获得的风险回报越高。

夏普比率为负时,按大小排序没有意义。夏普比率以资本市场线作为评价基准,对投资绩效作出评估。

3.利用Python分析6家公司股票(阿里巴巴 亚马逊 腾讯 苹果 facebook 谷歌)

首先导入包

创建字典

获取阿里巴巴股票数据

会得到如下股票数据:

查看数据集描述

会得到下面的数据:

分析涨跌得到如下数据:

绘图步骤

可以得到‘阿里巴巴’的股票走向

其他几家公司同理:

END

本文为转载分享,如侵权请联系后台删除

●别了,腾讯微博。

●取数,取数,取个屁啊!

后台回复“入群”即可加入小z数据干货交流群 
到此这篇数据分析基础:从统计学入手数据分析!_从零进阶!数据分析的统计基础的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!

版权声明


相关文章:

  • 数理统计在生物统计学中的数据分析方法_数理统计在生物统计学中的数据分析方法有2024-10-30 17:26:55
  • 【统计学知识案例实践】—数据分析实战案例_数据统计与分析案例2024-10-30 17:26:55
  • 统计学常用的数据分析方法总结_统计学常用的数据分析方法总结2024-10-30 17:26:55
  • 统计学方法与数据分析学习笔记1_统计学方法与数据分析引论2024-10-30 17:26:55
  • 数据分析之统计知识总结_统计 数据分析2024-10-30 17:26:55
  • 【看完这篇就够了!!!通俗易懂】置信度理解(95%的置信度、置信区间)_置信度与置信区间2024-10-30 17:26:55
  • 我的数据分析师转型之路,从零到字节跳动数据分析师_数据分析师有用吗2024-10-30 17:26:55
  • 基于统计学的商务与经济数据分析知识_商务统计学课程2024-10-30 17:26:55
  • 统计学与大数据分析_统计学与大数据分析专业2024-10-30 17:26:55
  • 数据分析的统计学基础——思维导图_数据分析必备的统计学基础2024-10-30 17:26:55
  • 全屏图片