第三章 概率与分布
3.1 随机抽样
1 | #在R中,如果想进行随机抽样,比如从1-40中随机抽取5个数字 |
3.2 概率计算与排列组合
1 | #使用prod函数,进行连乘 |
3.3 离散分布
当观察一个独立重复二项实验时,通常对每次实验的成功或失败并不感兴趣,更感兴趣的是成功或失败的总数。显然,这个总数是随机的,因为它依赖于每一次随机结果,因此被称为随机变量。
它是一个可以取值0,1,2,3,……,n的离散值的随机变量。
随机变量$$X$$具有概率分布,可以用点概率$$f(x)=P(X=x)$$或累计分布函数$$F(x)=P(X=x)$$描述。在上述二项分布情形下,分布可以用点概率来得到:
$$
f(x)=(\begin{matrix}
n\
x\
\end{matrix})p^x(1-p)^{n-x}
$$
其中
$$
(\begin{matrix}
n\
x\
\end{matrix})
$$
被称为二项系数。参数P是一次独立实验中成功地概率。
3.4 连续分布
有些数据来自于对实质连续尺度的测量,比如温度什么的。这种测量通常包含随机变化的因素,这使得测量很难被完全重复。然而,这种随机波动会遵循某种模式:它会集中在某个中心值附近,大的偏差比小的要少得多。
为了连续数据建模,需要定义能包含任意实数值的随机变量。因为有无穷的数字无限接近,任何特定值的概率是0,所以这里没有像离散型随机变量那样的点概率的说法,取而代之的是密度的概念。
它是指x的一个小邻域的无穷小概率除以区域的大小。累计分布函数的定义如前,并且有下面的关系:
$$
F(x)=\int_{-\infty}^\infty{f(x)dx}
$$
在统计理论中有许多常见的分布,可以在R中使用。先看下面几个例子。
均匀分布是在一个特定的区间(默认是[0,1])上有常数密度。
正态分布(也成为高斯分布)具有密度:
$$
f(x)=\frac{1}{\sqrt}exp(-\frac{(x-\mu)^2}{2\sigma^2})
$$
依赖于均值$$\mu$$和标准差$$\sigma$$。正态分布具有标志性的钟形曲线。
3.5 R中的内置分布
与建模和统计检验有关的常用标准分布都已经嵌入到R中,因此可以完全取代传统的统计表格。下面只看一下正态分布和二项分布。
对一个统计分布可以计算4项基本内容:
密度或点概率;
累计概率分布函数
分位数
伪随机数
对R中所有的分布,关于上面列出的4项都对应一个相应的函数,比如对于正态分布,它们分别为dnorm,pnorm,qnorm和rnorm(分别对应密度,概率、分位数和随机数)。
3.5.1 密度
连续分布的密度是“得到一个接近x的值”的相对可能性的度量。在一个特定区间得到一个值得概率是在相应曲线下的面积。
离散分布,密度用于点概率——恰好得到x值得概率。
1 | #对于密度函数,可以如下进行 |
3.5.2 累计分布函数
累计分布函数描述的是对一个给定分布小于或等于x的分布的概率。相应R函数按惯例以“p”开头。
比如,一种生化指标可以用均值132,标准差13的正态分布描述,而某个患者的该指标为160,则:
1 | 1-pnorm(160,mean=132,sd=13) |
另一个典型应用与统计检验有关。考虑简单的符号检验:
20个病人每人进行2中治疗(以随机顺序治疗),问治疗A还是治疗B更好。结果表明16人认为A好。问题是这是否能作为A确实更好的充分证据,还是说这个结果也可能只是偶然发生的,即使两种治疗效果同样好。如果两种治疗没有差别,可以认为喜欢A的人数服从n=20,p=0.5的二项分布。那么所观测到的结果有多少种可能呢,如同在正态分布下,需要一个尾部概率。
1 | pbinom(16,size=20,prob=.5) |
然后用1减去它得到上尾概率,但这是不对的。我们需要的是观测到的或更极端的概率,pbinom给出了16或更少数量的概率。此处用“15或更少”来代替:
1 | 1-pbinom(15,size=20,prob=.5) |
如果因为没有关于哪种治疗方法更好的假设,而希望进行双侧检验,那么必须加上得到在另一侧同样极端结果的概率。这意味着4个或更少的人喜欢A的概率。下面给出总的概率:
1 | 1-pbinom(15,20,.5)+pbinom(4,20,.5) |
3.5.3 分位数
分位数函数是累计分布函数的反函数。具有这样的性质:得到小于等于它的概率为p。根据定义,中位数即50%分位数。
理论分位数通常用于置信区间的计算,以及与设计试验有关的势函数的计算。下面给出一个置信区间计算的简单例子。
如果有来自具有共同均值μ和标准差σ的正态分布的n个观测,均值$$ \overline{X}$$服从均值为$$\mu$$、标准差为$$\sigma/\sqrt{n}$$的正态分布,$$\mu$$的95%置信区间为:
$$
\overline{x}+\sigma/\sqrt{n}\times N{0.025}\leq\mu\leq\overline{x}+\sigma/\sqrt{n}\times N{0.025}
$$
其中$$N_{0.025}$$是正态分布的2.5%分位数。如果$$\sigma=12$$,观测了$$n=5$$个人,得到均值$$\overline{x}=83$$,那么可以计算相关分位数如下:(sem表示standard error of the mean)
1 | xbar <- 83 |
因此得到了一个$$\mu$$的置信度为95%的置信区间,从72.48到93.52。
由于正态分布是对称的,所以有$$N{0.025}=-N{0.975}$$,通常把置信区间公式写成$$\overline{x}\pm\sigma/\sqrt{n}\times N_{0.975}$$。这个分位数通常被记为$$\Phi^{-1}(0.975)$$。此处$$\Phi$$是标准正态分布(pnorm)函数的标准符号。
3.5.4 随机数字
使用随机数产生函数非常简单。第一个参数指定用于计算的随机数的数量,后续参数类似于其他与相同分布有关的函数中相应位置的参数,例如:
1 | rnorm(10) |