概率
样本空间
实验结果总体。记作,其元素记作
事件
样本空间的特定子集,斜体大写字母表示。
概率测度
定义在Ω子集上的实函数,满足
-
P(Ω)=1
-
如果AΩ,那么P(A)≥0
-
如果A、B不相交,P(A∪B)=P(A)+P(B)
条件概率
称为B发生条件下A发生的概率。
全概率定律
设满足,且任意的两个不相交,P(>0
那么,对于任意的A,P(A)=
贝叶斯公式
独立性
如果P(AB)=P(A)P(B)那么称A、B是相互独立的。
题型
事件表示与复合
集合运算
古典概型与几何概型
条件概率的计算
1 以有限蕴含无限:递归求解
甲乙进行比赛,每进行一次,胜者得一分,在一次比赛中,甲胜率为,乙为。独立的进行比赛直到有以让超过对方两分。多得两分者为胜。试求甲、乙获胜的概率。
设两次比赛为一轮,为甲在一轮比赛中得i分(i=0,1,2);B={甲获胜}。由因为甲在一轮比赛中得一分则与下一轮胜负无关,得0或2分则课分出胜负,即
又有
则由全概率公式
随机变量
离散随机变量
只能取有限多个值或者至多可列无限多个值的随机变量。
概率质量函数/频率函数
满足和的函数p
累积分布函数(cdf)
F(x)=P(X≤x),-∞<x<+∞
累积分布函数是非降的。且F(+∞)=1,F(-∞)=0
伯努利随机变量
如果某个变量只取0和1两个值,概率分别为1-p和p;
二项分布
N次独立重复实验成功k次。
记号
X~B(n,p)
分布列/概率密度
K=0,1,...,n;0<p<1;q=1-p
分布函数
期望与方差
几何分布
独立重复实验直到成功
P(k)=表示k-1次失败+1次成功
记号
X~G(p)
分布列/概率密度
K=1,2,...;0<p<1;q=1-p
分布函数
期望与方差
帕斯卡分布
独立重复实验直到成功r次
记号
X~NB(r,p)
分布列/概率密度
K=r,r+1,...;0<p<1;q=1-p
期望与方差
超几何(Hypergeometic)分布
记号
X~H(N,M,n)
分布列/概率密度
K=m,m+1,...,L
m=max(0,n-(N-M))
L=min(n,M)
分布函数
期望与方差
Poisson分布
记号
X~P()
分布列/概率密度
K=0,1,2,...;
分布函数
期望与方差
连续随机变量
分布函数
连续随机变量的cdf可以用于估计X落入一个区间的概率。
特性
- , 右连续
概率密度
连续随机变量取特值的概率为0,那么连续型的概率密度函数定义为:设是X的分布函数,如果存在一个非负函数,则称为连续型随机变量X的概率密度
特性
- 如果在连续,则有
均匀分布
记号
X~U[a,b]
分布列/概率密度
\frac{1}{b - a},a \leq x \leq b \\ 0,else \\ \end{matrix} \right.\ $$ ##### 分布函数 $$F\left( x \right) = \left\{ \begin{matrix} 0,x < a \\ \frac{x - a}{b - a},a \leq x \leq b \\ 1,x > b \\ \end{matrix} \right.\ $$ ##### 期望与方差\text{EX} = \frac{a + b}{2}, DX = \frac{ {(b - a)}^{2}}{12}
#### 指数密度分布 f(x)= $\left\{ \begin{matrix} \lambda e^{- \lambda x},x \geq 0 \\ 0,x < 0 \\ \end{matrix} \right. $ ##### 记号 X\~E($\lambda$) ##### 分布列/概率密度 $$f(x) = \left\{ \begin{matrix} \lambda e^{- \lambda x},x > 0,\lambda > 0 \\ 0,x \leq 0 \\ \end{matrix} \right.\ $$ ##### 分布函数 $$F\left( x \right) = \left\{ \begin{matrix} 1 - e^{- \lambda x},x > 0 \\ 0,e \leq 0 \\ \end{matrix} \right.\ $$ ##### 期望与方差 $$\text{EX} = \frac{1}{\lambda},\ DX = \frac{1}{\lambda^{2}}$$ #### 高斯分布 $$f\left( x \right) = \frac{1}{\sigma\sqrt{2\pi}}e^{- \frac{ {(x - \mu)}^{2}}{2\sigma^{2}}}$$ $\mu$称为均值,$\sigma$称为标准差; 高斯分布的cdf记为$\Phi$密度为$\phi$ ##### 记号 X\~N($\mu,\sigma^{2}$) ##### 分布列/概率密度 $$f(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{- \frac{ {(x - \mu)}^{2}}{2\sigma^{2}}}$$ ##### 分布函数 $$F\left( x \right) = \Phi(\frac{x - \mu}{\sigma})$$ ##### 期望与方差 $$\text{EX} = \mu,\ DX = \sigma^{2}$$ ### 随机变量的函数 1. 随机变量的Cdf线性兼容。然后密度是Cdf的导数。 > 即 $$\text{if\ }\left( X\sim N\left( \mu,\sigma^{2} \right)\ \&\&\ Y = aX + b \right)\text{\ then\ Y}\sim N\left( a\mu + b,{(a\sigma)}^{2} \right)$$ 2. 设X是具有f密度的连续随机变量,Y=g(X),其中g有连续的导数且严格单调,那么Y有密度函数 $$f_{Y}\left( y \right) = f_{X}\left( g^{- 1}\left( y \right) \right)|\frac{d}{\text{dy}}g^{- 1}(y)|$$ ### 题型 #### 求变量函数的分布 ##### 公式法 设X位连续性随机变量,分布f(x),g(x)是严格单调的连续函数,然后其反函数h(x)有连续导数,那么Y=g(X)也是连续型随机变量,分布 $$f_{Y}\left( y \right) = f_{X}\left( h\left( y \right) \right)|h'(y)|$$ ##### 分布函数法 求F(y)=P(g(X)\<=y) 求f(y)=F'(y) #### 用概率密度的特征解题 $$\int_{R}^{\ }{f\left( x \right)\text{dx}} = 1$$ #### 用标准化正态分布解题 $$F\left( x \right) = \Phi(\frac{x - \mu}{\sigma})$$ ## 联合分布 定义在同一个样本空间上的两个或以上随机变量的联合概率结构。 ### 离散随机变量 #### 联合频率函数/联合概率质量函数 p(x,y)=P(X=x,Y=y) #### 边际频率函数 $$p_{Y}\left( y \right) = P(Y = y)$$ ### 连续随机变量 边际累积分布函数的偏导数,可以导出边际密度。 #### 联合概率密度分布函数 $f\left( x,y \right)$且$\iint_{R^{2}}^{\ }{f\left( x,y \right)\text{dxdy}} = 1$ 然后对于任意合理的二维集合A $$P\left( \left( X,Y \right) \in A \right) = \iint_{A}^{\ }{f\left( x,y \right)\text{dxdy}}$$ #### 边缘概率密度 $$f_{X}\left( x \right) = \int_{R}^{\ }{f\left( x,y \right)\text{dy}}$$ $$f_{Y}\left( x \right) = \int_{R}^{\ }{f\left( x,y \right)\text{dx}}$$ ### 独立随机变量 随机变量$X_{1},X_{2},\ldots,X_{n}$称为独立的,如果对所有$x_{1},x_{2},\ldots,x_{n}$,他们的累积分布函数可以分解为各自累积分布函数的乘积 F($x_{1},x_{2},\ldots,x_{n})$=$\ F_{X_{1}}\left( x_{1} \right)F_{X_{2}}\left( x_{2} \right)\ldots F_{X_{n}}(x_{n})$ ### 条件分布 #### 离散情形 P(X=$x_{i}$\| Y=$y_{i}$)=$\frac{P(X = x_{i},\ Y = y_{i})}{P(\ Y = y_{i})}$,然后如果$P\left( \ Y = y_{i} \right)$=0那么定义此概率为0. 那么X,Y独立的充要条件是 $$P\left( X = x_{i},\ Y = y_{i} \right) = P(\ X = x_{i})P(\ Y = y_{i})$$ #### 连续情形 $$f_{Y|X}\left( y \middle| x \right) = \frac{f_{\ }(x,y)}{f_{X}(x)}$$ 那么X,Y独立的充要条件是 $$f_{\ }\left( x,y \right) = f_{X}(x)f_{Y}(y)$$ 关于概率分布函数:F_{X|Y}(x|y)=\int_{-\infty}^x f_{X|Y}(u|y)du
### 联合分布随机变量函数 #### 离散情形 设Z=g(X,Y),那么Z的分布列 $$P\left( \ Z = z_{i} \right) = \sum_{g(x_{i},y_{i})}^{}{P\left( X = x_{i},\ Y = y_{i} \right)}$$ 对于线性叠加 Z=X+Y $$P\left( \ Z = k \right) = \sum_{i = 1}^{k}{P\left( X = i,\ Y = k - i \right)}$$ 当Y独立, $$P\left( \ Z = k \right) = \sum_{i = 1}^{k}{P\left( X = i)P(Y = k - i \right)}$$ #### 连续情形 ##### 分布函数法 $$F_{Z}\left( z \right) = P\left( Z \leq z \right) = P\left( g\left( X,Y \right) \leq z \right) = \iint_{g(x,y) \leq z}^{\ }{f\left( x,y \right)\text{dxdy}}$$ ##### 公式法 ##### 卷积 对于Z=X+Y $$f_{Z}\left( z \right) = \int_{- \infty}^{+ \infty}{f(z - y,y)}dy$$ 然后如果X,Y独立, $$f_{Z}\left( z \right) = \int_{- \infty}^{+ \infty}{f_{X}\left( z - y \right)f_{Y}\left( y \right)}dy$$ #### 重要结论 对于独立的变量X,Y: Poisson变量X,Y的线性组合仍然服从Poisson分布 二项分布变量X,Y的线性组合仍然服从二项分布 高斯分布变量X,Y的线性组合仍然服从高斯分布 ### 题型 #### 求联合分布 ***已知$f(x,y)=\cases{xe^{-y},0<x<y\\0,其它}$求联合分布函数。***F(x,y)=\int_{-\infty}^x\int_{-\infty}^yf(u,v)dudv =\begin{cases} 0&x\le0 ||y\le0 \ \int_0^ydv\int_0^vue^{-v}du&0<y<x\ \int_0^xdu\int_u^yue^{-v}dv&0<x<y \end{cases}
#### 求边缘分布 ##### 分布列f_X(x)=\int_{- \infty}^{+ \infty}{f(x,y)\text{dy}}\ f_Y(y)=\int_{- \infty}^{+ \infty}{f(x,y)\text{dx}}
##### 分布函数F_X(x)=\lim_{y \rightarrow \infty}F(x,y)\ F_Y(x)=\lim_{x \rightarrow \infty}F(x,y)
#### 连续双变量积分求概率 #### 独立性确定f(x,y)=f_X(x)\cdot f_Y(y)\ 或\ F(x,y)=F_X(x)\cdot F_Y(y)
#### 求多元函数的分布列 ## 期望 ### 期望 对于离散随机变量, $$E(X) = \sum_{}^{}{x_{i}p(x_{i})}$$ 如果和发散,那么期望无定义; 对于连续随机变量, $$E(X) = \int_{- \infty}^{+ \infty}{xf\left( x \right)\text{dx}}$$ 如果积分发散,那么期望无定义; 期望可以看作密度质量的中心。 偶函数分布的期望为0. #### 随机变量函数的期望 令Y=g(X), $$E(Y) = \sum_{}^{}{g(x)p(x)}$$ 或 $$E(Y) = \int_{- \infty}^{+ \infty}{g\left( x \right)f\left( x \right)\text{dx}}$$ 假设$X_{1},X_{2},\ldots,X_{n}$是具有联合分布的随机变量,Y=g($X_{1},X_{2},\ldots,X_{n}$),那么 $$E(Y) = \sum_{}^{}{g(x_{1},x_{2},\ldots,x_{n})p(x_{1},x_{2},\ldots,x_{n})}$$ 或者 $$E(Y) = \iint_{}^{}\ldots\int_{}^{}{g\left( x_{1},x_{2},\ldots,x_{n} \right)f\left( x_{1},x_{2},\ldots,x_{n} \right)d}x_{1}x_{2}\ldots x_{n}$$ 推论: 如果X,Y是独立随机变量,g h是固定函数,那么E(g(X)h(Y))=E(g(X))E(h(y)) #### 性质 1. 期望兼容线性运算(线性表达式的期望等于期望的线性表达式)。 2. 对于X,Y独立的情况,E(XY)=E(X)E(Y) ### 方差和标准差 方差D(X)=E(${(X - E(X))}^{2}$)= E($X^{2}) - {(E(X))}^{2}$ 标准差是方差的平方根 令μ=E(X) 有 $$D(X) = \sum_{}^{}{ {(x_{i} - \mu)}^{2}p(x_{i})}$$ 或 $$D(X) = \int_{- \infty}^{+ \infty}{ {(x - \mu)}^{2}f\left( x \right)\text{dx}}$$ #### 性质 1. $D(aX+bY)=a^2DX+b^2DY+2abCov(X,Y)$ 2. 如果$\sigma^{2} = 0$那么P(X=μ)=1 #### 切比雪夫不等式 设X均值为μ,方差$\sigma^{2}$那么任意的t\>0,P(\|X-μ\|\>t)≤$\frac{\sigma^{2}}{t^{2}}$ ### 协方差 设X,Y分别是有期望$\mu_{X}$,$\mu_{Y}$则定义X,Y的协方差为 Cov(X,Y)=E((X-$\mu_{X}$)(Y-$\mu_{Y}$))=E(XY)-E(X)$\ \mu_{Y}$-E(Y)$\ \mu_{X}$+$\mu_{X}\mu_{Y}$=E(XY)-E(X)E(Y) #### 性质 1. 令$U = a + \sum_{i = 1}^{n}{b_{i}X_{i}}$,$\ V = c + \sum_{j = 1}^{m}{d_{j}Y_{j}}$ > Cov(U,V)=$\sum_{i = 1}^{n}{\sum_{j = 1}^{m}{ {b_{i}d}_{j}Cov(X_{i},Y_{j})}}$ 2. D(X)=Cov(X,X) 3. D(X+Y)=D(X)+D(Y)+2Cov(X,Y) 4. $D\left( a + \sum_{i = 1}^{n}{b_{i}X_{i}} \right) = \sum_{i = 1}^{n}{\sum_{j = 1}^{n}{ {b_{i}b}_{j}Cov(X_{i},X_{j})}}$ 5. 如果$X_{i}$独立,那么对于i≠j,Cov($X_{i}$,$\ X_{j}$)=0 > 那么$D\left( \sum_{}^{}X_{i} \right) = \sum_{}^{}{D(X_{i})}$,但是协方差为0不一定独立。 #### 相关系数 如果X和Y的方差和协方差都存在且方差非0 那么定义$\rho = \frac{C\text{ov}(X,Y)}{\sqrt{D\left( X \right)D(Y)}}$ -1≤$\rho$≤1.$\text{\ ρ}$=±1当且仅当P(Y=aX+b)=1,其中a、b为常数。 ### 题型 #### 已知分布列求期望方差 #### 各种各样的求期望方差 ##### 1 ***几副相异的手套共2n只,随机分成n堆,每堆2只,以X为“恰好成一幅的堆数”,求EX和DX*** 引入随机变量$X_1,X2,\cdots,X_n;X_i=\cases{1,第i堆恰成一副\\0,其它},i=1,2,\cdots,n$,则有$X=\sum_{i=1}^nX_i$,且$EX_i=P(X_i=1)=\frac{2n(2n-2)!}{(2n)!}=\frac{1}{2n-1}$ 那么EX=\sum_{i=1}^nEX_i=\frac{n}{2n-1}
EX^2=\sum EX_i^2+\sum_{i,j=1}^{n}E(X_iX_j)
X_i=0or1,\space s.t.EX_i^2=EX_i\E(X_iY_i)=P(X_i=1,X_j=1)_{i\not=j}=\frac{2n(2n-2)(2n-4)!}{(2n)!}=\frac 1{(2n-1)(2n-3)}
EX^2=\sum EX_i^2+\sum_{i,j=1}^{n}E(X_iX_j)=\frac{n}{2n-1}+\frac{n(n-1)}{(2n-1)(2n-3)}\DX=EX^2-(EX)^2=\frac{4n(n-1)^2}{(2n-1)^2(2n-3)}
#### 切雪比夫不等式的应用 ## 样本与抽样分布 ### 基本定义 #### 总体&个体 研究对象的 全体称为总体,总体的每个元素称为个体。 #### 样本 如果$X_1,X_2,...,X_n$相互独立,然后与总体***X***具有相同的分布,则称这样的$X_1,X_2,...,X_n$为来自总体***X***的一个简单随机样本。 #### 统计量 设$X_1,X_2,...,X_n$是总体***X***上的一个容量为n的样本,$T( X_1,X_2,...,X_n )$是定义在样本空间上的不依赖于未知参数的一个连续函数,则称$T( X_1,X_2,...,X_n )$为一个统计量。 ##### 样本均值\overline{X}=\frac{1}{n}\sum^n_{i=1}X_i
##### 样本方差S^2=\frac 1 {n-1}\sum^n_{i-1}(X_i-\overline X)^2=\frac 1 {n-1}(\sum^n_{i-1}X_i^2-n\overline X)
##### 样本k阶原点矩\begin{array}{cc} A_k=\frac 1 n \sum^n_{i=1}X^k_i&k=1,2,... \end{array}
##### 样本k阶中心矩\begin{array}{cc} B_k=\frac 1 n \sum^n_{i=1}(X_i-\overline X)^k&k=2,3,... \end{array}
S^{*2}=B_2