Skip to main content

概率论笔记

· 23 min read
Ferdinand Su

概率

样本空间

实验结果总体。记作Ω\Omega,其元素记作ω\omega

事件

样本空间的特定子集,斜体大写字母表示。

概率测度

定义在Ω子集上的实函数,满足

  1. P(Ω)=1

  2. 如果A\subsetΩ,那么P(A)≥0

  3. 如果A、B不相交,P(A∪B)=P(A)+P(B)

条件概率

P(A|B)=P(AB)P(B)P\left( A \middle| B \right) = \frac{P(AB)}{P(B)}

称为B发生条件下A发生的概率。

全概率定律

B1,B2,B3,,BnB_{1},B_{2},B_{3},\ldots,B_{n}满足i=1nBi=Ω\bigcup_{i = 1}^{n}B_{i} = \Omega,且任意的两个BiB_{i}不相交,P(Bi)B_{i})>0

那么,对于任意的A,P(A)=i=1nP(A|Bi)P(Bi)\sum_{i = 1}^{n}{P\left( A \middle| B_{i} \right)}P(B_{i})

贝叶斯公式

P(Bj|A)=P(A|Bj)P(Bj)i=1nP(A|Bi)P(Bi)P\left( B_{j} \middle| A \right) = \frac{P\left( A \middle| B_{j} \right)P(B_{j})}{\sum_{i = 1}^{n}{P\left( A \middle| B_{i} \right)}P(B_{i})}

独立性

如果P(AB)=P(A)P(B)那么称A、B是相互独立的。

题型

事件表示与复合

集合运算

古典概型与几何概型

条件概率的计算

1 以有限蕴含无限:递归求解

甲乙进行比赛,每进行一次,胜者得一分,在一次比赛中,甲胜率为α\alpha,乙为β(α+β=1)\beta(\alpha+\beta=1)。独立的进行比赛直到有以让超过对方两分。多得两分者为胜。试求甲、乙获胜的概率。

设两次比赛为一轮,AiA_i为甲在一轮比赛中得i分(i=0,1,2);B={甲获胜}。由因为甲在一轮比赛中得一分则与下一轮胜负无关,得0或2分则课分出胜负,即

P(BA1)=P(B)P(BA0)=0P(BA2)=1P(B|A_1)=P(B)\\P(B|A_0)=0\\P(B|A_2)=1

又有

P(A0)=β2P(A1)=2αβP(A2)=α2P(A_0)=\beta^2\\P(A_1)=2\alpha\beta\\P(A_2)=\alpha^2\\

则由全概率公式

P(B)=i=02P(Ai)P(BAi)=0+2αβP(B)+α2P(B)=α212αβP(B)=β212αβP(B)=\sum_{i=0}^2P(A_i)P(B|A_i)=0+2\alpha\beta P(B)+\alpha^2 \\\Rarr\\ P(B)=\frac{\alpha^2}{1-2\alpha\beta}\\ P(\overline{B})=\frac{\beta^2}{1-2\alpha\beta}

随机变量

离散随机变量

只能取有限多个值或者至多可列无限多个值的随机变量。

概率质量函数/频率函数

满足p(xi)=P(X=xi)p\left( x_{i} \right) = P(X = x_{i})i p(xi)=1\sum_{i}^{\ }{p(x_{i})} = 1的函数p

累积分布函数(cdf)

F(x)=P(X≤x),-∞<x<+∞

累积分布函数是非降的。且F(+∞)=1,F(-∞)=0

伯努利随机变量

如果某个变量只取0和1两个值,概率分别为1-p和p;

二项分布

N次独立重复实验成功k次。

记号

X~B(n,p)

分布列/概率密度

P(X=k)=CnkpkqnkP\left( X = k \right) = C_{n}^{k}p^{k}q^{n - k}

K=0,1,...,n;0<p<1;q=1-p

分布函数

F(x)=kxCnkpkqnkF\left( x \right) = \sum_{k \leq x}^{}{C_{n}^{k}p^{k}q^{n - k}}

期望与方差

EX=np, DX=npq\text{EX} = np,\ DX = npq

几何分布

独立重复实验直到成功

P(k)=(1p)k1p{(1 - p)}^{k - 1}p表示k-1次失败+1次成功

记号

X~G(p)

分布列/概率密度

P(X=k)=qk1pP\left( X = k \right) = q^{k - 1}p

K=1,2,...;0<p<1;q=1-p

分布函数

F(x)=kxqk1pF\left( x \right) = \sum_{k \leq x}^{}{q^{k - 1}p}

期望与方差

EX=1p, DX=qp2\text{EX} = \frac{1}{p},\ DX = \frac{q}{p^{2}}

帕斯卡分布

独立重复实验直到成功r次

记号

X~NB(r,p)

分布列/概率密度

P(X=k)=Ck1r1qkrprP\left( X = k \right) = C_{k-1}^{r-1}q^{k - r}p^r

K=r,r+1,...;0<p<1;q=1-p

期望与方差

EX=rp, DX=rqp2\text{EX} = \frac{r}{p},\ DX = \frac{rq}{p^{2}}

超几何(Hypergeometic)分布

p(k)=(rk)(nrmk)(nm)p\left( k \right) = \frac{\left( \frac{r}{k} \right)\left( \frac{n - r}{m - k} \right)}{\left( \frac{n}{m} \right)}

记号

X~H(N,M,n)

分布列/概率密度

P(X=k)=CMkCNMnkCNnP\left( X = k \right) = \frac{C_{M}^{k}C_{N - M}^{n - k}}{C_{N}^{n}}

K=m,m+1,...,L

m=max(0,n-(N-M))

L=min(n,M)

分布函数

F(x)=kxCMkCNMnkCNnF\left( x \right) = \sum_{k \leq x}^{}\frac{C_{M}^{k}C_{N - M}^{n - k}}{C_{N}^{n}}

期望与方差

EX=nMN, DX=nM(NM)(Nn)N2(N1)\text{EX} = \frac{\text{nM}}{N},\ DX = \frac{nM(N - M)(N - n)}{N^{2}(N - 1)}

Poisson分布

p(k)=λkk!eλp\left( k \right) = \frac{\lambda^{k}}{k!}e^{- \lambda}

记号

X~P(λ\lambda)

分布列/概率密度

P(X=k)=λkk!eλP\left( X = k \right) = \frac{\lambda^{k}}{k!}e^{- \lambda}

K=0,1,2,...; λ>0\ \lambda > 0

分布函数

F(x)=kxλkk!eλF\left( x \right) = \sum_{k \leq x}^{}{\frac{\lambda^{k}}{k!}e^{- \lambda}}

期望与方差

EX=λ, DX=λ\text{EX} = \lambda,\ DX = \lambda

连续随机变量

分布函数

连续随机变量的cdf可以用于估计X落入一个区间的概率。

特性
  1. 0F(x)1,xR0\le F(x)\le 1, x\in R
  2. x1<x2,F(x1)F(x2)\forall x_1<x_2, F(x_1)\le F(x_2)
  3. F(+)=1,F()=0F(+\infty)=1,F(-\infty)=0
  4. limtx+F(t)=F(x)\lim_{t\rightarrow x^+}F(t)=F(x), 右连续

概率密度

连续随机变量取特值的概率为0,那么连续型的概率密度函数定义为:设F(x)F(x)是X的分布函数,如果存在一个非负函数f(x),x,F(x)=xf(x)dtf(x), \forall x, F(x)=\int_{\infty}^xf(x)dt,则称f(x)f(x)为连续型随机变量X的概率密度

特性
  1. f(x)0,xRf(x)\ge 0, x\in R
  2. Rf(x)dx=1\int_R f(x)dx=1
  3. P(x1<Xx2)=F(x2)F(x1)=x1x2f(x)dx=P(x1<X<x2)=P(x1X<x2)=P(x1Xx2)P(x_1<X\le x_2)=F(x_2)-F(x_1)=\int_{x_1}^{x_2}f(x)dx=P(x_1<X<x_2)=P(x_1\le X<x_2)=P(x_1\le X\le x_2)
  4. 如果f(x)f(x)x0x_0连续,则有F(x0)=f(x0)F'(x_0)=f(x_0)

均匀分布

记号

X~U[a,b]

分布列/概率密度
\frac{1}{b - a},a \leq x \leq b \\ 0,else \\ \end{matrix} \right.\ $$ ##### 分布函数 $$F\left( x \right) = \left\{ \begin{matrix} 0,x < a \\ \frac{x - a}{b - a},a \leq x \leq b \\ 1,x > b \\ \end{matrix} \right.\ $$ ##### 期望与方差

\text{EX} = \frac{a + b}{2}, DX = \frac{ {(b - a)}^{2}}{12}

#### 指数密度分布 f(x)= $\left\{ \begin{matrix} \lambda e^{- \lambda x},x \geq 0 \\ 0,x < 0 \\ \end{matrix} \right. $ ##### 记号 X\~E($\lambda$) ##### 分布列/概率密度 $$f(x) = \left\{ \begin{matrix} \lambda e^{- \lambda x},x > 0,\lambda > 0 \\ 0,x \leq 0 \\ \end{matrix} \right.\ $$ ##### 分布函数 $$F\left( x \right) = \left\{ \begin{matrix} 1 - e^{- \lambda x},x > 0 \\ 0,e \leq 0 \\ \end{matrix} \right.\ $$ ##### 期望与方差 $$\text{EX} = \frac{1}{\lambda},\ DX = \frac{1}{\lambda^{2}}$$ #### 高斯分布 $$f\left( x \right) = \frac{1}{\sigma\sqrt{2\pi}}e^{- \frac{ {(x - \mu)}^{2}}{2\sigma^{2}}}$$ $\mu$称为均值,$\sigma$称为标准差; 高斯分布的cdf记为$\Phi$密度为$\phi$ ##### 记号 X\~N($\mu,\sigma^{2}$) ##### 分布列/概率密度 $$f(x) = \frac{1}{\sigma\sqrt{2\pi}}e^{- \frac{ {(x - \mu)}^{2}}{2\sigma^{2}}}$$ ##### 分布函数 $$F\left( x \right) = \Phi(\frac{x - \mu}{\sigma})$$ ##### 期望与方差 $$\text{EX} = \mu,\ DX = \sigma^{2}$$ ### 随机变量的函数 1. 随机变量的Cdf线性兼容。然后密度是Cdf的导数。 > 即 $$\text{if\ }\left( X\sim N\left( \mu,\sigma^{2} \right)\ \&\&\ Y = aX + b \right)\text{\ then\ Y}\sim N\left( a\mu + b,{(a\sigma)}^{2} \right)$$ 2. 设X是具有f密度的连续随机变量,Y=g(X),其中g有连续的导数且严格单调,那么Y有密度函数 $$f_{Y}\left( y \right) = f_{X}\left( g^{- 1}\left( y \right) \right)|\frac{d}{\text{dy}}g^{- 1}(y)|$$ ### 题型 #### 求变量函数的分布 ##### 公式法 设X位连续性随机变量,分布f(x),g(x)是严格单调的连续函数,然后其反函数h(x)有连续导数,那么Y=g(X)也是连续型随机变量,分布 $$f_{Y}\left( y \right) = f_{X}\left( h\left( y \right) \right)|h'(y)|$$ ##### 分布函数法 求F(y)=P(g(X)\<=y) 求f(y)=F'(y) #### 用概率密度的特征解题 $$\int_{R}^{\ }{f\left( x \right)\text{dx}} = 1$$ #### 用标准化正态分布解题 $$F\left( x \right) = \Phi(\frac{x - \mu}{\sigma})$$ ## 联合分布 定义在同一个样本空间上的两个或以上随机变量的联合概率结构。 ### 离散随机变量 #### 联合频率函数/联合概率质量函数 p(x,y)=P(X=x,Y=y) #### 边际频率函数 $$p_{Y}\left( y \right) = P(Y = y)$$ ### 连续随机变量 边际累积分布函数的偏导数,可以导出边际密度。 #### 联合概率密度分布函数 $f\left( x,y \right)$且$\iint_{R^{2}}^{\ }{f\left( x,y \right)\text{dxdy}} = 1$ 然后对于任意合理的二维集合A $$P\left( \left( X,Y \right) \in A \right) = \iint_{A}^{\ }{f\left( x,y \right)\text{dxdy}}$$ #### 边缘概率密度 $$f_{X}\left( x \right) = \int_{R}^{\ }{f\left( x,y \right)\text{dy}}$$ $$f_{Y}\left( x \right) = \int_{R}^{\ }{f\left( x,y \right)\text{dx}}$$ ### 独立随机变量 随机变量$X_{1},X_{2},\ldots,X_{n}$称为独立的,如果对所有$x_{1},x_{2},\ldots,x_{n}$,他们的累积分布函数可以分解为各自累积分布函数的乘积 F($x_{1},x_{2},\ldots,x_{n})$=$\ F_{X_{1}}\left( x_{1} \right)F_{X_{2}}\left( x_{2} \right)\ldots F_{X_{n}}(x_{n})$ ### 条件分布 #### 离散情形 P(X=$x_{i}$\| Y=$y_{i}$)=$\frac{P(X = x_{i},\ Y = y_{i})}{P(\ Y = y_{i})}$,然后如果$P\left( \ Y = y_{i} \right)$=0那么定义此概率为0. 那么X,Y独立的充要条件是 $$P\left( X = x_{i},\ Y = y_{i} \right) = P(\ X = x_{i})P(\ Y = y_{i})$$ #### 连续情形 $$f_{Y|X}\left( y \middle| x \right) = \frac{f_{\ }(x,y)}{f_{X}(x)}$$ 那么X,Y独立的充要条件是 $$f_{\ }\left( x,y \right) = f_{X}(x)f_{Y}(y)$$ 关于概率分布函数:

F_{X|Y}(x|y)=\int_{-\infty}^x f_{X|Y}(u|y)du

### 联合分布随机变量函数 #### 离散情形 设Z=g(X,Y),那么Z的分布列 $$P\left( \ Z = z_{i} \right) = \sum_{g(x_{i},y_{i})}^{}{P\left( X = x_{i},\ Y = y_{i} \right)}$$ 对于线性叠加 Z=X+Y $$P\left( \ Z = k \right) = \sum_{i = 1}^{k}{P\left( X = i,\ Y = k - i \right)}$$ 当Y独立, $$P\left( \ Z = k \right) = \sum_{i = 1}^{k}{P\left( X = i)P(Y = k - i \right)}$$ #### 连续情形 ##### 分布函数法 $$F_{Z}\left( z \right) = P\left( Z \leq z \right) = P\left( g\left( X,Y \right) \leq z \right) = \iint_{g(x,y) \leq z}^{\ }{f\left( x,y \right)\text{dxdy}}$$ ##### 公式法 ##### 卷积 对于Z=X+Y $$f_{Z}\left( z \right) = \int_{- \infty}^{+ \infty}{f(z - y,y)}dy$$ 然后如果X,Y独立, $$f_{Z}\left( z \right) = \int_{- \infty}^{+ \infty}{f_{X}\left( z - y \right)f_{Y}\left( y \right)}dy$$ #### 重要结论 对于独立的变量X,Y: Poisson变量X,Y的线性组合仍然服从Poisson分布 二项分布变量X,Y的线性组合仍然服从二项分布 高斯分布变量X,Y的线性组合仍然服从高斯分布 ### 题型 #### 求联合分布 ***已知$f(x,y)=\cases{xe^{-y},0<x<y\\0,其它}$求联合分布函数。***

F(x,y)=\int_{-\infty}^x\int_{-\infty}^yf(u,v)dudv =\begin{cases} 0&x\le0 ||y\le0 \ \int_0^ydv\int_0^vue^{-v}du&0<y<x\ \int_0^xdu\int_u^yue^{-v}dv&0<x<y \end{cases}

#### 求边缘分布 ##### 分布列

f_X(x)=\int_{- \infty}^{+ \infty}{f(x,y)\text{dy}}\ f_Y(y)=\int_{- \infty}^{+ \infty}{f(x,y)\text{dx}}

##### 分布函数

F_X(x)=\lim_{y \rightarrow \infty}F(x,y)\ F_Y(x)=\lim_{x \rightarrow \infty}F(x,y)

#### 连续双变量积分求概率 #### 独立性确定

f(x,y)=f_X(x)\cdot f_Y(y)\ 或\ F(x,y)=F_X(x)\cdot F_Y(y)

#### 求多元函数的分布列 ## 期望 ### 期望 对于离散随机变量, $$E(X) = \sum_{}^{}{x_{i}p(x_{i})}$$ 如果和发散,那么期望无定义; 对于连续随机变量, $$E(X) = \int_{- \infty}^{+ \infty}{xf\left( x \right)\text{dx}}$$ 如果积分发散,那么期望无定义; 期望可以看作密度质量的中心。 偶函数分布的期望为0. #### 随机变量函数的期望 令Y=g(X), $$E(Y) = \sum_{}^{}{g(x)p(x)}$$ 或 $$E(Y) = \int_{- \infty}^{+ \infty}{g\left( x \right)f\left( x \right)\text{dx}}$$ 假设$X_{1},X_{2},\ldots,X_{n}$是具有联合分布的随机变量,Y=g($X_{1},X_{2},\ldots,X_{n}$),那么 $$E(Y) = \sum_{}^{}{g(x_{1},x_{2},\ldots,x_{n})p(x_{1},x_{2},\ldots,x_{n})}$$ 或者 $$E(Y) = \iint_{}^{}\ldots\int_{}^{}{g\left( x_{1},x_{2},\ldots,x_{n} \right)f\left( x_{1},x_{2},\ldots,x_{n} \right)d}x_{1}x_{2}\ldots x_{n}$$ 推论: 如果X,Y是独立随机变量,g h是固定函数,那么E(g(X)h(Y))=E(g(X))E(h(y)) #### 性质 1. 期望兼容线性运算(线性表达式的期望等于期望的线性表达式)。 2. 对于X,Y独立的情况,E(XY)=E(X)E(Y) ### 方差和标准差 方差D(X)=E(${(X - E(X))}^{2}$)= E($X^{2}) - {(E(X))}^{2}$ 标准差是方差的平方根 令μ=E(X) 有 $$D(X) = \sum_{}^{}{ {(x_{i} - \mu)}^{2}p(x_{i})}$$ 或 $$D(X) = \int_{- \infty}^{+ \infty}{ {(x - \mu)}^{2}f\left( x \right)\text{dx}}$$ #### 性质 1. $D(aX+bY)=a^2DX+b^2DY+2abCov(X,Y)$ 2. 如果$\sigma^{2} = 0$那么P(X=μ)=1 #### 切比雪夫不等式 设X均值为μ,方差$\sigma^{2}$那么任意的t\>0,P(\|X-μ\|\>t)≤$\frac{\sigma^{2}}{t^{2}}$ ### 协方差 设X,Y分别是有期望$\mu_{X}$,$\mu_{Y}$则定义X,Y的协方差为 Cov(X,Y)=E((X-$\mu_{X}$)(Y-$\mu_{Y}$))=E(XY)-E(X)$\ \mu_{Y}$-E(Y)$\ \mu_{X}$+$\mu_{X}\mu_{Y}$=E(XY)-E(X)E(Y) #### 性质 1. 令$U = a + \sum_{i = 1}^{n}{b_{i}X_{i}}$,$\ V = c + \sum_{j = 1}^{m}{d_{j}Y_{j}}$ > Cov(U,V)=$\sum_{i = 1}^{n}{\sum_{j = 1}^{m}{ {b_{i}d}_{j}Cov(X_{i},Y_{j})}}$ 2. D(X)=Cov(X,X) 3. D(X+Y)=D(X)+D(Y)+2Cov(X,Y) 4. $D\left( a + \sum_{i = 1}^{n}{b_{i}X_{i}} \right) = \sum_{i = 1}^{n}{\sum_{j = 1}^{n}{ {b_{i}b}_{j}Cov(X_{i},X_{j})}}$ 5. 如果$X_{i}$独立,那么对于i≠j,Cov($X_{i}$,$\ X_{j}$)=0 > 那么$D\left( \sum_{}^{}X_{i} \right) = \sum_{}^{}{D(X_{i})}$,但是协方差为0不一定独立。 #### 相关系数 如果X和Y的方差和协方差都存在且方差非0 那么定义$\rho = \frac{C\text{ov}(X,Y)}{\sqrt{D\left( X \right)D(Y)}}$ -1≤$\rho$≤1.$\text{\ ρ}$=±1当且仅当P(Y=aX+b)=1,其中a、b为常数。 ### 题型 #### 已知分布列求期望方差 #### 各种各样的求期望方差 ##### 1 ***几副相异的手套共2n只,随机分成n堆,每堆2只,以X为“恰好成一幅的堆数”,求EX和DX*** 引入随机变量$X_1,X2,\cdots,X_n;X_i=\cases{1,第i堆恰成一副\\0,其它},i=1,2,\cdots,n$,则有$X=\sum_{i=1}^nX_i$,且$EX_i=P(X_i=1)=\frac{2n(2n-2)!}{(2n)!}=\frac{1}{2n-1}$ 那么

EX=\sum_{i=1}^nEX_i=\frac{n}{2n-1}

EX^2=\sum EX_i^2+\sum_{i,j=1}^{n}E(X_iX_j)

其中其中

X_i=0or1,\space s.t.EX_i^2=EX_i\E(X_iY_i)=P(X_i=1,X_j=1)_{i\not=j}=\frac{2n(2n-2)(2n-4)!}{(2n)!}=\frac 1{(2n-1)(2n-3)}

那么那么

EX^2=\sum EX_i^2+\sum_{i,j=1}^{n}E(X_iX_j)=\frac{n}{2n-1}+\frac{n(n-1)}{(2n-1)(2n-3)}\DX=EX^2-(EX)^2=\frac{4n(n-1)^2}{(2n-1)^2(2n-3)}

#### 切雪比夫不等式的应用 ## 样本与抽样分布 ### 基本定义 #### 总体&个体 研究对象的全体称为总体,总体的每个元素称为个体。 #### 样本 如果$X_1,X_2,...,X_n$相互独立,然后与总体***X***具有相同的分布,则称这样的$X_1,X_2,...,X_n$为来自总体***X***的一个简单随机样本。 #### 统计量 设$X_1,X_2,...,X_n$是总体***X***上的一个容量为n的样本,$T( X_1,X_2,...,X_n )$是定义在样本空间上的不依赖于未知参数的一个连续函数,则称$T( X_1,X_2,...,X_n )$为一个统计量。 ##### 样本均值

\overline{X}=\frac{1}{n}\sum^n_{i=1}X_i

##### 样本方差

S^2=\frac 1 {n-1}\sum^n_{i-1}(X_i-\overline X)^2=\frac 1 {n-1}(\sum^n_{i-1}X_i^2-n\overline X)

##### 样本k阶原点矩

\begin{array}{cc} A_k=\frac 1 n \sum^n_{i=1}X^k_i&k=1,2,... \end{array}

##### 样本k阶中心矩

\begin{array}{cc} B_k=\frac 1 n \sum^n_{i=1}(X_i-\overline X)^k&k=2,3,... \end{array}

S^{*2}=B_2

#### 顺序统计量 设$X_{1},X_{2},\ldots,X_{n}$是总体***X***的样本,$x_1,x_2,...,x_n$是样本的一个观测值,将他们自小到大重新排序得到$x_{(1)}\le x_{(2)}\le\ldots\le x_{(n)}$,那么对应的随机变量$X_{(1)} , X_{(2)} , \ldots , X_{(n)}$称为顺序统计量。那么$X_{(1)}$是最小值,$X_{(n)}$是最大值。 ### 正态分布的导出分布 #### $\chi^2$分布 如果Z~N(0,1),U=$Z^{2}$的分布称为自由度为1的$\chi^2$分布 如果$U_{1},U_{2},\ldots,U_{n}$是相互独立的自由度为1的卡方变量,那么V=$U_{1} + U_{2} + \ldots + U_{n}$称为自由度为n的$\chi^2$分布,记作$\chi^{2}(n)$. ##### 性质 如果$X\sim\chi^{2}(n)$, EX=n, DX=2n 如果$X\sim\chi^{2}(n_1),Y\sim\chi^{2}(n_2)$,则$X+Y\sim\chi^{2}(n_1+n_2)$ #### t分布 如果Z是标准正态分布变量,U是自由度为n的卡方分布变量且Z和U独立,那么$\frac{Z}{\sqrt{\frac{U}{n}}}$称为自由度为n的t分布。 #### F分布 令U和V分别是自由度m和n的独立卡方随机变量。 那么 $$W = \frac{\frac{U}{m}}{\frac{V}{n}}$$ 的分布称为自由度m和n的F分布,记作$F_{m,n}$ ### 抽样分布 #### 单个正态总体的分布 对于总体$X \sim N(\mu,\sigma^2)$有

\overline X \sim N(\mu,\frac{\sigma^2}{n})

样本均值和样本方差独立。而且样本均值和样本方差独立。 而且

\frac{(n - 1)S^{2}}{\sigma^{2}}=\frac{nS^{*2}}{\sigma^{2}}=\frac{\sum_{i=1}^n(X_i-\overline X)^2}{\sigma^{2}}\sim\chi ^2(n-1)

u=\frac {X-\mu}{\sigma}\sqrt n\sim N(0,1)

t=\frac {X-\mu}{S}\sqrt n=\frac {X-\mu}{S^*}\sqrt {n-1}\sim t(n-1)

### 题型 #### 求系数使得变量服从$\chi^2$分布 #### 求分布/证明服从分布 #### 利用特殊分布求概率 ##### 1 ***某单位招聘155人,按考试成绩录用,共有526人报名,假设报名者成绩$X\sim N(\mu,\sigma^2)$,已知90分以上12人,60分以下84人,若从高分到低分录取,某人成绩为78分,问此人是否被录取?*** $P(X\le 90)=\frac{514}{526}=0.9772$, $P(X\le 60)=\frac{84}{526}=0.1596$ 查表知 $\frac{90-\mu}{\sigma}\approx2.0$, $\frac{60-\mu}{\sigma}\approx -1.0$ 则有 $X\sim N(70,10^2)$ 则 $P(X\le 78)=0.2119<\frac{155}{526}=0.2947$ 因此此人会被录取 #### 根据定义求数字特征 ## 参数估计 设$\theta$是总体$X$的未知参数,利用样本$X_1,X_2,...,X_n$构造一个统计量$\hat \theta(X_1,X_2,...,X_n)$来估计$\theta$,则称$\hat\theta$为$\theta$的估计量。对于具体的样本$x_1,x_2,\cdots,x_n$,估计量$\hat \theta(x_1,x_2,\cdots,x_n)$的值被称为$\theta$的估计值。两者常统称为估计。 ### 矩估计法 用样本矩估计总体矩,进而用样本矩的函数估计总体矩的函数,称为矩估计。 运行矩估计,需要将待估计量使用总体矩表出,然后再拿样本矩替代总体矩的位置获得估计值。 ### 最大似然估计 设总体$X$的分布是$P(X_i,\theta_1,\cdots,\theta_m)$,其中$\theta_1,\cdots,\theta_m$为未知参数,那么称

L(x_1,x_2,\cdots,x_n;\theta_1,\cdots,\theta_m)=\prod_{i=1}^nP(x_i,\theta_1,\cdots,\theta_m)

为似然函数,对于确定的样本值$x_1,x_2,\cdots,x_n$,它是$\theta_1,\cdots,\theta_m$的确定的函数。若有$\hat \theta_j(x_1,x_2,...,x_n)$使得似然函数取地最大值,则称$\hat \theta_j(x_1,x_2,...,x_n)$为$\theta_j$的最大似然估计,$j=1,2,\cdots,m$。 那么如果似然函数关于$\theta_j$可微,使得似然函数达到最大的$\hat\theta_j$一定满足

\frac {\partial}{\partial\theta_j}\ln L(x_1,x_2,\cdots,x_n;\theta_1,\cdots,\theta_m)|_{\hat\theta_j=\theta_j}=0,j=1,2,\cdots,m

如果没有使得以上条件的点,我么可以手动让似然函数取得最大值。 ### 估计量的评价标准 #### 无偏性 如果对任意可能的参数值$\theta$都有$E[\hat \theta(X_1,X_2,...,X_n)]=\theta$则称$\hat\theta$是$\theta$的无偏估计。 #### 有效性 设$\hat\theta_1$和$\hat\theta_2$都是$\theta$的无偏估计,如果对任何可能的参数值$\theta$都有$D\hat\theta_1\le D\hat\theta_2$,且至少对某个参数值$\theta_0$使得小于号成立,则称$\hat\theta_1$较$\hat\theta_2$有效。 #### 一致性 如果$\hat\theta_n$依概率收敛于$\theta$,则称其具有一致性(相合性)。 ### 区间估计 对于未知参数$\theta$,如果有两个统计量$\hat\theta_1,\hat\theta_2$使得对于指定的$\alpha\in(0,1)$有

P(\hat\theta_1<\theta<\hat\theta_2)=1-\alpha

则称$(\hat\theta_1,\hat\theta_2)$为$\theta$在置信度$1-\alpha$下的置信区间。$\hat\theta_1$和$\hat\theta_2$分别称为置信下限和置信上限。 对于足够大的样本,我们可以用中心极限定理处理。 #### 一般总体均值的区间估计 ### 题型 #### 计算矩估计 > 设总体$X\sim U[1,\theta],X_1,\cdots,X_n$为简单随机样本,求: > > 1)$\theta$的矩估计$\hat{\theta}$,并问$\hat{\theta}$是否为$\theta$的无偏估计? > >2)估计量的方差$D(\hat{\theta})$ 1)易得$\hat{\theta}=2\overline{X}-1$ 2)$D(\hat{\theta})$=$D(2\overline{X}-1)=4D(\overline{X})=4*\frac{\delta^2}{n}=\frac{(\theta-1)^2}{3n}$ #### 计算最大似然估计 #### 证明无偏性 ##### 1 ***设总体X的概率密度为***

f(x;\theta)=\cases{2e^{-2(x-\theta)},x>\theta\0,x\le\theta}

***其中$\theta$>0是未知参数,从总体中抽取简单随机样本$X_1,X_2,\cdots,X_n$,记$\hat{\theta}=min(X_1,X_2,\cdots,X_n)$.*** 1. ***求总体X的 分布函数$F(x)$*** 2. ***求统计量$\hat{\theta}$的分布函数$F_{\hat\theta}(x)$*** 3. ***如果用$\hat{\theta}$作为$\theta$的估计量,讨论它是否具有无偏性*** 解: 1.

F(x)=\int_{-\infty}^xf(t)dt=\cases{1-e^{-2(x-\theta)},x>\theta\0,x\le\theta}

2.2.

F_{\hat\theta}(x)=P(\hat\theta\le x)\=P(min(X_1,X_2,\cdots,X_n)\le x)=1-(1-F(x))^n\=\cases{1-e^{-2n(x-\theta)},x>\theta\0,x\le\theta}

3. $\hat\theta$的概率密度为

f_{\hat\theta}(x)=F'_{\hat\theta}(x)=\cases{2ne^{-2n(x-\theta)},x>\theta\0,x\le\theta}

那么那么

E(\hat{\theta})=\int_Rxf_{\hat\theta}(x)dx=\frac{1}{2n}+\theta\not ={\theta}

因此该估计量不具有无偏性 #### 判断有效性和一致性 #### 利用特殊分布求置信区间 ##### 1 ***随机抽取9发炮弹,测得炮口速度的样本标准差S=11,设炮口速度$X\sim N(\mu,\sigma^2)$,则炮口初速的标准差的95%置信区间是?*** 由于

\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)

查表得查表得

\chi^2_{0.025}=2.18;\chi^2_{0.975}=17.53

因此因此

\sigma_{min}=\sqrt{\frac{8\times11^2}{17.53}}\ \sigma_{max}=\sqrt{\frac{8\times11^2}{2.18}}

##### 2 ***设总体$X\sim N(\mu,\sigma^2)$,$\sigma^2$=0.04,抽取容量为16的样本,测得样本均值为1.416,如果$\mu$的置信区间是(1.416-0.098,1.416+0.098),则置信度是?*** 由于$D\overline{X}=\frac{\sigma^2}{n}$, 用$0.098/\sqrt{\frac{\sigma^2}{16}}=1.96$ 查表得P=0.975,则$\alpha=0.025$, 那么置信概率95% ## 抽样检验 ### 简单随机抽样 #### 简单随机抽样下

E(\overline{X})=\mu\ E(S^2)=\sigma^2

#### 对于正态总体

D\overline{X}=\frac{\sigma^2}{n}\ \frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1) \ \frac{\overline{X}-\mu}{S/\sqrt{n}}\sim t(n-1) \ \frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)

### 显著性检验 #### 步骤 1. 根据给定问题构造原假设$H_0$和备择假设$H_1$ 2. 构造检验统计量V,在$H_0$为真条件下得出V的分布 3. 给定显著性水平$\alpha$,按照P(拒绝$H_0|H_0$为真)=$\alpha$,求出拒绝域W 4. 根据样本观测值决策,如果$(X_1,X_2,\cdots,X_n)\in W$, 拒绝$H_0$,否则接收$H_0$ #### 错误 第一类错误-假拒绝:

\alpha=P(((X_1,X_2,\cdots,X_n)\in W|H_0真))

第二类错误假接受: 第二类错误-假接受:

\beta=P(((X_1,X_2,\cdots,X_n)\notin W|H_0假))

#### 正态总体参数的假设检验 | 检验 | $H_0$ | 统计量 | 分布情况 | 拒绝域 | | -------- | ---- | ---- | ---- | ---- | | U | $\mu=\mu_0$ | $U=\frac{\overline{X}-\mu_0}{\sigma_0/\sqrt{n}}$ |N(0,1) | $-u_{\frac\alpha 2}\ge u$ or $u\ge u_{\frac\alpha 2}$ | | U | $\mu\le\mu_0$ | $U=\frac{\overline{X}-\mu_0}{\sigma_0/\sqrt{n}}$ |N(0,1) | $u\ge u_{\alpha}$ | | U | $\mu\ge\mu_0$ | $U=\frac{\overline{X}-\mu_0}{\sigma_0/\sqrt{n}}$ |N(0,1) | $u\le -u_{\alpha}$ | | t | $\mu=\mu_0$ | $T=\frac{\overline{X}-\mu_0}{S/\sqrt{n}}$ |t(n-1) | $-t_{\frac\alpha 2}(n-1)\ge t$ or $t\ge t_{\frac\alpha 2}(n-1)$ | | t | $\mu\le\mu_0$ | $T=\frac{\overline{X}-\mu_0}{S/\sqrt{n}}$ |t(n-1) | $t\ge t_{\alpha}(n-1)$ | | t | $\mu\ge\mu_0$ | $T=\frac{\overline{X}-\mu_0}{S/\sqrt{n}}$ |t(n-1) | $t\le -t_{\alpha}(n-1)$ | | $\chi^2$ | $\sigma^2=\sigma_0^2$ | $\chi^2=\frac{(n-1)S^2}{\sigma_0^2}$ | $\chi^2(n-1)$ |$\chi^2=\chi^2_{\frac\alpha2}(n-1)$ or $\chi^2=\chi^2_{1-\frac\alpha2}(n-1)$| | $\chi^2$ | $\sigma^2\le\sigma_0^2$ | $\chi^2=\frac{(n-1)S^2}{\sigma_0^2}$ | $\chi^2(n-1)$ |$\chi^2\ge\chi^2_{\alpha}(n-1)$| | $\chi^2$ | $\sigma^2\ge\sigma_0^2$ | $\chi^2=\frac{(n-1)S^2}{\sigma_0^2}$ | $\chi^2(n-1)$ |$\chi^2\le\chi^2_{1-\alpha}(n-1)$| ## 其它 ### 反常积分

\int_0^{+\infty}\exp(-\frac{ {x^2}}{k})=\frac{\sqrt{k\pi}}{2}\ \int_0^{+\infty}x\exp(-\frac{ {x^2}}{k})=\frac{k}{2}\ \int_0^{+\infty}x^2\exp(-\frac{ {x^2}}{k})=\frac{k\sqrt{k\pi}}{4}\ \int_0^{+\infty}x^3\exp(-\frac{ {x^2}}{k})=\frac{k^2}{2}\ \int_0^{+\infty}x^4\exp(-\frac{ {x^2}}{k})=\frac{3k^2\sqrt{k\pi}}{8}\

### 求和换序

1\le y\le i \le n\ \sum_{y=1}^n\sum_{i=y}^n\frac{y}{in}=\frac{1}{n}\sum_{i=1}^n\frac{1}{i}\sum_{y=1}^iy=\frac{1}{n}\sum_{i=1}^n\frac{1}{i}\times\frac{(i+1)i}{2}=\frac{1}{n}\sum_{i=1}^n\frac{i+1}{2}=\frac{n+3}{4}

### 平方和、立方和公式

\sum_{i=1}^nx^2=\frac{n(n+1)(2n+1)}{6}\ \sum_{i=1}^nx^3=\frac{(n(n+1))^2}{4}

### 常用麦克劳林展开式

\exp\left( x \right) = \operatorname{}{\sum_{k = 0}^{+\infty}\frac{x^{k}}{k!}}

\frac{1}{1 - x} = \operatorname{}{\sum_{k = 0}^{+\infty}x^{k}}