[迁移说明] 本文最初发布于 blog.zzw4257.cn,现已迁移并在本站进行结构化整理与增强。
概率论笔记 第一部分:概率论基础 第1讲:概率论的基本概念 随机实验、样本空间、事件的定义 随机实验 (Random Experiment) :满足以下三个条件的实验:
可以在相同条件下重复进行。 每次实验的可能结果不止一个,并且所有可能结果都预先明确。 进行一次实验之前不能确定哪一个结果会出现。 示例 :抛掷一枚硬币,观察正面(H)还是反面(T)出现。样本空间 (Sample Space, Ω \Omega Ω ) :随机实验所有可能结果组成的集合。集合中的元素称为样本点 (Sample Point, ω \omega ω ) 。
示例 :抛掷一枚硬币的样本空间 Ω = { H , T } \Omega = \{H, T\} Ω = { H , T } 。示例 :抛掷一颗骰子的样本空间 Ω = { 1 , 2 , 3 , 4 , 5 , 6 } \Omega = \{1, 2, 3, 4, 5, 6\} Ω = { 1 , 2 , 3 , 4 , 5 , 6 } 。事件 (Event, A , B , C , … A, B, C, \dots A , B , C , … ) :样本空间的子集。
基本事件 (Elementary Event) :由一个样本点组成的单点集。必然事件 (Certain Event) :整个样本空间 Ω \Omega Ω 。不可能事件 (Impossible Event) :空集 ∅ \emptyset ∅ 。事件的关系与运算 :包含 (⊂ \subset ⊂ ) :若事件 A A A 发生必然导致事件 B B B 发生,则称 B B B 包含 A A A ,A ⊂ B A \subset B A ⊂ B 。相等 (= = = ) :若 A ⊂ B A \subset B A ⊂ B 且 B ⊂ A B \subset A B ⊂ A ,则 A = B A = B A = B 。并 (Union, ∪ \cup ∪ ) 或 和事件 (A + B A+B A + B ) :A ∪ B = { ω ∈ Ω ∣ ω ∈ A or ω ∈ B } A \cup B = \{\omega \in \Omega \mid \omega \in A \text{ or } \omega \in B\} A ∪ B = { ω ∈ Ω ∣ ω ∈ A or ω ∈ B } 。表示事件 A A A 或事件 B B B 至少有一个发生。交 (Intersection, ∩ \cap ∩ ) 或 积事件 (A B AB A B ) :A ∩ B = { ω ∈ Ω ∣ ω ∈ A and ω ∈ B } A \cap B = \{\omega \in \Omega \mid \omega \in A \text{ and } \omega \in B\} A ∩ B = { ω ∈ Ω ∣ ω ∈ A and ω ∈ B } 。表示事件 A A A 和事件 B B B 同时发生。差 (A − B A-B A − B ) :A − B = { ω ∈ Ω ∣ ω ∈ A and ω ∉ B } A - B = \{\omega \in \Omega \mid \omega \in A \text{ and } \omega \notin B\} A − B = { ω ∈ Ω ∣ ω ∈ A and ω ∈ / B } 。表示事件 A A A 发生而事件 B B B 不发生。互斥 (Mutually Exclusive) 或 不相容 (Incompatible) :若 A ∩ B = ∅ A \cap B = \emptyset A ∩ B = ∅ ,则称事件 A A A 与 B B B 互斥。它们不能同时发生。对立事件 (Complementary Event, A ˉ \bar{A} A ˉ 或 A c A^c A c ) :A ˉ = Ω − A \bar{A} = \Omega - A A ˉ = Ω − A 。表示事件 A A A 不发生。概率的公理化定义及基本性质 概率的公理化定义 (Kolmogorov Axioms) : 设 E E E 是随机实验,Ω \Omega Ω 是其样本空间。对于 E E E 的每一个事件 A A A ,赋予一个实数,称为事件 A A A 的概率,记为 P ( A ) P(A) P ( A ) 。函数 P ( ⋅ ) P(\cdot) P ( ⋅ ) 满足:
非负性公理 :对于任意事件 A A A ,有 P ( A ) ≥ 0 P(A) \ge 0 P ( A ) ≥ 0 。规范性公理 :P ( Ω ) = 1 P(\Omega) = 1 P ( Ω ) = 1 。可列可加性公理 :若事件 A 1 , A 2 , … , A n , … A_1, A_2, \dots, A_n, \dots A 1 , A 2 , … , A n , … 两两互斥 (即 A i ∩ A j = ∅ A_i \cap A_j = \emptyset A i ∩ A j = ∅ ,i ≠ j i \neq j i = j ),则 P ( ⋃ i = 1 ∞ A i ) = ∑ i = 1 ∞ P ( A i ) P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i) P ( ⋃ i = 1 ∞ A i ) = ∑ i = 1 ∞ P ( A i ) 对于有限个互斥事件,也有 P ( ⋃ i = 1 n A i ) = ∑ i = 1 n P ( A i ) P\left(\bigcup_{i=1}^{n} A_i\right) = \sum_{i=1}^{n} P(A_i) P ( ⋃ i = 1 n A i ) = ∑ i = 1 n P ( A i ) 。基本性质 :
不可能事件的概率 :P ( ∅ ) = 0 P(\emptyset) = 0 P ( ∅ ) = 0 。有限可加性 :若 A 1 , … , A n A_1, \dots, A_n A 1 , … , A n 两两互斥,则 P ( ⋃ i = 1 n A i ) = ∑ i = 1 n P ( A i ) P(\bigcup_{i=1}^n A_i) = \sum_{i=1}^n P(A_i) P ( ⋃ i = 1 n A i ) = ∑ i = 1 n P ( A i ) 。概率的界 :对于任意事件 A A A ,0 ≤ P ( A ) ≤ 1 0 \le P(A) \le 1 0 ≤ P ( A ) ≤ 1 。对立事件的概率 :P ( A ˉ ) = 1 − P ( A ) P(\bar{A}) = 1 - P(A) P ( A ˉ ) = 1 − P ( A ) 。减法公式 :若 A ⊃ B A \supset B A ⊃ B ,则 P ( A − B ) = P ( A ) − P ( B ) P(A-B) = P(A) - P(B) P ( A − B ) = P ( A ) − P ( B ) 。更一般地,P ( A − B ) = P ( A ) − P ( A B ) P(A-B) = P(A) - P(AB) P ( A − B ) = P ( A ) − P ( A B ) 。加法公式 :对于任意两个事件 A , B A, B A , B , P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) P(A \cup B) = P(A) + P(B) - P(A \cap B) P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) 对于三个事件 A , B , C A, B, C A , B , C : P ( A ∪ B ∪ C ) = P ( A ) + P ( B ) + P ( C ) − P ( A B ) − P ( A C ) − P ( B C ) + P ( A B C ) P(A \cup B \cup C) = P(A) + P(B) + P(C) - P(AB) - P(AC) - P(BC) + P(ABC) P ( A ∪ B ∪ C ) = P ( A ) + P ( B ) + P ( C ) − P ( A B ) − P ( A C ) − P ( BC ) + P ( A BC ) 条件概率与全概率公式 条件概率 (Conditional Probability) : 设 A , B A, B A , B 是两个事件,且 P ( B ) > 0 P(B) > 0 P ( B ) > 0 ,则在事件 B B B 发生的条件下事件 A A A 发生的条件概率定义为: P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A|B) = \frac{P(A \cap B)}{P(B)} P ( A ∣ B ) = P ( B ) P ( A ∩ B ) 性质:
P ( A ∣ B ) ≥ 0 P(A|B) \ge 0 P ( A ∣ B ) ≥ 0 P ( Ω ∣ B ) = 1 P(\Omega|B) = 1 P ( Ω∣ B ) = 1 若 A 1 , A 2 , … A_1, A_2, \dots A 1 , A 2 , … 互斥,则 P ( ⋃ i = 1 ∞ A i ∣ B ) = ∑ i = 1 ∞ P ( A i ∣ B ) P(\bigcup_{i=1}^\infty A_i | B) = \sum_{i=1}^\infty P(A_i|B) P ( ⋃ i = 1 ∞ A i ∣ B ) = ∑ i = 1 ∞ P ( A i ∣ B ) 乘法公式 (Multiplication Rule) : 由条件概率定义可得: P ( A ∩ B ) = P ( B ) P ( A ∣ B ) ( 若 P ( B ) > 0 ) P(A \cap B) = P(B)P(A|B) \quad (\text{若 } P(B)>0) P ( A ∩ B ) = P ( B ) P ( A ∣ B ) ( 若 P ( B ) > 0 ) P ( A ∩ B ) = P ( A ) P ( B ∣ A ) ( 若 P ( A ) > 0 ) P(A \cap B) = P(A)P(B|A) \quad (\text{若 } P(A)>0) P ( A ∩ B ) = P ( A ) P ( B ∣ A ) ( 若 P ( A ) > 0 ) 推广到 n n n 个事件 A 1 , A 2 , … , A n A_1, A_2, \dots, A_n A 1 , A 2 , … , A n : P ( A 1 A 2 … A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 1 A 2 ) … P ( A n ∣ A 1 A 2 … A n − 1 ) P(A_1 A_2 \dots A_n) = P(A_1)P(A_2|A_1)P(A_3|A_1 A_2)\dots P(A_n|A_1 A_2 \dots A_{n-1}) P ( A 1 A 2 … A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 1 A 2 ) … P ( A n ∣ A 1 A 2 … A n − 1 )
全概率公式 (Law of Total Probability) : 设 B 1 , B 2 , … , B n B_1, B_2, \dots, B_n B 1 , B 2 , … , B n 是样本空间 Ω \Omega Ω 的一个划分 (即 B i ∩ B j = ∅ B_i \cap B_j = \emptyset B i ∩ B j = ∅ for i ≠ j i \neq j i = j ,且 ⋃ i = 1 n B i = Ω \bigcup_{i=1}^n B_i = \Omega ⋃ i = 1 n B i = Ω ),并且 P ( B i ) > 0 P(B_i) > 0 P ( B i ) > 0 对所有 i i i 成立。则对任意事件 A A A : P ( A ) = ∑ i = 1 n P ( A ∣ B i ) P ( B i ) P(A) = \sum_{i=1}^n P(A|B_i)P(B_i) P ( A ) = ∑ i = 1 n P ( A ∣ B i ) P ( B i ) 如果划分是可列无穷的 B 1 , B 2 , … B_1, B_2, \dots B 1 , B 2 , … ,则 P ( A ) = ∑ i = 1 ∞ P ( A ∣ B i ) P ( B i ) P(A) = \sum_{i=1}^\infty P(A|B_i)P(B_i) P ( A ) = ∑ i = 1 ∞ P ( A ∣ B i ) P ( B i ) 。
独立性与互斥性的区别 事件的独立性 (Independence) : 事件 A A A 和 B B B 相互独立,如果其中一个事件的发生不影响另一个事件发生的概率。数学定义: P ( A ∩ B ) = P ( A ) P ( B ) P(A \cap B) = P(A)P(B) P ( A ∩ B ) = P ( A ) P ( B ) 若 P ( A ) > 0 , P ( B ) > 0 P(A)>0, P(B)>0 P ( A ) > 0 , P ( B ) > 0 ,则 A , B A, B A , B 相互独立等价于 P ( A ∣ B ) = P ( A ) P(A|B) = P(A) P ( A ∣ B ) = P ( A ) 且 P ( B ∣ A ) = P ( B ) P(B|A) = P(B) P ( B ∣ A ) = P ( B ) 。 三个事件 A , B , C A, B, C A , B , C 相互独立,需满足:
P ( A B ) = P ( A ) P ( B ) P(AB) = P(A)P(B) P ( A B ) = P ( A ) P ( B ) P ( A C ) = P ( A ) P ( C ) P(AC) = P(A)P(C) P ( A C ) = P ( A ) P ( C ) P ( B C ) = P ( B ) P ( C ) P(BC) = P(B)P(C) P ( BC ) = P ( B ) P ( C ) P ( A B C ) = P ( A ) P ( B ) P ( C ) P(ABC) = P(A)P(B)P(C) P ( A BC ) = P ( A ) P ( B ) P ( C ) (注意:两两独立不一定能推出三者相互独立)事件的互斥性 (Mutually Exclusive) : 事件 A A A 和 B B B 互斥,如果它们不能同时发生,即 A ∩ B = ∅ A \cap B = \emptyset A ∩ B = ∅ 。 若 A , B A, B A , B 互斥,则 P ( A ∪ B ) = P ( A ) + P ( B ) P(A \cup B) = P(A) + P(B) P ( A ∪ B ) = P ( A ) + P ( B ) 。
区别 :
定义层面 :独立性关注概率关系 (P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P ( A B ) = P ( A ) P ( B ) ),互斥性关注集合关系 (A ∩ B = ∅ A \cap B = \emptyset A ∩ B = ∅ )。直观意义 :独立性意味着一事件的发生对另一事件的发生概率无影响。互斥性意味着一事件的发生使得另一事件不可能发生。概率关系 :若 A , B A, B A , B 互斥且 P ( A ) > 0 , P ( B ) > 0 P(A)>0, P(B)>0 P ( A ) > 0 , P ( B ) > 0 ,则 P ( A B ) = P ( ∅ ) = 0 P(AB)=P(\emptyset)=0 P ( A B ) = P ( ∅ ) = 0 。但 P ( A ) P ( B ) > 0 P(A)P(B) > 0 P ( A ) P ( B ) > 0 ,所以 P ( A B ) ≠ P ( A ) P ( B ) P(AB) \neq P(A)P(B) P ( A B ) = P ( A ) P ( B ) 。因此,非空事件的互斥性意味着它们不独立 。 若 A , B A, B A , B 独立且 P ( A ) > 0 , P ( B ) > 0 P(A)>0, P(B)>0 P ( A ) > 0 , P ( B ) > 0 ,则 P ( A B ) = P ( A ) P ( B ) > 0 P(AB)=P(A)P(B)>0 P ( A B ) = P ( A ) P ( B ) > 0 ,所以 A B ≠ ∅ AB \neq \emptyset A B = ∅ 。因此,非空事件的独立性意味着它们不互斥 。 总结 :对于两个概率不为0的事件,独立性和互斥性不能同时成立。第2讲:离散随机变量 离散随机变量的定义与概率质量函数(PMF) 随机变量 (Random Variable, RV) :定义在样本空间 Ω \Omega Ω 上的实值函数 X ( ω ) X(\omega) X ( ω ) ,其中 ω ∈ Ω \omega \in \Omega ω ∈ Ω 。通常用大写字母 X , Y , Z X, Y, Z X , Y , Z 表示。
离散随机变量 (Discrete Random Variable) :一个随机变量,如果它所有可能的取值是有限个或可列无限多个。
示例 :抛掷硬币两次,令 X X X 为出现正面的次数。X X X 的可能取值为 0 , 1 , 2 0, 1, 2 0 , 1 , 2 。概率质量函数 (Probability Mass Function, PMF) : 对于离散随机变量 X X X ,其 PMF 定义为 p X ( x i ) = P ( X = x i ) p_X(x_i) = P(X=x_i) p X ( x i ) = P ( X = x i ) ,其中 x i x_i x i 是 X X X 的一个可能取值。 PMF 必须满足:
p X ( x i ) ≥ 0 p_X(x_i) \ge 0 p X ( x i ) ≥ 0 对所有 x i x_i x i 成立。∑ i p X ( x i ) = 1 \sum_i p_X(x_i) = 1 ∑ i p X ( x i ) = 1 (对所有可能的 x i x_i x i 求和)。常见离散分布 伯努利分布 (Bernoulli Distribution) : X ∼ Bernoulli ( p ) X \sim \text{Bernoulli}(p) X ∼ Bernoulli ( p ) 一次实验,结果只有两种:“成功”(X = 1 X=1 X = 1 )或“失败”(X = 0 X=0 X = 0 )。
PMF: P ( X = 1 ) = p P(X=1) = p P ( X = 1 ) = p , P ( X = 0 ) = 1 − p = q P(X=0) = 1-p = q P ( X = 0 ) = 1 − p = q . 参数: p p p (成功的概率),0 ≤ p ≤ 1 0 \le p \le 1 0 ≤ p ≤ 1 . 二项分布 (Binomial Distribution) : X ∼ B ( n , p ) X \sim B(n, p) X ∼ B ( n , p ) or Binomial ( n , p ) \text{Binomial}(n, p) Binomial ( n , p ) n n n 次独立的伯努利试验中,“成功”的次数。
PMF: P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X=k) = \binom{n}{k} p^k (1-p)^{n-k} P ( X = k ) = ( k n ) p k ( 1 − p ) n − k , for k = 0 , 1 , … , n k=0, 1, \dots, n k = 0 , 1 , … , n . 其中 ( n k ) = n ! k ! ( n − k ) ! \binom{n}{k} = \frac{n!}{k!(n-k)!} ( k n ) = k ! ( n − k )! n ! 是组合数。 参数: n n n (试验次数, n ≥ 1 n \ge 1 n ≥ 1 整数),p p p (单次试验成功概率, 0 ≤ p ≤ 1 0 \le p \le 1 0 ≤ p ≤ 1 ). 几何分布 (Geometric Distribution) : X ∼ Geometric ( p ) X \sim \text{Geometric}(p) X ∼ Geometric ( p ) 在一系列独立的伯努利试验中,首次“成功”所需的试验次数。
PMF: P ( X = k ) = ( 1 − p ) k − 1 p P(X=k) = (1-p)^{k-1} p P ( X = k ) = ( 1 − p ) k − 1 p , for k = 1 , 2 , 3 , … k=1, 2, 3, \dots k = 1 , 2 , 3 , … . 参数: p p p (单次试验成功概率, 0 < p ≤ 1 0 < p \le 1 0 < p ≤ 1 ). 注意 :有时几何分布定义为首次成功前失败的次数 Y = X − 1 Y=X-1 Y = X − 1 ,此时 P ( Y = k ) = ( 1 − p ) k p P(Y=k) = (1-p)^k p P ( Y = k ) = ( 1 − p ) k p , for k = 0 , 1 , 2 , … k=0, 1, 2, \dots k = 0 , 1 , 2 , … .泊松分布 (Poisson Distribution) : X ∼ Poisson ( λ ) X \sim \text{Poisson}(\lambda) X ∼ Poisson ( λ ) 表示单位时间(或单位面积/体积等)内某事件发生的次数。
PMF: P ( X = k ) = e − λ λ k k ! P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!} P ( X = k ) = k ! e − λ λ k , for k = 0 , 1 , 2 , … k=0, 1, 2, \dots k = 0 , 1 , 2 , … . 参数: λ \lambda λ (单位时间/空间内事件发生的平均次数, λ > 0 \lambda > 0 λ > 0 ). 泊松分布可作为二项分布的近似:当 n n n 很大,p p p 很小,而 n p = λ np = \lambda n p = λ 适中时,B ( n , p ) B(n,p) B ( n , p ) 近似于 Poisson ( λ ) \text{Poisson}(\lambda) Poisson ( λ ) 。 离散随机变量的期望值与方差 期望值 (Expected Value or Mean, E [ X ] E[X] E [ X ] or μ X \mu_X μ X ) : 离散随机变量 X X X 的期望值是其所有可能取值 x i x_i x i 以其对应概率 p X ( x i ) p_X(x_i) p X ( x i ) 为权重的加权平均。 E [ X ] = ∑ i x i P ( X = x i ) = ∑ i x i p X ( x i ) E[X] = \sum_i x_i P(X=x_i) = \sum_i x_i p_X(x_i) E [ X ] = ∑ i x i P ( X = x i ) = ∑ i x i p X ( x i ) 期望值表示随机变量取值的平均水平。
方差 (Variance, V a r ( X ) Var(X) Va r ( X ) or σ X 2 \sigma_X^2 σ X 2 ) : 衡量随机变量取值与其期望值的偏离程度。 V a r ( X ) = E [ ( X − E [ X ] ) 2 ] = E [ ( X − μ X ) 2 ] Var(X) = E[(X - E[X])^2] = E[(X - \mu_X)^2] Va r ( X ) = E [( X − E [ X ] ) 2 ] = E [( X − μ X ) 2 ] 计算公式: V a r ( X ) = E [ X 2 ] − ( E [ X ] ) 2 Var(X) = E[X^2] - (E[X])^2 Va r ( X ) = E [ X 2 ] − ( E [ X ] ) 2 其中 E [ X 2 ] = ∑ i x i 2 p X ( x i ) E[X^2] = \sum_i x_i^2 p_X(x_i) E [ X 2 ] = ∑ i x i 2 p X ( x i ) 是 X 2 X^2 X 2 的期望值(二阶原点矩)。
标准差 (Standard Deviation, σ X \sigma_X σ X ) : σ X = V a r ( X ) \sigma_X = \sqrt{Var(X)} σ X = Va r ( X ) 标准差与随机变量具有相同的单位。
常见离散分布的期望和方差 :
分布 参数 E [ X ] E[X] E [ X ] V a r ( X ) Var(X) Va r ( X ) 伯努利(p p p ) p p p p p p p ( 1 − p ) p(1-p) p ( 1 − p ) 二项(n , p n,p n , p ) n , p n, p n , p n p np n p n p ( 1 − p ) np(1-p) n p ( 1 − p ) 几何(p p p ) p p p 1 / p 1/p 1/ p ( 1 − p ) / p 2 (1-p)/p^2 ( 1 − p ) / p 2 泊松(λ \lambda λ ) λ \lambda λ λ \lambda λ λ \lambda λ
离散随机变量的函数及其期望值 设 Y = g ( X ) Y = g(X) Y = g ( X ) 是离散随机变量 X X X 的函数。则 Y Y Y 也是一个离散随机变量。 其期望值 E [ Y ] = E [ g ( X ) ] E[Y] = E[g(X)] E [ Y ] = E [ g ( X )] 可以通过以下公式计算,而无需先求出 Y Y Y 的 PMF: E [ g ( X ) ] = ∑ i g ( x i ) P ( X = x i ) = ∑ i g ( x i ) p X ( x i ) E[g(X)] = \sum_i g(x_i) P(X=x_i) = \sum_i g(x_i) p_X(x_i) E [ g ( X )] = ∑ i g ( x i ) P ( X = x i ) = ∑ i g ( x i ) p X ( x i ) 期望的线性性质 :
E [ c ] = c E[c] = c E [ c ] = c (c 是常数)E [ c X ] = c E [ X ] E[cX] = cE[X] E [ c X ] = c E [ X ] E [ X + Y ] = E [ X ] + E [ Y ] E[X+Y] = E[X] + E[Y] E [ X + Y ] = E [ X ] + E [ Y ] (无论 X , Y X, Y X , Y 是否独立)E [ a X + b ] = a E [ X ] + b E[aX+b] = aE[X] + b E [ a X + b ] = a E [ X ] + b 第3讲:连续随机变量 连续随机变量的定义与概率密度函数(PDF) 连续随机变量 (Continuous Random Variable) :一个随机变量,如果它的所有可能取值充满一个区间(有限或无限)。
概率密度函数 (Probability Density Function, PDF) : 对于连续随机变量 X X X ,其 PDF f X ( x ) f_X(x) f X ( x ) 描述了 X X X 在某一点 x x x 附近取值的相对可能性。它满足:
f X ( x ) ≥ 0 f_X(x) \ge 0 f X ( x ) ≥ 0 对所有 x x x 成立。∫ − ∞ ∞ f X ( x ) d x = 1 \int_{-\infty}^{\infty} f_X(x) dx = 1 ∫ − ∞ ∞ f X ( x ) d x = 1 (PDF曲线下的总面积为1)。对于任意 a < b a < b a < b ,事件 { a ≤ X ≤ b } \{a \le X \le b\} { a ≤ X ≤ b } 的概率为: P ( a ≤ X ≤ b ) = ∫ a b f X ( x ) d x P(a \le X \le b) = \int_a^b f_X(x) dx P ( a ≤ X ≤ b ) = ∫ a b f X ( x ) d x 重要提示 :对于连续随机变量,P ( X = x 0 ) = ∫ x 0 x 0 f X ( x ) d x = 0 P(X=x_0) = \int_{x_0}^{x_0} f_X(x) dx = 0 P ( X = x 0 ) = ∫ x 0 x 0 f X ( x ) d x = 0 。即,连续随机变量取任何特定单个值的概率为0。因此,P ( a ≤ X ≤ b ) = P ( a < X ≤ b ) = P ( a ≤ X < b ) = P ( a < X < b ) P(a \le X \le b) = P(a < X \le b) = P(a \le X < b) = P(a < X < b) P ( a ≤ X ≤ b ) = P ( a < X ≤ b ) = P ( a ≤ X < b ) = P ( a < X < b ) 。累积分布函数(CDF)的性质 常见连续分布 均匀分布 (Uniform Distribution) : X ∼ U ( a , b ) X \sim U(a, b) X ∼ U ( a , b ) or Uniform ( a , b ) \text{Uniform}(a, b) Uniform ( a , b ) 随机变量 X X X 在区间 [ a , b ] [a, b] [ a , b ] 内任何一点取值的概率密度相同。
PDF: f X ( x ) = { 1 b − a if a ≤ x ≤ b 0 otherwise f_X(x) = \begin{cases} \frac{1}{b-a} & \text{if } a \le x \le b \\ 0 & \text{otherwise} \end{cases} f X ( x ) = { b − a 1 0 if a ≤ x ≤ b otherwise CDF: F X ( x ) = { 0 if x < a x − a b − a if a ≤ x ≤ b 1 if x > b F_X(x) = \begin{cases} 0 & \text{if } x < a \\ \frac{x-a}{b-a} & \text{if } a \le x \le b \\ 1 & \text{if } x > b \end{cases} F X ( x ) = ⎩ ⎨ ⎧ 0 b − a x − a 1 if x < a if a ≤ x ≤ b if x > b 参数: a , b a, b a , b (区间的下限和上限, a < b a < b a < b ). 高斯(正态)分布 (Gaussian/Normal Distribution) : X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) X ∼ N ( μ , σ 2 ) 自然界和工程中应用最广泛的分布。
PDF: f X ( x ) = 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 f_X(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} f X ( x ) = 2 π σ 2 1 e − 2 σ 2 ( x − μ ) 2 其中 − ∞ < x < ∞ -\infty < x < \infty − ∞ < x < ∞ 。 参数: μ \mu μ (均值, − ∞ < μ < ∞ -\infty < \mu < \infty − ∞ < μ < ∞ ),σ 2 \sigma^2 σ 2 (方差, σ 2 > 0 \sigma^2 > 0 σ 2 > 0 ) 或 σ \sigma σ (标准差, σ > 0 \sigma > 0 σ > 0 )。 标准正态分布 : 当 μ = 0 , σ 2 = 1 \mu=0, \sigma^2=1 μ = 0 , σ 2 = 1 时,称为标准正态分布,记为 Z ∼ N ( 0 , 1 ) Z \sim N(0,1) Z ∼ N ( 0 , 1 ) 。其 PDF 通常用 ϕ ( z ) \phi(z) ϕ ( z ) 表示,CDF 用 Φ ( z ) \Phi(z) Φ ( z ) 表示。 ϕ ( z ) = 1 2 π e − z 2 2 \phi(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} ϕ ( z ) = 2 π 1 e − 2 z 2 Φ ( z ) = P ( Z ≤ z ) = ∫ − ∞ z 1 2 π e − t 2 2 d t \Phi(z) = P(Z \le z) = \int_{-\infty}^z \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} dt Φ ( z ) = P ( Z ≤ z ) = ∫ − ∞ z 2 π 1 e − 2 t 2 d t 若 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma^2) X ∼ N ( μ , σ 2 ) ,则 Z = X − μ σ ∼ N ( 0 , 1 ) Z = \frac{X-\mu}{\sigma} \sim N(0,1) Z = σ X − μ ∼ N ( 0 , 1 ) (标准化)。 连续随机变量的期望值与方差 期望值 (Expected Value or Mean, E [ X ] E[X] E [ X ] or μ X \mu_X μ X ) : E [ X ] = ∫ − ∞ ∞ x f X ( x ) d x E[X] = \int_{-\infty}^{\infty} x f_X(x) dx E [ X ] = ∫ − ∞ ∞ x f X ( x ) d x
方差 (Variance, V a r ( X ) Var(X) Va r ( X ) or σ X 2 \sigma_X^2 σ X 2 ) : V a r ( X ) = E [ ( X − E [ X ] ) 2 ] = ∫ − ∞ ∞ ( x − μ X ) 2 f X ( x ) d x Var(X) = E[(X - E[X])^2] = \int_{-\infty}^{\infty} (x - \mu_X)^2 f_X(x) dx Va r ( X ) = E [( X − E [ X ] ) 2 ] = ∫ − ∞ ∞ ( x − μ X ) 2 f X ( x ) d x 计算公式: V a r ( X ) = E [ X 2 ] − ( E [ X ] ) 2 Var(X) = E[X^2] - (E[X])^2 Va r ( X ) = E [ X 2 ] − ( E [ X ] ) 2 其中 E [ X 2 ] = ∫ − ∞ ∞ x 2 f X ( x ) d x E[X^2] = \int_{-\infty}^{\infty} x^2 f_X(x) dx E [ X 2 ] = ∫ − ∞ ∞ x 2 f X ( x ) d x 。
标准差 (Standard Deviation, σ X \sigma_X σ X ) : σ X = V a r ( X ) \sigma_X = \sqrt{Var(X)} σ X = Va r ( X )
常见连续分布的期望和方差 :
分布 参数 E [ X ] E[X] E [ X ] V a r ( X ) Var(X) Va r ( X ) 均匀(a , b a,b a , b ) a , b a, b a , b a + b 2 \frac{a+b}{2} 2 a + b ( b − a ) 2 12 \frac{(b-a)^2}{12} 12 ( b − a ) 2 正态(μ , σ 2 \mu,\sigma^2 μ , σ 2 ) μ , σ 2 \mu, \sigma^2 μ , σ 2 μ \mu μ σ 2 \sigma^2 σ 2 指数(λ \lambda λ ) λ > 0 \lambda > 0 λ > 0 1 / λ 1/\lambda 1/ λ 1 / λ 2 1/\lambda^2 1/ λ 2 (指数分布 PDF: f X ( x ) = λ e − λ x f_X(x) = \lambda e^{-\lambda x} f X ( x ) = λ e − λ x for x ≥ 0 x \ge 0 x ≥ 0 , and 0 0 0 for x < 0 x < 0 x < 0 )
第4讲:随机变量的函数 随机变量函数的期望值公式 设 Y = g ( X ) Y = g(X) Y = g ( X ) 是随机变量 X X X 的函数。
若 X X X 是离散随机变量 ,其 PMF 为 p X ( x i ) p_X(x_i) p X ( x i ) : E [ Y ] = E [ g ( X ) ] = ∑ i g ( x i ) p X ( x i ) E[Y] = E[g(X)] = \sum_i g(x_i) p_X(x_i) E [ Y ] = E [ g ( X )] = ∑ i g ( x i ) p X ( x i ) 若 X X X 是连续随机变量 ,其 PDF 为 f X ( x ) f_X(x) f X ( x ) : E [ Y ] = E [ g ( X ) ] = ∫ − ∞ ∞ g ( x ) f X ( x ) d x E[Y] = E[g(X)] = \int_{-\infty}^{\infty} g(x) f_X(x) dx E [ Y ] = E [ g ( X )] = ∫ − ∞ ∞ g ( x ) f X ( x ) d x 这个公式被称为期望运算法则 (Law of the Unconscious Statistician, LOTUS) 。 期望的线性性质 (对离散和连续都适用) :
E [ c ] = c E[c] = c E [ c ] = c (c 是常数)E [ c X ] = c E [ X ] E[cX] = cE[X] E [ c X ] = c E [ X ] E [ a X + b ] = a E [ X ] + b E[aX+b] = aE[X] + b E [ a X + b ] = a E [ X ] + b E [ g 1 ( X ) + g 2 ( X ) ] = E [ g 1 ( X ) ] + E [ g 2 ( X ) ] E[g_1(X) + g_2(X)] = E[g_1(X)] + E[g_2(X)] E [ g 1 ( X ) + g 2 ( X )] = E [ g 1 ( X )] + E [ g 2 ( X )] 随机变量函数的方差计算 设 Y = g ( X ) Y = g(X) Y = g ( X ) 。 根据方差定义: V a r ( Y ) = V a r ( g ( X ) ) = E [ ( g ( X ) − E [ g ( X ) ] ) 2 ] Var(Y) = Var(g(X)) = E[(g(X) - E[g(X)])^2] Va r ( Y ) = Va r ( g ( X )) = E [( g ( X ) − E [ g ( X )] ) 2 ] 或者使用公式: V a r ( g ( X ) ) = E [ ( g ( X ) ) 2 ] − ( E [ g ( X ) ] ) 2 Var(g(X)) = E[(g(X))^2] - (E[g(X)])^2 Va r ( g ( X )) = E [( g ( X ) ) 2 ] − ( E [ g ( X )] ) 2 其中 E [ ( g ( X ) ) 2 ] E[(g(X))^2] E [( g ( X ) ) 2 ] 可以用 LOTUS 计算:
离散: E [ ( g ( X ) ) 2 ] = ∑ i ( g ( x i ) ) 2 p X ( x i ) E[(g(X))^2] = \sum_i (g(x_i))^2 p_X(x_i) E [( g ( X ) ) 2 ] = ∑ i ( g ( x i ) ) 2 p X ( x i ) 连续: E [ ( g ( X ) ) 2 ] = ∫ − ∞ ∞ ( g ( x ) ) 2 f X ( x ) d x E[(g(X))^2] = \int_{-\infty}^{\infty} (g(x))^2 f_X(x) dx E [( g ( X ) ) 2 ] = ∫ − ∞ ∞ ( g ( x ) ) 2 f X ( x ) d x 方差的性质 :
V a r ( c ) = 0 Var(c) = 0 Va r ( c ) = 0 (c 是常数)V a r ( X + c ) = V a r ( X ) Var(X+c) = Var(X) Va r ( X + c ) = Va r ( X ) V a r ( c X ) = c 2 V a r ( X ) Var(cX) = c^2 Var(X) Va r ( c X ) = c 2 Va r ( X ) V a r ( a X + b ) = a 2 V a r ( X ) Var(aX+b) = a^2 Var(X) Va r ( a X + b ) = a 2 Va r ( X ) 离散与连续随机变量函数的期望值与方差的计算方法 离散随机变量函数的计算方法 :
求 Y = g ( X ) Y=g(X) Y = g ( X ) 的 PMF p Y ( y j ) p_Y(y_j) p Y ( y j ) :找出 Y Y Y 的所有可能取值 y j y_j y j 。 对每个 y j y_j y j ,计算 P ( Y = y j ) = P ( g ( X ) = y j ) = ∑ x i : g ( x i ) = y j P ( X = x i ) P(Y=y_j) = P(g(X)=y_j) = \sum_{x_i: g(x_i)=y_j} P(X=x_i) P ( Y = y j ) = P ( g ( X ) = y j ) = ∑ x i : g ( x i ) = y j P ( X = x i ) 。 用 p Y ( y j ) p_Y(y_j) p Y ( y j ) 计算期望和方差 :E [ Y ] = ∑ j y j p Y ( y j ) E[Y] = \sum_j y_j p_Y(y_j) E [ Y ] = ∑ j y j p Y ( y j ) V a r ( Y ) = ∑ j ( y j − E [ Y ] ) 2 p Y ( y j ) = E [ Y 2 ] − ( E [ Y ] ) 2 Var(Y) = \sum_j (y_j - E[Y])^2 p_Y(y_j) = E[Y^2] - (E[Y])^2 Va r ( Y ) = ∑ j ( y j − E [ Y ] ) 2 p Y ( y j ) = E [ Y 2 ] − ( E [ Y ] ) 2 直接使用 LOTUS (更常用) :E [ g ( X ) ] = ∑ i g ( x i ) p X ( x i ) E[g(X)] = \sum_i g(x_i) p_X(x_i) E [ g ( X )] = ∑ i g ( x i ) p X ( x i ) V a r ( g ( X ) ) = E [ ( g ( X ) ) 2 ] − ( E [ g ( X ) ] ) 2 = ( ∑ i ( g ( x i ) ) 2 p X ( x i ) ) − ( ∑ i g ( x i ) p X ( x i ) ) 2 Var(g(X)) = E[(g(X))^2] - (E[g(X)])^2 = \left(\sum_i (g(x_i))^2 p_X(x_i)\right) - \left(\sum_i g(x_i) p_X(x_i)\right)^2 Va r ( g ( X )) = E [( g ( X ) ) 2 ] − ( E [ g ( X )] ) 2 = ( ∑ i ( g ( x i ) ) 2 p X ( x i ) ) − ( ∑ i g ( x i ) p X ( x i ) ) 2 连续随机变量函数的计算方法 :
求 Y = g ( X ) Y=g(X) Y = g ( X ) 的 PDF f Y ( y ) f_Y(y) f Y ( y ) (可能较复杂) :先求 Y Y Y 的 CDF: F Y ( y ) = P ( Y ≤ y ) = P ( g ( X ) ≤ y ) = ∫ { x : g ( x ) ≤ y } f X ( x ) d x F_Y(y) = P(Y \le y) = P(g(X) \le y) = \int_{\{x: g(x) \le y\}} f_X(x) dx F Y ( y ) = P ( Y ≤ y ) = P ( g ( X ) ≤ y ) = ∫ { x : g ( x ) ≤ y } f X ( x ) d x 。 然后求导: f Y ( y ) = d F Y ( y ) d y f_Y(y) = \frac{dF_Y(y)}{dy} f Y ( y ) = d y d F Y ( y ) 。 特殊情况:若 g ( x ) g(x) g ( x ) 单调 如果 y = g ( x ) y=g(x) y = g ( x ) 是严格单调函数,且其反函数 x = h ( y ) x=h(y) x = h ( y ) 存在且可导,则 f Y ( y ) = f X ( h ( y ) ) ∣ d h ( y ) d y ∣ f_Y(y) = f_X(h(y)) \left| \frac{dh(y)}{dy} \right| f Y ( y ) = f X ( h ( y )) d y d h ( y ) 在 y y y 的取值范围内。用 f Y ( y ) f_Y(y) f Y ( y ) 计算期望和方差 :E [ Y ] = ∫ − ∞ ∞ y f Y ( y ) d y E[Y] = \int_{-\infty}^{\infty} y f_Y(y) dy E [ Y ] = ∫ − ∞ ∞ y f Y ( y ) d y V a r ( Y ) = ∫ − ∞ ∞ ( y − E [ Y ] ) 2 f Y ( y ) d y = E [ Y 2 ] − ( E [ Y ] ) 2 Var(Y) = \int_{-\infty}^{\infty} (y - E[Y])^2 f_Y(y) dy = E[Y^2] - (E[Y])^2 Va r ( Y ) = ∫ − ∞ ∞ ( y − E [ Y ] ) 2 f Y ( y ) d y = E [ Y 2 ] − ( E [ Y ] ) 2 直接使用 LOTUS (更常用) :E [ g ( X ) ] = ∫ − ∞ ∞ g ( x ) f X ( x ) d x E[g(X)] = \int_{-\infty}^{\infty} g(x) f_X(x) dx E [ g ( X )] = ∫ − ∞ ∞ g ( x ) f X ( x ) d x V a r ( g ( X ) ) = E [ ( g ( X ) ) 2 ] − ( E [ g ( X ) ] ) 2 = ( ∫ − ∞ ∞ ( g ( x ) ) 2 f X ( x ) d x ) − ( ∫ − ∞ ∞ g ( x ) f X ( x ) d x ) 2 Var(g(X)) = E[(g(X))^2] - (E[g(X)])^2 = \left(\int_{-\infty}^{\infty} (g(x))^2 f_X(x) dx\right) - \left(\int_{-\infty}^{\infty} g(x) f_X(x) dx\right)^2 Va r ( g ( X )) = E [( g ( X ) ) 2 ] − ( E [ g ( X )] ) 2 = ( ∫ − ∞ ∞ ( g ( x ) ) 2 f X ( x ) d x ) − ( ∫ − ∞ ∞ g ( x ) f X ( x ) d x ) 2 第二部分:随机变量的联合分布 第5讲:联合概率分布 联合概率质量函数(PMF)与联合概率密度函数(PDF) 考虑两个随机变量 X X X 和 Y Y Y 。
联合概率质量函数 (Joint PMF) : 如果 X X X 和 Y Y Y 都是离散随机变量 ,它们的联合 PMF p X , Y ( x i , y j ) p_{X,Y}(x_i, y_j) p X , Y ( x i , y j ) 定义为: p X , Y ( x i , y j ) = P ( X = x i , Y = y j ) p_{X,Y}(x_i, y_j) = P(X=x_i, Y=y_j) p X , Y ( x i , y j ) = P ( X = x i , Y = y j ) 其中 ( x i , y j ) (x_i, y_j) ( x i , y j ) 是 ( X , Y ) (X,Y) ( X , Y ) 可能取的一对值。 性质:
p X , Y ( x i , y j ) ≥ 0 p_{X,Y}(x_i, y_j) \ge 0 p X , Y ( x i , y j ) ≥ 0 ∑ i ∑ j p X , Y ( x i , y j ) = 1 \sum_i \sum_j p_{X,Y}(x_i, y_j) = 1 ∑ i ∑ j p X , Y ( x i , y j ) = 1 联合概率密度函数 (Joint PDF) : 如果 X X X 和 Y Y Y 都是连续随机变量 ,它们的联合 PDF f X , Y ( x , y ) f_{X,Y}(x, y) f X , Y ( x , y ) 满足:
f X , Y ( x , y ) ≥ 0 f_{X,Y}(x, y) \ge 0 f X , Y ( x , y ) ≥ 0 ∫ − ∞ ∞ ∫ − ∞ ∞ f X , Y ( x , y ) d x d y = 1 \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f_{X,Y}(x, y) dx dy = 1 ∫ − ∞ ∞ ∫ − ∞ ∞ f X , Y ( x , y ) d x d y = 1 对于平面上的任意区域 D D D , P ( ( X , Y ) ∈ D ) = ∬ D f X , Y ( x , y ) d x d y P((X,Y) \in D) = \iint_D f_{X,Y}(x, y) dx dy P (( X , Y ) ∈ D ) = ∬ D f X , Y ( x , y ) d x d y 联合累积分布函数 (Joint CDF) : 对于任意随机变量 X , Y X, Y X , Y (离散或连续),联合 CDF F X , Y ( x , y ) F_{X,Y}(x,y) F X , Y ( x , y ) 定义为: F X , Y ( x , y ) = P ( X ≤ x , Y ≤ y ) F_{X,Y}(x,y) = P(X \le x, Y \le y) F X , Y ( x , y ) = P ( X ≤ x , Y ≤ y )
离散: F X , Y ( x , y ) = ∑ x i ≤ x ∑ y j ≤ y p X , Y ( x i , y j ) F_{X,Y}(x,y) = \sum_{x_i \le x} \sum_{y_j \le y} p_{X,Y}(x_i, y_j) F X , Y ( x , y ) = ∑ x i ≤ x ∑ y j ≤ y p X , Y ( x i , y j ) 连续: F X , Y ( x , y ) = ∫ − ∞ x ∫ − ∞ y f X , Y ( u , v ) d v d u F_{X,Y}(x,y) = \int_{-\infty}^x \int_{-\infty}^y f_{X,Y}(u, v) dv du F X , Y ( x , y ) = ∫ − ∞ x ∫ − ∞ y f X , Y ( u , v ) d v d u 关系: f X , Y ( x , y ) = ∂ 2 F X , Y ( x , y ) ∂ x ∂ y f_{X,Y}(x,y) = \frac{\partial^2 F_{X,Y}(x,y)}{\partial x \partial y} f X , Y ( x , y ) = ∂ x ∂ y ∂ 2 F X , Y ( x , y ) (若偏导存在)。 边缘分布的计算 从联合分布中得到单个随机变量的分布,称为边缘分布 (Marginal Distribution) 。
边缘 PMF (对于离散 X , Y X,Y X , Y ): p X ( x i ) = P ( X = x i ) = ∑ j p X , Y ( x i , y j ) ( 对所有可能的 y j 求和 ) p_X(x_i) = P(X=x_i) = \sum_j p_{X,Y}(x_i, y_j) \quad (\text{对所有可能的 } y_j \text{ 求和}) p X ( x i ) = P ( X = x i ) = ∑ j p X , Y ( x i , y j ) ( 对所有可能的 y j 求和 ) p Y ( y j ) = P ( Y = y j ) = ∑ i p X , Y ( x i , y j ) ( 对所有可能的 x i 求和 ) p_Y(y_j) = P(Y=y_j) = \sum_i p_{X,Y}(x_i, y_j) \quad (\text{对所有可能的 } x_i \text{ 求和}) p Y ( y j ) = P ( Y = y j ) = ∑ i p X , Y ( x i , y j ) ( 对所有可能的 x i 求和 )
边缘 PDF (对于连续 X , Y X,Y X , Y ): f X ( x ) = ∫ − ∞ ∞ f X , Y ( x , y ) d y f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x, y) dy f X ( x ) = ∫ − ∞ ∞ f X , Y ( x , y ) d y f Y ( y ) = ∫ − ∞ ∞ f X , Y ( x , y ) d x f_Y(y) = \int_{-\infty}^{\infty} f_{X,Y}(x, y) dx f Y ( y ) = ∫ − ∞ ∞ f X , Y ( x , y ) d x
独立随机变量的定义与性质 第6讲:随机变量的独立性与相关性 协方差与相关系数的定义与性质 协方差 (Covariance) : 衡量两个随机变量 X , Y X, Y X , Y 之间线性关系的度量。 C o v ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] Cov(X,Y) = E[(X - E[X])(Y - E[Y])] C o v ( X , Y ) = E [( X − E [ X ]) ( Y − E [ Y ])] 计算公式: C o v ( X , Y ) = E [ X Y ] − E [ X ] E [ Y ] Cov(X,Y) = E[XY] - E[X]E[Y] C o v ( X , Y ) = E [ X Y ] − E [ X ] E [ Y ] 性质:
C o v ( X , X ) = V a r ( X ) Cov(X,X) = Var(X) C o v ( X , X ) = Va r ( X ) C o v ( X , Y ) = C o v ( Y , X ) Cov(X,Y) = Cov(Y,X) C o v ( X , Y ) = C o v ( Y , X ) (对称性)C o v ( a X + b , c Y + d ) = a c ⋅ C o v ( X , Y ) Cov(aX+b, cY+d) = ac \cdot Cov(X,Y) C o v ( a X + b , c Y + d ) = a c ⋅ C o v ( X , Y ) ( a , b , c , d a,b,c,d a , b , c , d 是常数)C o v ( X + Z , Y ) = C o v ( X , Y ) + C o v ( Z , Y ) Cov(X+Z, Y) = Cov(X,Y) + Cov(Z,Y) C o v ( X + Z , Y ) = C o v ( X , Y ) + C o v ( Z , Y ) (双线性)V a r ( X + Y ) = V a r ( X ) + V a r ( Y ) + 2 C o v ( X , Y ) Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y) Va r ( X + Y ) = Va r ( X ) + Va r ( Y ) + 2 C o v ( X , Y ) V a r ( X − Y ) = V a r ( X ) + V a r ( Y ) − 2 C o v ( X , Y ) Var(X-Y) = Var(X) + Var(Y) - 2Cov(X,Y) Va r ( X − Y ) = Va r ( X ) + Va r ( Y ) − 2 C o v ( X , Y ) 若 X , Y X, Y X , Y 独立,则 C o v ( X , Y ) = 0 Cov(X,Y) = 0 C o v ( X , Y ) = 0 。 相关系数 (Correlation Coefficient) : 协方差的归一化版本,度量 X , Y X, Y X , Y 之间线性相关程度和方向。 ρ X Y = C o v ( X , Y ) σ X σ Y = C o v ( X , Y ) V a r ( X ) V a r ( Y ) \rho_{XY} = \frac{Cov(X,Y)}{\sigma_X \sigma_Y} = \frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}} ρ X Y = σ X σ Y C o v ( X , Y ) = Va r ( X ) Va r ( Y ) C o v ( X , Y ) 假设 V a r ( X ) > 0 Var(X) > 0 Va r ( X ) > 0 和 V a r ( Y ) > 0 Var(Y) > 0 Va r ( Y ) > 0 。 性质:
− 1 ≤ ρ X Y ≤ 1 -1 \le \rho_{XY} \le 1 − 1 ≤ ρ X Y ≤ 1 。∣ ρ X Y ∣ = 1 |\rho_{XY}| = 1 ∣ ρ X Y ∣ = 1 当且仅当 Y = a X + b Y = aX+b Y = a X + b 概率为1,其中 a ≠ 0 a \neq 0 a = 0 。若 ρ X Y = 1 \rho_{XY} = 1 ρ X Y = 1 ,则 X , Y X, Y X , Y 完全正线性相关 (a > 0 a>0 a > 0 )。 若 ρ X Y = − 1 \rho_{XY} = -1 ρ X Y = − 1 ,则 X , Y X, Y X , Y 完全负线性相关 (a < 0 a<0 a < 0 )。 若 ρ X Y = 0 \rho_{XY} = 0 ρ X Y = 0 ,则 X , Y X, Y X , Y 不相关 (uncorrelated) 。 ρ a X + b , c Y + d = sgn ( a c ) ρ X Y \rho_{aX+b, cY+d} = \text{sgn}(ac) \rho_{XY} ρ a X + b , c Y + d = sgn ( a c ) ρ X Y (其中 sgn \text{sgn} sgn 是符号函数)。独立性与不相关性的关系 独立 ⟹ \implies ⟹ 不相关 : 若 X , Y X, Y X , Y 相互独立,则 E [ X Y ] = E [ X ] E [ Y ] E[XY] = E[X]E[Y] E [ X Y ] = E [ X ] E [ Y ] ,因此 C o v ( X , Y ) = E [ X Y ] − E [ X ] E [ Y ] = 0 Cov(X,Y) = E[XY] - E[X]E[Y] = 0 C o v ( X , Y ) = E [ X Y ] − E [ X ] E [ Y ] = 0 。 所以,ρ X Y = 0 \rho_{XY} = 0 ρ X Y = 0 。
不相关 ̸ ⟹ \not\implies ⟹ 独立 (一般情况下): 若 C o v ( X , Y ) = 0 Cov(X,Y)=0 C o v ( X , Y ) = 0 (即 ρ X Y = 0 \rho_{XY}=0 ρ X Y = 0 ),X , Y X, Y X , Y 不一定相互独立。不相关只意味着没有线性关系,但可能存在非线性关系。
反例 :设 X ∼ N ( 0 , 1 ) X \sim N(0,1) X ∼ N ( 0 , 1 ) ,Y = X 2 Y=X^2 Y = X 2 。 E [ X ] = 0 E[X]=0 E [ X ] = 0 ,E [ X Y ] = E [ X 3 ] = 0 E[XY] = E[X^3] = 0 E [ X Y ] = E [ X 3 ] = 0 (因为 X 3 X^3 X 3 是奇函数,对称分布)。 C o v ( X , Y ) = E [ X Y ] − E [ X ] E [ Y ] = 0 − 0 ⋅ E [ Y ] = 0 Cov(X,Y) = E[XY] - E[X]E[Y] = 0 - 0 \cdot E[Y] = 0 C o v ( X , Y ) = E [ X Y ] − E [ X ] E [ Y ] = 0 − 0 ⋅ E [ Y ] = 0 。 所以 X , Y X, Y X , Y 不相关。但 Y Y Y 完全由 X X X 决定,所以它们显然不独立。特殊情况:二元正态分布 如果 ( X , Y ) (X,Y) ( X , Y ) 服从二元正态分布(见下文),则 X , Y X, Y X , Y 不相关 (ρ = 0 \rho=0 ρ = 0 ) 当且仅当 X , Y X, Y X , Y 相互独立。 (注意:对于一般的非正态分布,独立性和不相关性是不同的概念)
二元高斯分布的性质 二元高斯(正态)分布 (Bivariate Normal Distribution) : ( X , Y ) (X,Y) ( X , Y ) 服从二元正态分布,如果其联合 PDF 为: f X , Y ( x , y ) = 1 2 π σ X σ Y 1 − ρ 2 exp ( − 1 2 ( 1 − ρ 2 ) [ ( x − μ X ) 2 σ X 2 − 2 ρ ( x − μ X ) ( y − μ Y ) σ X σ Y + ( y − μ Y ) 2 σ Y 2 ] ) f_{X,Y}(x,y) = \frac{1}{2\pi\sigma_X\sigma_Y\sqrt{1-\rho^2}} \exp\left(-\frac{1}{2(1-\rho^2)}\left[\frac{(x-\mu_X)^2}{\sigma_X^2} - \frac{2\rho(x-\mu_X)(y-\mu_Y)}{\sigma_X\sigma_Y} + \frac{(y-\mu_Y)^2}{\sigma_Y^2}\right]\right) f X , Y ( x , y ) = 2 π σ X σ Y 1 − ρ 2 1 exp ( − 2 ( 1 − ρ 2 ) 1 [ σ X 2 ( x − μ X ) 2 − σ X σ Y 2 ρ ( x − μ X ) ( y − μ Y ) + σ Y 2 ( y − μ Y ) 2 ] ) 参数:μ X , μ Y , σ X 2 , σ Y 2 , ρ \mu_X, \mu_Y, \sigma_X^2, \sigma_Y^2, \rho μ X , μ Y , σ X 2 , σ Y 2 , ρ (相关系数)。
性质 :
边缘分布是正态的 : X ∼ N ( μ X , σ X 2 ) X \sim N(\mu_X, \sigma_X^2) X ∼ N ( μ X , σ X 2 ) Y ∼ N ( μ Y , σ Y 2 ) Y \sim N(\mu_Y, \sigma_Y^2) Y ∼ N ( μ Y , σ Y 2 ) 条件分布是正态的 : 给定 X = x X=x X = x 时 Y Y Y 的条件分布是正态的: Y ∣ ( X = x ) ∼ N ( μ Y ∣ X , σ Y ∣ X 2 ) Y | (X=x) \sim N(\mu_{Y|X}, \sigma_{Y|X}^2) Y ∣ ( X = x ) ∼ N ( μ Y ∣ X , σ Y ∣ X 2 ) ,其中 E [ Y ∣ X = x ] = μ Y ∣ X = μ Y + ρ σ Y σ X ( x − μ X ) E[Y|X=x] = \mu_{Y|X} = \mu_Y + \rho \frac{\sigma_Y}{\sigma_X}(x - \mu_X) E [ Y ∣ X = x ] = μ Y ∣ X = μ Y + ρ σ X σ Y ( x − μ X ) V a r ( Y ∣ X = x ) = σ Y ∣ X 2 = σ Y 2 ( 1 − ρ 2 ) Var(Y|X=x) = \sigma_{Y|X}^2 = \sigma_Y^2(1-\rho^2) Va r ( Y ∣ X = x ) = σ Y ∣ X 2 = σ Y 2 ( 1 − ρ 2 ) (对称地,给定 Y = y Y=y Y = y 时 X X X 的条件分布也是正态的)不相关等价于独立 : 若 ( X , Y ) (X,Y) ( X , Y ) 服从二元正态分布,则 X , Y X, Y X , Y 不相关 (ρ = 0 \rho=0 ρ = 0 ) 当且仅当 X , Y X, Y X , Y 相互独立。 当 ρ = 0 \rho=0 ρ = 0 时,联合 PDF 变为 f X ( x ) f Y ( y ) f_X(x)f_Y(y) f X ( x ) f Y ( y ) 。X X X 和 Y Y Y 的线性组合也是正态分布的:a X + b Y ∼ N ( ⋅ , ⋅ ) aX+bY \sim N(\cdot, \cdot) a X + bY ∼ N ( ⋅ , ⋅ ) 。第7讲:条件概率分布 条件概率分布的定义与计算 条件 PMF (对于离散 X , Y X,Y X , Y ): 给定 X = x i X=x_i X = x i (且 p X ( x i ) > 0 p_X(x_i)>0 p X ( x i ) > 0 ) 的条件下,Y Y Y 的条件 PMF 定义为: p Y ∣ X ( y j ∣ x i ) = P ( Y = y j ∣ X = x i ) = P ( X = x i , Y = y j ) P ( X = x i ) = p X , Y ( x i , y j ) p X ( x i ) p_{Y|X}(y_j|x_i) = P(Y=y_j | X=x_i) = \frac{P(X=x_i, Y=y_j)}{P(X=x_i)} = \frac{p_{X,Y}(x_i, y_j)}{p_X(x_i)} p Y ∣ X ( y j ∣ x i ) = P ( Y = y j ∣ X = x i ) = P ( X = x i ) P ( X = x i , Y = y j ) = p X ( x i ) p X , Y ( x i , y j ) 对于固定的 x i x_i x i ,∑ j p Y ∣ X ( y j ∣ x i ) = 1 \sum_j p_{Y|X}(y_j|x_i) = 1 ∑ j p Y ∣ X ( y j ∣ x i ) = 1 。
条件 PDF (对于连续 X , Y X,Y X , Y ): 给定 X = x X=x X = x (且 f X ( x ) > 0 f_X(x)>0 f X ( x ) > 0 ) 的条件下,Y Y Y 的条件 PDF 定义为: f Y ∣ X ( y ∣ x ) = f X , Y ( x , y ) f X ( x ) f_{Y|X}(y|x) = \frac{f_{X,Y}(x,y)}{f_X(x)} f Y ∣ X ( y ∣ x ) = f X ( x ) f X , Y ( x , y ) 对于固定的 x x x ,∫ − ∞ ∞ f Y ∣ X ( y ∣ x ) d y = 1 \int_{-\infty}^{\infty} f_{Y|X}(y|x) dy = 1 ∫ − ∞ ∞ f Y ∣ X ( y ∣ x ) d y = 1 。
条件期望与条件方差 条件期望 (Conditional Expectation) E [ Y ∣ X = x ] E[Y|X=x] E [ Y ∣ X = x ] : 给定 X = x X=x X = x ,Y Y Y 的期望值。
离散情况 : E [ Y ∣ X = x i ] = ∑ j y j p Y ∣ X ( y j ∣ x i ) E[Y|X=x_i] = \sum_j y_j p_{Y|X}(y_j|x_i) E [ Y ∣ X = x i ] = ∑ j y j p Y ∣ X ( y j ∣ x i ) 连续情况 : E [ Y ∣ X = x ] = ∫ − ∞ ∞ y f Y ∣ X ( y ∣ x ) d y E[Y|X=x] = \int_{-\infty}^{\infty} y f_{Y|X}(y|x) dy E [ Y ∣ X = x ] = ∫ − ∞ ∞ y f Y ∣ X ( y ∣ x ) d y E [ Y ∣ X = x ] E[Y|X=x] E [ Y ∣ X = x ] 是 x x x 的函数。将其视为 X X X 的函数,记为 E [ Y ∣ X ] E[Y|X] E [ Y ∣ X ] ,它本身是一个随机变量。全期望定律 (Law of Total Expectation / Iterated Expectation) : E [ Y ] = E [ E [ Y ∣ X ] ] E[Y] = E[E[Y|X]] E [ Y ] = E [ E [ Y ∣ X ]] 计算方法:
离散 X X X : E [ Y ] = ∑ i E [ Y ∣ X = x i ] P ( X = x i ) E[Y] = \sum_i E[Y|X=x_i] P(X=x_i) E [ Y ] = ∑ i E [ Y ∣ X = x i ] P ( X = x i ) 连续 X X X : E [ Y ] = ∫ − ∞ ∞ E [ Y ∣ X = x ] f X ( x ) d x E[Y] = \int_{-\infty}^{\infty} E[Y|X=x] f_X(x) dx E [ Y ] = ∫ − ∞ ∞ E [ Y ∣ X = x ] f X ( x ) d x **条件方差 V a r ( Y ∣ X = x ) = E [ ( Y − E [ Y ∣ X = x ] ) 2 ∣ X = x ] Var(Y|X=x) = E[(Y - E[Y|X=x])^2 | X=x] Va r ( Y ∣ X = x ) = E [( Y − E [ Y ∣ X = x ] ) 2 ∣ X = x ] 计算公式: V a r ( Y ∣ X = x ) = E [ Y 2 ∣ X = x ] − ( E [ Y ∣ X = x ] ) 2 Var(Y|X=x) = E[Y^2|X=x] - (E[Y|X=x])^2 Va r ( Y ∣ X = x ) = E [ Y 2 ∣ X = x ] − ( E [ Y ∣ X = x ] ) 2 V a r ( Y ∣ X = x ) Var(Y|X=x) Va r ( Y ∣ X = x ) 是 x x x 的函数。将其视为 X X X 的函数,记为 V a r ( Y ∣ X ) Var(Y|X) Va r ( Y ∣ X ) ,它本身是一个随机变量。
全方差定律 (Law of Total Variance) : V a r ( Y ) = E [ V a r ( Y ∣ X ) ] + V a r ( E [ Y ∣ X ] ) Var(Y) = E[Var(Y|X)] + Var(E[Y|X]) Va r ( Y ) = E [ Va r ( Y ∣ X )] + Va r ( E [ Y ∣ X ]) 这表示 Y Y Y 的总方差等于 Y Y Y 在给定 X X X 下的平均条件方差,加上 Y Y Y 的条件均值的方差。
贝叶斯定理及其应用 贝叶斯定理 (Bayes’ Theorem) : 对于事件 A A A 和划分 B 1 , … , B n B_1, \dots, B_n B 1 , … , B n (且 P ( B i ) > 0 , P ( A ) > 0 P(B_i)>0, P(A)>0 P ( B i ) > 0 , P ( A ) > 0 ): P ( B k ∣ A ) = P ( A ∣ B k ) P ( B k ) P ( A ) = P ( A ∣ B k ) P ( B k ) ∑ i = 1 n P ( A ∣ B i ) P ( B i ) P(B_k|A) = \frac{P(A|B_k)P(B_k)}{P(A)} = \frac{P(A|B_k)P(B_k)}{\sum_{i=1}^n P(A|B_i)P(B_i)} P ( B k ∣ A ) = P ( A ) P ( A ∣ B k ) P ( B k ) = ∑ i = 1 n P ( A ∣ B i ) P ( B i ) P ( A ∣ B k ) P ( B k )
P ( B k ) P(B_k) P ( B k ) :先验概率 (prior probability of B k B_k B k )P ( B k ∣ A ) P(B_k|A) P ( B k ∣ A ) :后验概率 (posterior probability of B k B_k B k given A A A )P ( A ∣ B k ) P(A|B_k) P ( A ∣ B k ) :似然 (likelihood of A A A given B k B_k B k )P ( A ) P(A) P ( A ) :证据 (evidence or marginal likelihood of A A A )对于随机变量的贝叶斯定理 :
离散情况 : p X ∣ Y ( x ∣ y ) = p Y ∣ X ( y ∣ x ) p X ( x ) p Y ( y ) = p Y ∣ X ( y ∣ x ) p X ( x ) ∑ x ′ p Y ∣ X ( y ∣ x ′ ) p X ( x ′ ) p_{X|Y}(x|y) = \frac{p_{Y|X}(y|x) p_X(x)}{p_Y(y)} = \frac{p_{Y|X}(y|x) p_X(x)}{\sum_{x'} p_{Y|X}(y|x') p_X(x')} p X ∣ Y ( x ∣ y ) = p Y ( y ) p Y ∣ X ( y ∣ x ) p X ( x ) = ∑ x ′ p Y ∣ X ( y ∣ x ′ ) p X ( x ′ ) p Y ∣ X ( y ∣ x ) p X ( x ) 连续情况 : f X ∣ Y ( x ∣ y ) = f Y ∣ X ( y ∣ x ) f X ( x ) f Y ( y ) = f Y ∣ X ( y ∣ x ) f X ( x ) ∫ − ∞ ∞ f Y ∣ X ( y ∣ x ′ ) f X ( x ′ ) d x ′ f_{X|Y}(x|y) = \frac{f_{Y|X}(y|x) f_X(x)}{f_Y(y)} = \frac{f_{Y|X}(y|x) f_X(x)}{\int_{-\infty}^{\infty} f_{Y|X}(y|x') f_X(x') dx'} f X ∣ Y ( x ∣ y ) = f Y ( y ) f Y ∣ X ( y ∣ x ) f X ( x ) = ∫ − ∞ ∞ f Y ∣ X ( y ∣ x ′ ) f X ( x ′ ) d x ′ f Y ∣ X ( y ∣ x ) f X ( x ) 应用 :
统计推断 :从观测数据(证据)更新对参数或假设的信念。医学诊断 :根据症状(证据)判断患某种疾病的概率。垃圾邮件过滤 :根据邮件内容(证据)判断是否为垃圾邮件的概率。机器学习 :贝叶斯分类器,贝叶斯网络。第三部分:随机变量的估计与收敛 第8讲:样本均值与大数定律 样本均值的定义与性质 随机样本 (Random Sample) : 设 X 1 , X 2 , … , X n X_1, X_2, \dots, X_n X 1 , X 2 , … , X n 是一组来自同一总体分布的随机变量。如果它们是独立同分布 (i.i.d.) 的,则称它们构成一个容量为 n n n 的随机样本。
独立:P ( X 1 ≤ x 1 , … , X n ≤ x n ) = P ( X 1 ≤ x 1 ) … P ( X n ≤ x n ) P(X_1 \le x_1, \dots, X_n \le x_n) = P(X_1 \le x_1) \dots P(X_n \le x_n) P ( X 1 ≤ x 1 , … , X n ≤ x n ) = P ( X 1 ≤ x 1 ) … P ( X n ≤ x n ) 。 同分布:所有 X i X_i X i 具有相同的 CDF (因此有相同的 PMF/PDF,相同的均值 μ \mu μ 和方差 σ 2 \sigma^2 σ 2 )。 样本均值 (Sample Mean) X ˉ n \bar{X}_n X ˉ n : X ˉ n = 1 n ∑ i = 1 n X i = X 1 + X 2 + ⋯ + X n n \bar{X}_n = \frac{1}{n} \sum_{i=1}^n X_i = \frac{X_1 + X_2 + \dots + X_n}{n} X ˉ n = n 1 ∑ i = 1 n X i = n X 1 + X 2 + ⋯ + X n 样本均值本身是一个随机变量,其值随样本的不同而变化。
样本均值的性质 (假设 X i X_i X i i.i.d.,均值为 μ \mu μ ,方差为 σ 2 \sigma^2 σ 2 ):
期望 : E [ X ˉ n ] = E [ 1 n ∑ i = 1 n X i ] = 1 n ∑ i = 1 n E [ X i ] = 1 n ∑ i = 1 n μ = n μ n = μ E[\bar{X}_n] = E\left[\frac{1}{n}\sum_{i=1}^n X_i\right] = \frac{1}{n}\sum_{i=1}^n E[X_i] = \frac{1}{n}\sum_{i=1}^n \mu = \frac{n\mu}{n} = \mu E [ X ˉ n ] = E [ n 1 ∑ i = 1 n X i ] = n 1 ∑ i = 1 n E [ X i ] = n 1 ∑ i = 1 n μ = n n μ = μ 样本均值是总体均值 μ \mu μ 的无偏估计。方差 : V a r ( X ˉ n ) = V a r ( 1 n ∑ i = 1 n X i ) = 1 n 2 V a r ( ∑ i = 1 n X i ) Var(\bar{X}_n) = Var\left(\frac{1}{n}\sum_{i=1}^n X_i\right) = \frac{1}{n^2} Var\left(\sum_{i=1}^n X_i\right) Va r ( X ˉ n ) = Va r ( n 1 ∑ i = 1 n X i ) = n 2 1 Va r ( ∑ i = 1 n X i ) 由于 X i X_i X i 相互独立, V a r ( ∑ i = 1 n X i ) = ∑ i = 1 n V a r ( X i ) = ∑ i = 1 n σ 2 = n σ 2 Var\left(\sum_{i=1}^n X_i\right) = \sum_{i=1}^n Var(X_i) = \sum_{i=1}^n \sigma^2 = n\sigma^2 Va r ( ∑ i = 1 n X i ) = ∑ i = 1 n Va r ( X i ) = ∑ i = 1 n σ 2 = n σ 2 所以, V a r ( X ˉ n ) = 1 n 2 ( n σ 2 ) = σ 2 n Var(\bar{X}_n) = \frac{1}{n^2} (n\sigma^2) = \frac{\sigma^2}{n} Va r ( X ˉ n ) = n 2 1 ( n σ 2 ) = n σ 2 随着样本容量 n n n 的增大,样本均值的方差减小,表明 X ˉ n \bar{X}_n X ˉ n 越来越集中在总体均值 μ \mu μ 附近。大数定律的定义与证明 大数定律 (Law of Large Numbers, LLN) : 描述了当样本容量 n n n 足够大时,样本均值 X ˉ n \bar{X}_n X ˉ n 会趋近于总体均值 μ \mu μ 。 LLN 有两种主要形式:弱大数定律 (WLLN) 和强大数定律 (SLLN)。
弱大数定律 (Weak Law of Large Numbers, WLLN) : 设 X 1 , X 2 , … , X n X_1, X_2, \dots, X_n X 1 , X 2 , … , X n 是 i.i.d. 的随机变量,具有有限均值 E [ X i ] = μ E[X_i]=\mu E [ X i ] = μ 。则对于任意 ϵ > 0 \epsilon > 0 ϵ > 0 , lim n → ∞ P ( ∣ X ˉ n − μ ∣ ≥ ϵ ) = 0 \lim_{n \to \infty} P(|\bar{X}_n - \mu| \ge \epsilon) = 0 lim n → ∞ P ( ∣ X ˉ n − μ ∣ ≥ ϵ ) = 0 或等价地, lim n → ∞ P ( ∣ X ˉ n − μ ∣ < ϵ ) = 1 \lim_{n \to \infty} P(|\bar{X}_n - \mu| < \epsilon) = 1 lim n → ∞ P ( ∣ X ˉ n − μ ∣ < ϵ ) = 1 这表示 X ˉ n \bar{X}_n X ˉ n 依概率收敛 (converges in probability) 于 μ \mu μ ,记为 X ˉ n → p μ \bar{X}_n \xrightarrow{p} \mu X ˉ n p μ 。
切比雪夫不等式证明 WLLN (当方差 σ 2 \sigma^2 σ 2 有限时) : 切比雪夫不等式:对于任意随机变量 Y Y Y (均值 E [ Y ] E[Y] E [ Y ] ,方差 V a r ( Y ) Var(Y) Va r ( Y ) 有限),和任意 k > 0 k>0 k > 0 , P ( ∣ Y − E [ Y ] ∣ ≥ k ) ≤ V a r ( Y ) k 2 P(|Y - E[Y]| \ge k) \le \frac{Var(Y)}{k^2} P ( ∣ Y − E [ Y ] ∣ ≥ k ) ≤ k 2 Va r ( Y ) 令 Y = X ˉ n Y = \bar{X}_n Y = X ˉ n ,则 E [ Y ] = μ E[Y]=\mu E [ Y ] = μ ,V a r ( Y ) = σ 2 / n Var(Y)=\sigma^2/n Va r ( Y ) = σ 2 / n 。取 k = ϵ k=\epsilon k = ϵ : P ( ∣ X ˉ n − μ ∣ ≥ ϵ ) ≤ V a r ( X ˉ n ) ϵ 2 = σ 2 / n ϵ 2 = σ 2 n ϵ 2 P(|\bar{X}_n - \mu| \ge \epsilon) \le \frac{Var(\bar{X}_n)}{\epsilon^2} = \frac{\sigma^2/n}{\epsilon^2} = \frac{\sigma^2}{n\epsilon^2} P ( ∣ X ˉ n − μ ∣ ≥ ϵ ) ≤ ϵ 2 Va r ( X ˉ n ) = ϵ 2 σ 2 / n = n ϵ 2 σ 2 当 n → ∞ n \to \infty n → ∞ 时,σ 2 n ϵ 2 → 0 \frac{\sigma^2}{n\epsilon^2} \to 0 n ϵ 2 σ 2 → 0 。因此 lim n → ∞ P ( ∣ X ˉ n − μ ∣ ≥ ϵ ) = 0 \lim_{n \to \infty} P(|\bar{X}_n - \mu| \ge \epsilon) = 0 lim n → ∞ P ( ∣ X ˉ n − μ ∣ ≥ ϵ ) = 0 。 (注意:WLLN 也适用于方差无限但均值有限的情况,但证明更复杂)。强大数定律 (Strong Law of Large Numbers, SLLN) : 设 X 1 , X 2 , … , X n X_1, X_2, \dots, X_n X 1 , X 2 , … , X n 是 i.i.d. 的随机变量,具有有限均值 E [ X i ] = μ E[X_i]=\mu E [ X i ] = μ 。则 P ( lim n → ∞ X ˉ n = μ ) = 1 P\left(\lim_{n \to \infty} \bar{X}_n = \mu\right) = 1 P ( lim n → ∞ X ˉ n = μ ) = 1 这表示 X ˉ n \bar{X}_n X ˉ n 几乎必然收敛 (converges almost surely / with probability 1) 于 μ \mu μ ,记为 X ˉ n → a . s . μ \bar{X}_n \xrightarrow{a.s.} \mu X ˉ n a . s . μ 。
弱大数定律与强大数定律的区别 收敛类型 :
WLLN: 依概率收敛 (→ p \xrightarrow{p} p )。它描述的是当 n n n 很大时,X ˉ n \bar{X}_n X ˉ n 偏离 μ \mu μ 超过任意小量 ϵ \epsilon ϵ 的概率趋于0。 SLLN: 几乎必然收敛 (→ a . s . \xrightarrow{a.s.} a . s . )。它描述的是对于几乎所有的样本序列 (概率为1的样本点集合),当 n → ∞ n \to \infty n → ∞ 时,X ˉ n ( ω ) \bar{X}_n(\omega) X ˉ n ( ω ) 的极限就是 μ \mu μ 。 强度 : SLLN ⟹ \implies ⟹ WLLN。几乎必然收敛是一种比依概率收敛更强的收敛模式。 SLLN 意味着 X ˉ n \bar{X}_n X ˉ n 最终会稳定在 μ \mu μ 附近并且不再大幅偏离。 WLLN 允许 X ˉ n \bar{X}_n X ˉ n 偶尔大幅偏离 μ \mu μ ,只要这些偏离的概率随着 n n n 增大而趋于0。
条件 : SLLN 成立的条件(例如,Kolmogorov SLLN 要求 E [ ∣ X i ∣ ] < ∞ E[|X_i|] < \infty E [ ∣ X i ∣ ] < ∞ )通常比 WLLN 的某些版本(例如,Khinchin’s WLLN 要求 E [ X i ] = μ E[X_i]=\mu E [ X i ] = μ 存在)要严格或略有不同。上述描述中均假设 i.i.d. 且均值有限。
含义 : SLLN 提供了频率学派解释概率的基础:一个事件的相对频率在大量重复试验中会收敛到该事件的概率。例如,令 X i X_i X i 是第 i i i 次伯努利试验的结果 (1 1 1 代表成功,0 0 0 代表失败,P ( X i = 1 ) = p P(X_i=1)=p P ( X i = 1 ) = p )。则 X ˉ n \bar{X}_n X ˉ n 是 n n n 次试验中成功的相对频率,SLLN 表明 X ˉ n → a . s . p \bar{X}_n \xrightarrow{a.s.} p X ˉ n a . s . p 。
第9讲:中心极限定理 中心极限定理的定义与证明 中心极限定理 (Central Limit Theorem, CLT) : 描述了当独立同分布的随机变量的样本容量 n n n 足够大时,它们的和或均值的分布近似于正态分布,无论原始随机变量的分布是什么 (只要均值和方差有限)。
林德伯格-莱维 CLT (Lindeberg-Lévy CLT) : 设 X 1 , X 2 , … , X n X_1, X_2, \dots, X_n X 1 , X 2 , … , X n 是一列独立同分布 (i.i.d.) 的随机变量,具有有限均值 E [ X i ] = μ E[X_i] = \mu E [ X i ] = μ 和有限非零方差 V a r ( X i ) = σ 2 Var(X_i) = \sigma^2 Va r ( X i ) = σ 2 。 令 S n = ∑ i = 1 n X i S_n = \sum_{i=1}^n X_i S n = ∑ i = 1 n X i 为样本和,X ˉ n = S n n \bar{X}_n = \frac{S_n}{n} X ˉ n = n S n 为样本均值。 则标准化后的样本均值(或样本和)依分布收敛于标准正态分布: Z n = X ˉ n − μ σ / n = S n − n μ σ n → d N ( 0 , 1 ) as n → ∞ Z_n = \frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} = \frac{S_n - n\mu}{\sigma\sqrt{n}} \xrightarrow{d} N(0,1) \quad \text{as } n \to \infty Z n = σ / n X ˉ n − μ = σ n S n − n μ d N ( 0 , 1 ) as n → ∞ → d \xrightarrow{d} d 表示依分布收敛 (converges in distribution) 。这意味着 Z n Z_n Z n 的 CDF 收敛于标准正态分布的 CDF Φ ( z ) \Phi(z) Φ ( z ) : lim n → ∞ P ( Z n ≤ z ) = Φ ( z ) = ∫ − ∞ z 1 2 π e − t 2 / 2 d t 对所有 z \lim_{n \to \infty} P(Z_n \le z) = \Phi(z) = \int_{-\infty}^z \frac{1}{\sqrt{2\pi}} e^{-t^2/2} dt \quad \text{对所有 } z lim n → ∞ P ( Z n ≤ z ) = Φ ( z ) = ∫ − ∞ z 2 π 1 e − t 2 /2 d t 对所有 z
证明概要 : 证明通常涉及特征函数 (Characteristic Function)。随机变量 X X X 的特征函数定义为 ϕ X ( t ) = E [ e i t X ] \phi_X(t) = E[e^{itX}] ϕ X ( t ) = E [ e i tX ] 。对 X i X_i X i 进行标准化:令 Y i = X i − μ σ Y_i = \frac{X_i - \mu}{\sigma} Y i = σ X i − μ 。则 E [ Y i ] = 0 , V a r ( Y i ) = 1 E[Y_i]=0, Var(Y_i)=1 E [ Y i ] = 0 , Va r ( Y i ) = 1 。 Z n = 1 n ∑ i = 1 n Y i Z_n = \frac{1}{\sqrt{n}} \sum_{i=1}^n Y_i Z n = n 1 ∑ i = 1 n Y i 。计算 Y i Y_i Y i 的特征函数 ϕ Y ( t ) \phi_Y(t) ϕ Y ( t ) 。由于 E [ Y i ] = 0 , E [ Y i 2 ] = 1 E[Y_i]=0, E[Y_i^2]=1 E [ Y i ] = 0 , E [ Y i 2 ] = 1 ,ϕ Y ( t ) \phi_Y(t) ϕ Y ( t ) 在 t = 0 t=0 t = 0 附近泰勒展开为 1 − t 2 2 + o ( t 2 ) 1 - \frac{t^2}{2} + o(t^2) 1 − 2 t 2 + o ( t 2 ) 。 Z n Z_n Z n 的特征函数 ϕ Z n ( t ) = E [ e i t 1 n ∑ Y i ] = E [ ∏ e i t Y i n ] = ∏ E [ e i t Y i n ] = [ ϕ Y ( t / n ) ] n \phi_{Z_n}(t) = E[e^{it \frac{1}{\sqrt{n}} \sum Y_i}] = E[\prod e^{it \frac{Y_i}{\sqrt{n}}}] = \prod E[e^{it \frac{Y_i}{\sqrt{n}}}] = [\phi_Y(t/\sqrt{n})]^n ϕ Z n ( t ) = E [ e i t n 1 ∑ Y i ] = E [ ∏ e i t n Y i ] = ∏ E [ e i t n Y i ] = [ ϕ Y ( t / n ) ] n (由于 i.i.d.)。代入 ϕ Y ( t / n ) ≈ 1 − ( t / n ) 2 2 = 1 − t 2 2 n \phi_Y(t/\sqrt{n}) \approx 1 - \frac{(t/\sqrt{n})^2}{2} = 1 - \frac{t^2}{2n} ϕ Y ( t / n ) ≈ 1 − 2 ( t / n ) 2 = 1 − 2 n t 2 。 ϕ Z n ( t ) ≈ ( 1 − t 2 2 n ) n \phi_{Z_n}(t) \approx \left(1 - \frac{t^2}{2n}\right)^n ϕ Z n ( t ) ≈ ( 1 − 2 n t 2 ) n 。当 n → ∞ n \to \infty n → ∞ 时,( 1 − t 2 2 n ) n → e − t 2 / 2 \left(1 - \frac{t^2}{2n}\right)^n \to e^{-t^2/2} ( 1 − 2 n t 2 ) n → e − t 2 /2 。 e − t 2 / 2 e^{-t^2/2} e − t 2 /2 是标准正态分布 N ( 0 , 1 ) N(0,1) N ( 0 , 1 ) 的特征函数。根据 Lévy’s continuity theorem,若特征函数收敛,则随机变量依分布收敛。 中心极限定理的应用 CLT 是概率论和统计学中最重要的定理之一,因为它:
解释了正态分布的普遍性 :许多自然现象是大量微小、独立随机因素累积作用的结果,CLT 解释了为何这些现象的测量值往往服从正态分布。为统计推断提供了基础 :即使总体分布未知,只要样本量足够大,样本均值的抽样分布就可以用正态分布来近似。这使得我们可以进行假设检验和构造置信区间。例如,构造关于总体均值 μ \mu μ 的置信区间: X ˉ n ± z α / 2 σ n \bar{X}_n \pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}} X ˉ n ± z α /2 n σ (若 σ \sigma σ 已知) X ˉ n ± t α / 2 , n − 1 S n \bar{X}_n \pm t_{\alpha/2, n-1} \frac{S}{\sqrt{n}} X ˉ n ± t α /2 , n − 1 n S (若 σ \sigma σ 未知,用样本标准差 S S S 代替,使用 t-分布) 近似计算复杂分布的概率 :如果一个随机变量可以看作是许多独立随机变量的和,即使其精确分布难以计算,也可以用正态分布来近似其概率。正态分布的近似方法 CLT 提供了用正态分布近似其他分布的基础。
近似规则 : 如果 S n = X 1 + ⋯ + X n S_n = X_1 + \dots + X_n S n = X 1 + ⋯ + X n (i.i.d. X i X_i X i עם E [ X i ] = μ , V a r ( X i ) = σ 2 E[X_i]=\mu, Var(X_i)=\sigma^2 E [ X i ] = μ , Va r ( X i ) = σ 2 ),则当 n n n 足够大时: S n ≈ N ( n μ , n σ 2 ) S_n \approx N(n\mu, n\sigma^2) S n ≈ N ( n μ , n σ 2 ) X ˉ n ≈ N ( μ , σ 2 / n ) \bar{X}_n \approx N(\mu, \sigma^2/n) X ˉ n ≈ N ( μ , σ 2 / n ) “足够大” 通常指 n ≥ 30 n \ge 30 n ≥ 30 ,但这取决于原始分布的偏斜程度。如果原始分布对称,较小的 n n n 也可以。
对二项分布的正态近似 (De Moivre-Laplace Theorem) : 若 X ∼ B ( n , p ) X \sim B(n,p) X ∼ B ( n , p ) ,则 X X X 可以看作是 n n n 个独立 Bernoulli(p p p ) 随机变量的和。 E [ X ] = n p E[X] = np E [ X ] = n p , V a r ( X ) = n p ( 1 − p ) Var(X) = np(1-p) Va r ( X ) = n p ( 1 − p ) 。 当 n n n 足够大 (通常要求 n p ≥ 5 np \ge 5 n p ≥ 5 且 n ( 1 − p ) ≥ 5 n(1-p) \ge 5 n ( 1 − p ) ≥ 5 ) 时, X ≈ N ( n p , n p ( 1 − p ) ) X \approx N(np, np(1-p)) X ≈ N ( n p , n p ( 1 − p )) 计算 P ( a ≤ X ≤ b ) P(a \le X \le b) P ( a ≤ X ≤ b ) 时,使用连续性修正 (continuity correction) : P ( a ≤ X ≤ b ) ≈ P ( a − 0.5 − n p n p ( 1 − p ) ≤ Z ≤ b + 0.5 − n p n p ( 1 − p ) ) P(a \le X \le b) \approx P\left( \frac{a-0.5 - np}{\sqrt{np(1-p)}} \le Z \le \frac{b+0.5 - np}{\sqrt{np(1-p)}} \right) P ( a ≤ X ≤ b ) ≈ P ( n p ( 1 − p ) a − 0.5 − n p ≤ Z ≤ n p ( 1 − p ) b + 0.5 − n p ) 其中 Z ∼ N ( 0 , 1 ) Z \sim N(0,1) Z ∼ N ( 0 , 1 ) 。
对泊松分布的正态近似 : 若 X ∼ Poisson ( λ ) X \sim \text{Poisson}(\lambda) X ∼ Poisson ( λ ) ,当 λ \lambda λ 足够大时 (通常 λ ≥ 10 \lambda \ge 10 λ ≥ 10 或 λ ≥ 20 \lambda \ge 20 λ ≥ 20 ), X ≈ N ( λ , λ ) X \approx N(\lambda, \lambda) X ≈ N ( λ , λ ) 因为 E [ X ] = λ , V a r ( X ) = λ E[X]=\lambda, Var(X)=\lambda E [ X ] = λ , Va r ( X ) = λ 。 同样,计算概率时可以考虑使用连续性修正。
第10讲:参数估计 参数估计是统计推断的一个主要分支,目的是利用样本数据来估计总体分布中的未知参数。
点估计的定义与方法 点估计 (Point Estimation) : 用样本数据计算出一个单一的数值,作为总体未知参数 θ \theta θ 的估计值。这个估计值称为估计量 (estimator) Θ ^ \hat{\Theta} Θ ^ 的一个具体实现,记为 θ ^ \hat{\theta} θ ^ 。 估计量 Θ ^ \hat{\Theta} Θ ^ 是一个基于样本 X 1 , … , X n X_1, \dots, X_n X 1 , … , X n 的函数,因此它是一个随机变量。
常见的点估计方法 :
矩估计法 (Method of Moments, MOM) : 用样本矩来估计总体矩,然后解出参数的估计。基本思想:令总体 k k k 阶矩等于样本 k k k 阶矩。 E [ X k ] = 1 n ∑ i = 1 n X i k E[X^k] = \frac{1}{n} \sum_{i=1}^n X_i^k E [ X k ] = n 1 ∑ i = 1 n X i k 例如,估计均值 μ = E [ X ] \mu = E[X] μ = E [ X ] 和方差 σ 2 = E [ X 2 ] − ( E [ X ] ) 2 \sigma^2 = E[X^2] - (E[X])^2 σ 2 = E [ X 2 ] − ( E [ X ] ) 2 : μ ^ M O M = X ˉ n = 1 n ∑ X i \hat{\mu}_{MOM} = \bar{X}_n = \frac{1}{n}\sum X_i μ ^ MOM = X ˉ n = n 1 ∑ X i E [ X 2 ] = 1 n ∑ X i 2 E[X^2] = \frac{1}{n}\sum X_i^2 E [ X 2 ] = n 1 ∑ X i 2 σ ^ M O M 2 = ( 1 n ∑ X i 2 ) − ( X ˉ n ) 2 = 1 n ∑ ( X i − X ˉ n ) 2 \hat{\sigma}^2_{MOM} = \left(\frac{1}{n}\sum X_i^2\right) - (\bar{X}_n)^2 = \frac{1}{n}\sum (X_i - \bar{X}_n)^2 σ ^ MOM 2 = ( n 1 ∑ X i 2 ) − ( X ˉ n ) 2 = n 1 ∑ ( X i − X ˉ n ) 2 (这是有偏的样本方差) 最大似然估计法 (Maximum Likelihood Estimation, MLE) : 选择使观测到的样本数据出现的“可能性”(似然)最大的参数值作为估计值。似然函数 (Likelihood Function) L ( θ ∣ x 1 , … , x n ) L(\theta | x_1, \dots, x_n) L ( θ ∣ x 1 , … , x n ) : 给定样本观测值 x 1 , … , x n x_1, \dots, x_n x 1 , … , x n 时,参数 θ \theta θ 的函数。 如果 X i X_i X i i.i.d., 离散: L ( θ ∣ x 1 , … , x n ) = ∏ i = 1 n p ( x i ; θ ) L(\theta | x_1, \dots, x_n) = \prod_{i=1}^n p(x_i; \theta) L ( θ ∣ x 1 , … , x n ) = ∏ i = 1 n p ( x i ; θ ) 连续: L ( θ ∣ x 1 , … , x n ) = ∏ i = 1 n f ( x i ; θ ) L(\theta | x_1, \dots, x_n) = \prod_{i=1}^n f(x_i; \theta) L ( θ ∣ x 1 , … , x n ) = ∏ i = 1 n f ( x i ; θ ) MLE θ ^ M L E \hat{\theta}_{MLE} θ ^ M L E 是使 L ( θ ) L(\theta) L ( θ ) 最大化的 θ \theta θ 值。通常通过最大化对数似然函数 ln L ( θ ) \ln L(\theta) ln L ( θ ) 来求解: d ln L ( θ ) d θ = 0 \frac{d \ln L(\theta)}{d\theta} = 0 d θ d l n L ( θ ) = 0 估计量的性质:无偏性、一致性、渐近无偏性 评价一个估计量好坏的标准:
无偏性 (Unbiasedness) : 如果估计量 Θ ^ \hat{\Theta} Θ ^ 的期望值等于被估计的参数 θ \theta θ ,则称 Θ ^ \hat{\Theta} Θ ^ 是 θ \theta θ 的无偏估计量。 E [ Θ ^ ] = θ 对所有可能的 θ E[\hat{\Theta}] = \theta \quad \text{对所有可能的 } \theta E [ Θ ^ ] = θ 对所有可能的 θ 偏差 (Bias) :B i a s ( Θ ^ ) = E [ Θ ^ ] − θ Bias(\hat{\Theta}) = E[\hat{\Theta}] - \theta B ia s ( Θ ^ ) = E [ Θ ^ ] − θ 。无偏估计量的偏差为0。
X ˉ n \bar{X}_n X ˉ n 是 μ \mu μ 的无偏估计量:E [ X ˉ n ] = μ E[\bar{X}_n] = \mu E [ X ˉ n ] = μ 。样本方差 S 2 = 1 n − 1 ∑ ( X i − X ˉ n ) 2 S^2 = \frac{1}{n-1}\sum (X_i - \bar{X}_n)^2 S 2 = n − 1 1 ∑ ( X i − X ˉ n ) 2 是 σ 2 \sigma^2 σ 2 的无偏估计量:E [ S 2 ] = σ 2 E[S^2]=\sigma^2 E [ S 2 ] = σ 2 。 而 σ ^ M O M 2 = 1 n ∑ ( X i − X ˉ n ) 2 \hat{\sigma}^2_{MOM} = \frac{1}{n}\sum (X_i - \bar{X}_n)^2 σ ^ MOM 2 = n 1 ∑ ( X i − X ˉ n ) 2 是 σ 2 \sigma^2 σ 2 的有偏估计量,其期望为 n − 1 n σ 2 \frac{n-1}{n}\sigma^2 n n − 1 σ 2 。 一致性 (Consistency) : 如果当样本容量 n → ∞ n \to \infty n → ∞ 时,估计量 Θ ^ n \hat{\Theta}_n Θ ^ n 依概率收敛于参数 θ \theta θ ,则称 Θ ^ n \hat{\Theta}_n Θ ^ n 是 θ \theta θ 的一致估计量。 Θ ^ n → p θ as n → ∞ \hat{\Theta}_n \xrightarrow{p} \theta \quad \text{as } n \to \infty Θ ^ n p θ as n → ∞ 即,对于任意 ϵ > 0 \epsilon > 0 ϵ > 0 ,lim n → ∞ P ( ∣ Θ ^ n − θ ∣ ≥ ϵ ) = 0 \lim_{n \to \infty} P(|\hat{\Theta}_n - \theta| \ge \epsilon) = 0 lim n → ∞ P ( ∣ Θ ^ n − θ ∣ ≥ ϵ ) = 0 。
X ˉ n \bar{X}_n X ˉ n 是 μ \mu μ 的一致估计量 (由 WLLN)。MLE 通常具有一致性。 渐近无偏性 (Asymptotic Unbiasedness) : 如果当样本容量 n → ∞ n \to \infty n → ∞ 时,估计量 Θ ^ n \hat{\Theta}_n Θ ^ n 的期望值趋近于参数 θ \theta θ ,则称 Θ ^ n \hat{\Theta}_n Θ ^ n 是 θ \theta θ 的渐近无偏估计量。 lim n → ∞ E [ Θ ^ n ] = θ \lim_{n \to \infty} E[\hat{\Theta}_n] = \theta lim n → ∞ E [ Θ ^ n ] = θ
例如,σ ^ M O M 2 = 1 n ∑ ( X i − X ˉ n ) 2 \hat{\sigma}^2_{MOM} = \frac{1}{n}\sum (X_i - \bar{X}_n)^2 σ ^ MOM 2 = n 1 ∑ ( X i − X ˉ n ) 2 是 σ 2 \sigma^2 σ 2 的有偏估计量,但 E [ σ ^ M O M 2 ] = n − 1 n σ 2 E[\hat{\sigma}^2_{MOM}] = \frac{n-1}{n}\sigma^2 E [ σ ^ MOM 2 ] = n n − 1 σ 2 ,当 n → ∞ n \to \infty n → ∞ 时,E [ σ ^ M O M 2 ] → σ 2 E[\hat{\sigma}^2_{MOM}] \to \sigma^2 E [ σ ^ MOM 2 ] → σ 2 ,所以它是渐近无偏的。 均方误差的定义与计算 均方误差 (Mean Squared Error, MSE) : 衡量估计量 Θ ^ \hat{\Theta} Θ ^ 与真实参数 θ \theta θ 之间平均平方差异的度量。 M S E ( Θ ^ ) = E [ ( Θ ^ − θ ) 2 ] MSE(\hat{\Theta}) = E[(\hat{\Theta} - \theta)^2] MSE ( Θ ^ ) = E [( Θ ^ − θ ) 2 ] MSE 是评价估计量好坏的一个综合指标。 MSE 分解 : M S E ( Θ ^ ) = V a r ( Θ ^ ) + ( B i a s ( Θ ^ ) ) 2 MSE(\hat{\Theta}) = Var(\hat{\Theta}) + (Bias(\hat{\Theta}))^2 MSE ( Θ ^ ) = Va r ( Θ ^ ) + ( B ia s ( Θ ^ ) ) 2 M S E ( Θ ^ ) = V a r ( Θ ^ ) + ( E [ Θ ^ ] − θ ) 2 MSE(\hat{\Theta}) = Var(\hat{\Theta}) + (E[\hat{\Theta}] - \theta)^2 MSE ( Θ ^ ) = Va r ( Θ ^ ) + ( E [ Θ ^ ] − θ ) 2
对于无偏估计量,B i a s ( Θ ^ ) = 0 Bias(\hat{\Theta})=0 B ia s ( Θ ^ ) = 0 ,所以 M S E ( Θ ^ ) = V a r ( Θ ^ ) MSE(\hat{\Theta}) = Var(\hat{\Theta}) MSE ( Θ ^ ) = Va r ( Θ ^ ) 。在这种情况下,选择方差最小的无偏估计量(称为最小方差无偏估计量, MVUE)。 在有偏估计量中,有时一个有偏估计量可能比无偏估计量有更小的 MSE,如果它的方差足够小以弥补偏差的影响(偏差-方差权衡)。 计算 : 需要知道 E [ Θ ^ ] E[\hat{\Theta}] E [ Θ ^ ] (以计算偏差) 和 V a r ( Θ ^ ) Var(\hat{\Theta}) Va r ( Θ ^ ) 。
例如,X ˉ n \bar{X}_n X ˉ n 作为 μ \mu μ 的估计量: B i a s ( X ˉ n ) = E [ X ˉ n ] − μ = μ − μ = 0 Bias(\bar{X}_n) = E[\bar{X}_n] - \mu = \mu - \mu = 0 B ia s ( X ˉ n ) = E [ X ˉ n ] − μ = μ − μ = 0 。 V a r ( X ˉ n ) = σ 2 / n Var(\bar{X}_n) = \sigma^2/n Va r ( X ˉ n ) = σ 2 / n 。 M S E ( X ˉ n ) = V a r ( X ˉ n ) + ( B i a s ( X ˉ n ) ) 2 = σ 2 n + 0 2 = σ 2 n MSE(\bar{X}_n) = Var(\bar{X}_n) + (Bias(\bar{X}_n))^2 = \frac{\sigma^2}{n} + 0^2 = \frac{\sigma^2}{n} MSE ( X ˉ n ) = Va r ( X ˉ n ) + ( B ia s ( X ˉ n ) ) 2 = n σ 2 + 0 2 = n σ 2 。 第四部分:随机过程 第11讲:随机过程的基本概念 随机过程的定义与分类 随机过程 (Random Process or Stochastic Process) : 一个随机过程 { X ( t ) , t ∈ T } \{X(t), t \in T\} { X ( t ) , t ∈ T } 是一个以时间 t t t 为参数的随机变量的集合(或族) 。
t t t :时间参数(也可以是空间参数等)。T T T :参数集或索引集。对于每一个固定的 t ∈ T t \in T t ∈ T ,X ( t ) X(t) X ( t ) 是一个随机变量。 对于每一个固定的样本点 ω ∈ Ω \omega \in \Omega ω ∈ Ω (来自底层的概率空间),X ( t , ω ) X(t, \omega) X ( t , ω ) 作为 t t t 的函数,是一个确定的时间函数,称为样本函数 (Sample Function) 或实现 (Realization) 。 随机过程的分类 : 根据时间参数 t t t 和 状态空间 S X S_X S X (即 X ( t ) X(t) X ( t ) 的取值范围) 的特性分类:
按时间参数 T T T :
离散时间随机过程 (Discrete-Time Random Process) :时间参数 t t t 取离散值 (如 t = 0 , 1 , 2 , … t=0, 1, 2, \dots t = 0 , 1 , 2 , … 或 t = t 0 , t 1 , … t=t_0, t_1, \dots t = t 0 , t 1 , … )。常记为 X n X_n X n 或 X ( n ) X(n) X ( n ) 。连续时间随机过程 (Continuous-Time Random Process) :时间参数 t t t 取连续值 (如 t ∈ [ 0 , ∞ ) t \in [0, \infty) t ∈ [ 0 , ∞ ) 或 t ∈ ( − ∞ , ∞ ) t \in (-\infty, \infty) t ∈ ( − ∞ , ∞ ) )。常记为 X ( t ) X(t) X ( t ) 。按状态空间 S X S_X S X :
离散状态随机过程 (Discrete-State Random Process / Chain) :X ( t ) X(t) X ( t ) 的取值是离散的 (有限或可列无限)。示例 :一个计数器的状态,一个通信信道的状态 (好/坏)。连续状态随机过程 (Continuous-State Random Process) :X ( t ) X(t) X ( t ) 的取值是连续的 (一个区间)。四种基本类型 :
离散时间,离散状态 (如:马尔可夫链) 离散时间,连续状态 (如:离散时间高斯过程) 连续时间,离散状态 (如:泊松过程,连续时间马尔可夫链) 连续时间,连续状态 (如:布朗运动,高斯过程) 样本函数与集合的概念 样本函数 (Sample Function / Realization / Sample Path) : 对于概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, P) ( Ω , F , P ) 中的某个特定结果 ω 0 ∈ Ω \omega_0 \in \Omega ω 0 ∈ Ω ,随机过程 X ( t , ω 0 ) X(t, \omega_0) X ( t , ω 0 ) 是一个关于时间 t t t 的确定函数。
它是随机过程的一次“观测”或“实验结果”。 例如,如果 X ( t ) X(t) X ( t ) 是某城市每日最高气温,那么过去10年每天的最高气温记录就是该过程的一个样本函数。 集合 (Ensemble) : 随机过程所有可能的样本函数的集合。 { X ( t , ω ) ∣ ω ∈ Ω } \{X(t, \omega) \mid \omega \in \Omega\} { X ( t , ω ) ∣ ω ∈ Ω } 。 可以想象成无数条时间函数,每一条对应一个 ω \omega ω 。
随机过程的统计特性 随机过程的完整描述需要其任意 k k k 个时刻 t 1 , … , t k t_1, \dots, t_k t 1 , … , t k 的随机变量 X ( t 1 ) , … , X ( t k ) X(t_1), \dots, X(t_k) X ( t 1 ) , … , X ( t k ) 的联合分布。这通常很复杂,所以常用一些低阶矩来描述其特性。
均值函数 (Mean Function) μ X ( t ) \mu_X(t) μ X ( t ) : μ X ( t ) = E [ X ( t ) ] \mu_X(t) = E[X(t)] μ X ( t ) = E [ X ( t )] 描述了过程在时刻 t t t 的平均值。一般是 t t t 的函数。
自相关函数 (Autocorrelation Function) R X ( t 1 , t 2 ) R_X(t_1, t_2) R X ( t 1 , t 2 ) : R X ( t 1 , t 2 ) = E [ X ( t 1 ) X ( t 2 ) ] R_X(t_1, t_2) = E[X(t_1)X(t_2)] R X ( t 1 , t 2 ) = E [ X ( t 1 ) X ( t 2 )] 描述了过程在两个不同时刻 t 1 , t 2 t_1, t_2 t 1 , t 2 的值的相关性。 性质:
R X ( t 1 , t 2 ) = R X ( t 2 , t 1 ) R_X(t_1, t_2) = R_X(t_2, t_1) R X ( t 1 , t 2 ) = R X ( t 2 , t 1 ) (对于实过程)∣ R X ( t 1 , t 2 ) ∣ ≤ R X ( t 1 , t 1 ) R X ( t 2 , t 2 ) |R_X(t_1, t_2)| \le \sqrt{R_X(t_1, t_1)R_X(t_2, t_2)} ∣ R X ( t 1 , t 2 ) ∣ ≤ R X ( t 1 , t 1 ) R X ( t 2 , t 2 ) (Cauchy-Schwarz)R X ( t , t ) = E [ X 2 ( t ) ] R_X(t,t) = E[X^2(t)] R X ( t , t ) = E [ X 2 ( t )] (平均功率)自协方差函数 (Autocovariance Function) C X ( t 1 , t 2 ) C_X(t_1, t_2) C X ( t 1 , t 2 ) : C X ( t 1 , t 2 ) = C o v ( X ( t 1 ) , X ( t 2 ) ) = E [ ( X ( t 1 ) − μ X ( t 1 ) ) ( X ( t 2 ) − μ X ( t 2 ) ) ] C_X(t_1, t_2) = Cov(X(t_1), X(t_2)) = E[(X(t_1) - \mu_X(t_1))(X(t_2) - \mu_X(t_2))] C X ( t 1 , t 2 ) = C o v ( X ( t 1 ) , X ( t 2 )) = E [( X ( t 1 ) − μ X ( t 1 )) ( X ( t 2 ) − μ X ( t 2 ))] C X ( t 1 , t 2 ) = R X ( t 1 , t 2 ) − μ X ( t 1 ) μ X ( t 2 ) C_X(t_1, t_2) = R_X(t_1, t_2) - \mu_X(t_1)\mu_X(t_2) C X ( t 1 , t 2 ) = R X ( t 1 , t 2 ) − μ X ( t 1 ) μ X ( t 2 ) 性质:
C X ( t , t ) = V a r ( X ( t ) ) C_X(t,t) = Var(X(t)) C X ( t , t ) = Va r ( X ( t )) (方差函数)互相关函数 (Cross-correlation Function) R X Y ( t 1 , t 2 ) R_{XY}(t_1, t_2) R X Y ( t 1 , t 2 ) : 对于两个随机过程 X ( t ) X(t) X ( t ) 和 Y ( t ) Y(t) Y ( t ) , R X Y ( t 1 , t 2 ) = E [ X ( t 1 ) Y ( t 2 ) ] R_{XY}(t_1, t_2) = E[X(t_1)Y(t_2)] R X Y ( t 1 , t 2 ) = E [ X ( t 1 ) Y ( t 2 )]
互协方差函数 (Cross-covariance Function) C X Y ( t 1 , t 2 ) C_{XY}(t_1, t_2) C X Y ( t 1 , t 2 ) : C X Y ( t 1 , t 2 ) = E [ ( X ( t 1 ) − μ X ( t 1 ) ) ( Y ( t 2 ) − μ Y ( t 2 ) ) ] = R X Y ( t 1 , t 2 ) − μ X ( t 1 ) μ Y ( t 2 ) C_{XY}(t_1, t_2) = E[(X(t_1) - \mu_X(t_1))(Y(t_2) - \mu_Y(t_2))] = R_{XY}(t_1, t_2) - \mu_X(t_1)\mu_Y(t_2) C X Y ( t 1 , t 2 ) = E [( X ( t 1 ) − μ X ( t 1 )) ( Y ( t 2 ) − μ Y ( t 2 ))] = R X Y ( t 1 , t 2 ) − μ X ( t 1 ) μ Y ( t 2 )
第12讲:泊松过程 泊松过程的定义与性质 泊松过程 (Poisson Process) N ( t ) N(t) N ( t ) (或 { N ( t ) , t ≥ 0 } \{N(t), t \ge 0\} { N ( t ) , t ≥ 0 } ): 一个计数过程,表示从时间 0 0 0 到时间 t t t 某事件发生的次数。它是一个连续时间、离散状态的随机过程。 参数为 λ > 0 \lambda > 0 λ > 0 (称为速率或强度)。
定义 (基于增量特性) : 计数过程 N ( t ) N(t) N ( t ) 是一个速率为 λ \lambda λ 的泊松过程,如果满足:
初始条件 : N ( 0 ) = 0 N(0) = 0 N ( 0 ) = 0 (时间0时,事件发生次数为0)。独立增量 (Independent Increments) : 对于任意 0 ≤ t 1 < t 2 < ⋯ < t k 0 \le t_1 < t_2 < \dots < t_k 0 ≤ t 1 < t 2 < ⋯ < t k ,随机变量 N ( t 2 ) − N ( t 1 ) , N ( t 3 ) − N ( t 2 ) , … , N ( t k ) − N ( t k − 1 ) N(t_2)-N(t_1), N(t_3)-N(t_2), \dots, N(t_k)-N(t_{k-1}) N ( t 2 ) − N ( t 1 ) , N ( t 3 ) − N ( t 2 ) , … , N ( t k ) − N ( t k − 1 ) 是相互独立的。即,在不相交时间区间内事件发生的次数是独立的。平稳增量 (Stationary Increments) / 齐次性 : 对于任意 s , t > 0 s, t > 0 s , t > 0 , N ( t + s ) − N ( s ) N(t+s)-N(s) N ( t + s ) − N ( s ) (在长度为 t t t 的区间 [ s , s + t ] [s, s+t] [ s , s + t ] 内发生的次数) 的分布与 N ( t ) N(t) N ( t ) (在长度为 t t t 的区间 [ 0 , t ] [0, t] [ 0 , t ] 内发生的次数) 相同。只依赖于区间长度,不依赖于区间起点。小区间内的概率特性 :P ( N ( h ) = 1 ) = λ h + o ( h ) P(N(h)=1) = \lambda h + o(h) P ( N ( h ) = 1 ) = λh + o ( h ) (在足够小的时间间隔 h h h 内发生1次事件的概率近似 λ h \lambda h λh )P ( N ( h ) ≥ 2 ) = o ( h ) P(N(h) \ge 2) = o(h) P ( N ( h ) ≥ 2 ) = o ( h ) (在足够小的时间间隔 h h h 内发生2次或更多次事件的概率可忽略) 其中 o ( h ) o(h) o ( h ) 表示当 h → 0 h \to 0 h → 0 时,o ( h ) h → 0 \frac{o(h)}{h} \to 0 h o ( h ) → 0 的高阶无穷小。等价定义 (基于计数的分布) : N ( t ) N(t) N ( t ) 是泊松过程,如果它满足上述1、2、3,并且对于任意 t > 0 t > 0 t > 0 , P ( N ( t ) = k ) = e − λ t ( λ t ) k k ! , k = 0 , 1 , 2 , … P(N(t)=k) = \frac{e^{-\lambda t}(\lambda t)^k}{k!}, \quad k=0, 1, 2, \dots P ( N ( t ) = k ) = k ! e − λ t ( λ t ) k , k = 0 , 1 , 2 , … 即,N ( t ) N(t) N ( t ) 服从均值为 λ t \lambda t λ t 的泊松分布: N ( t ) ∼ Poisson ( λ t ) N(t) \sim \text{Poisson}(\lambda t) N ( t ) ∼ Poisson ( λ t ) 。
性质 :
E [ N ( t ) ] = λ t E[N(t)] = \lambda t E [ N ( t )] = λ t V a r ( N ( t ) ] = λ t Var(N(t)] = \lambda t Va r ( N ( t )] = λ t 叠加性 : 若 N 1 ( t ) N_1(t) N 1 ( t ) 和 N 2 ( t ) N_2(t) N 2 ( t ) 是独立的泊松过程,速率分别为 λ 1 , λ 2 \lambda_1, \lambda_2 λ 1 , λ 2 ,则 N ( t ) = N 1 ( t ) + N 2 ( t ) N(t) = N_1(t) + N_2(t) N ( t ) = N 1 ( t ) + N 2 ( t ) 也是一个泊松过程,速率为 λ 1 + λ 2 \lambda_1 + \lambda_2 λ 1 + λ 2 。筛选性/稀疏性 : 若 N ( t ) N(t) N ( t ) 是速率为 λ \lambda λ 的泊松过程,每次事件以概率 p p p 被记录(独立于其他事件),则被记录的事件构成的过程 N p ( t ) N_p(t) N p ( t ) 也是泊松过程,速率为 λ p \lambda p λ p 。泊松过程的到达时间与间隔时间 设 T n T_n T n 是第 n n n 个事件发生的时刻 (称为第 n n n 个到达时间)。T 0 = 0 T_0=0 T 0 = 0 。 设 W n = T n − T n − 1 W_n = T_n - T_{n-1} W n = T n − T n − 1 是第 n − 1 n-1 n − 1 个事件和第 n n n 个事件之间的间隔时间 (Inter-arrival Time)。W 1 = T 1 W_1 = T_1 W 1 = T 1 。
间隔时间 W n W_n W n 的分布 : W 1 , W 2 , … , W n , … W_1, W_2, \dots, W_n, \dots W 1 , W 2 , … , W n , … 是一系列独立同分布 (i.i.d.) 的随机变量,它们都服从参数为 λ \lambda λ 的指数分布 (Exponential Distribution) 。 P ( W n ≤ x ) = 1 − e − λ x , x ≥ 0 P(W_n \le x) = 1 - e^{-\lambda x}, \quad x \ge 0 P ( W n ≤ x ) = 1 − e − λ x , x ≥ 0 f W n ( x ) = λ e − λ x , x ≥ 0 f_{W_n}(x) = \lambda e^{-\lambda x}, \quad x \ge 0 f W n ( x ) = λ e − λ x , x ≥ 0 E [ W n ] = 1 / λ E[W_n] = 1/\lambda E [ W n ] = 1/ λ 。
到达时间 T n T_n T n 的分布 : T n = W 1 + W 2 + ⋯ + W n T_n = W_1 + W_2 + \dots + W_n T n = W 1 + W 2 + ⋯ + W n 。 T n T_n T n 服从参数为 n n n 和 λ \lambda λ 的 Gamma 分布 (Erlang 分布) 。 其 PDF 为: f T n ( t ) = λ ( λ t ) n − 1 ( n − 1 ) ! e − λ t , t ≥ 0 f_{T_n}(t) = \frac{\lambda (\lambda t)^{n-1}}{(n-1)!} e^{-\lambda t}, \quad t \ge 0 f T n ( t ) = ( n − 1 )! λ ( λ t ) n − 1 e − λ t , t ≥ 0 E [ T n ] = n / λ E[T_n] = n/\lambda E [ T n ] = n / λ 。
关系 : { N ( t ) ≥ n } ⟺ { T n ≤ t } \{N(t) \ge n\} \iff \{T_n \le t\} { N ( t ) ≥ n } ⟺ { T n ≤ t } 。 这是两种描述泊松过程等价方式的核心:计数方式 (N ( t ) N(t) N ( t ) ) 和到达时间方式 (T n T_n T n )。
泊松过程的应用 排队论 :顾客到达服务系统的模型。可靠性工程 :设备故障发生的模型。通信工程 :数据包到达网络节点,光子到达检测器。物理学 :放射性粒子衰变。交通流 :车辆通过某点的模型。生物学 :神经元发放脉冲。第13讲:布朗运动 布朗运动的定义与性质 布朗运动 (Brownian Motion) ,也称维纳过程 (Wiener Process) ,记为 W ( t ) W(t) W ( t ) 或 B ( t ) B(t) B ( t ) 。 它是一个连续时间、连续状态的随机过程,最初用于描述悬浮在液体中微小颗粒的不规则运动。
标准布朗运动的定义 : 一个随机过程 { W ( t ) , t ≥ 0 } \{W(t), t \ge 0\} { W ( t ) , t ≥ 0 } 是标准布朗运动,如果满足:
初始条件 : W ( 0 ) = 0 W(0) = 0 W ( 0 ) = 0 (概率为1)。独立增量 (Independent Increments) : 对于任意 0 ≤ t 1 < t 2 < ⋯ < t k 0 \le t_1 < t_2 < \dots < t_k 0 ≤ t 1 < t 2 < ⋯ < t k ,随机变量 W ( t 2 ) − W ( t 1 ) , W ( t 3 ) − W ( t 2 ) , … , W ( t k ) − W ( t k − 1 ) W(t_2)-W(t_1), W(t_3)-W(t_2), \dots, W(t_k)-W(t_{k-1}) W ( t 2 ) − W ( t 1 ) , W ( t 3 ) − W ( t 2 ) , … , W ( t k ) − W ( t k − 1 ) 是相互独立的。平稳正态增量 (Stationary Normal Increments) : 对于任意 s < t s < t s < t ,增量 W ( t ) − W ( s ) W(t)-W(s) W ( t ) − W ( s ) 服从均值为 0 0 0 ,方差为 t − s t-s t − s 的正态分布。 W ( t ) − W ( s ) ∼ N ( 0 , t − s ) W(t) - W(s) \sim N(0, t-s) W ( t ) − W ( s ) ∼ N ( 0 , t − s ) 特别地,W ( t ) = W ( t ) − W ( 0 ) ∼ N ( 0 , t ) W(t) = W(t)-W(0) \sim N(0,t) W ( t ) = W ( t ) − W ( 0 ) ∼ N ( 0 , t ) 。连续样本路径 (Continuous Sample Paths) : W ( t ) W(t) W ( t ) 作为 t t t 的函数几乎必然是连续的。即 P ( path W ( ⋅ ) is continuous ) = 1 P(\text{path } W(\cdot) \text{ is continuous}) = 1 P ( path W ( ⋅ ) is continuous ) = 1 。一般布朗运动 (带漂移和尺度参数) : X ( t ) = μ t + σ W ( t ) X(t) = \mu t + \sigma W(t) X ( t ) = μ t + σW ( t ) 其中 W ( t ) W(t) W ( t ) 是标准布朗运动,μ \mu μ 是漂移系数 (drift coefficient),σ > 0 \sigma > 0 σ > 0 是波动率或扩散系数 (volatility/diffusion coefficient)。
X ( 0 ) = 0 X(0)=0 X ( 0 ) = 0 X ( t ) − X ( s ) ∼ N ( μ ( t − s ) , σ 2 ( t − s ) ) X(t)-X(s) \sim N(\mu(t-s), \sigma^2(t-s)) X ( t ) − X ( s ) ∼ N ( μ ( t − s ) , σ 2 ( t − s )) 性质 (对于标准布朗运动 W ( t ) W(t) W ( t ) ):
E [ W ( t ) ] = 0 E[W(t)] = 0 E [ W ( t )] = 0 V a r ( W ( t ) ] = t Var(W(t)] = t Va r ( W ( t )] = t 协方差函数 : C o v ( W ( s ) , W ( t ) ) = E [ W ( s ) W ( t ) ] Cov(W(s), W(t)) = E[W(s)W(t)] C o v ( W ( s ) , W ( t )) = E [ W ( s ) W ( t )] (因为均值为0)。 假设 s ≤ t s \le t s ≤ t : E [ W ( s ) W ( t ) ] = E [ W ( s ) ( W ( t ) − W ( s ) + W ( s ) ) ] = E [ W ( s ) ( W ( t ) − W ( s ) ) ] + E [ W 2 ( s ) ] E[W(s)W(t)] = E[W(s)(W(t)-W(s)+W(s))] = E[W(s)(W(t)-W(s))] + E[W^2(s)] E [ W ( s ) W ( t )] = E [ W ( s ) ( W ( t ) − W ( s ) + W ( s ))] = E [ W ( s ) ( W ( t ) − W ( s ))] + E [ W 2 ( s )] 由于独立增量,E [ W ( s ) ( W ( t ) − W ( s ) ) ] = E [ W ( s ) ] E [ W ( t ) − W ( s ) ] = 0 ⋅ 0 = 0 E[W(s)(W(t)-W(s))] = E[W(s)]E[W(t)-W(s)] = 0 \cdot 0 = 0 E [ W ( s ) ( W ( t ) − W ( s ))] = E [ W ( s )] E [ W ( t ) − W ( s )] = 0 ⋅ 0 = 0 。 所以,C o v ( W ( s ) , W ( t ) ) = E [ W 2 ( s ) ] = V a r ( W ( s ) ) = s Cov(W(s), W(t)) = E[W^2(s)] = Var(W(s)) = s C o v ( W ( s ) , W ( t )) = E [ W 2 ( s )] = Va r ( W ( s )) = s 。 因此,对于任意 s , t ≥ 0 s,t \ge 0 s , t ≥ 0 : C o v ( W ( s ) , W ( t ) ) = R W ( s , t ) = min ( s , t ) Cov(W(s), W(t)) = R_W(s,t) = \min(s,t) C o v ( W ( s ) , W ( t )) = R W ( s , t ) = min ( s , t ) 非平稳性 : 均值为常数0,但方差 V a r ( W ( t ) ) = t Var(W(t))=t Va r ( W ( t )) = t 随时间变化,协方差 R W ( s , t ) = min ( s , t ) R_W(s,t)=\min(s,t) R W ( s , t ) = min ( s , t ) 不仅依赖于 t − s t-s t − s 。所以布朗运动不是(广义)平稳过程。马尔可夫性 : P ( W ( t n ) ≤ x ∣ W ( t 1 ) , … , W ( t n − 1 ) ) = P ( W ( t n ) ≤ x ∣ W ( t n − 1 ) ) P(W(t_n) \le x | W(t_1), \dots, W(t_{n-1})) = P(W(t_n) \le x | W(t_{n-1})) P ( W ( t n ) ≤ x ∣ W ( t 1 ) , … , W ( t n − 1 )) = P ( W ( t n ) ≤ x ∣ W ( t n − 1 )) (未来只依赖于现在,不依赖于过去)。鞅性 (Martingale Property) : E [ W ( t ) ∣ F s ] = W ( s ) E[W(t) | \mathcal{F}_s] = W(s) E [ W ( t ) ∣ F s ] = W ( s ) for s < t s < t s < t , 其中 F s \mathcal{F}_s F s 是到时刻 s s s 的信息。路径的非可微性 : 布朗运动的样本路径几乎处处不可微。二次变差 (Quadratic Variation) : lim max ( t i − t i − 1 ) → 0 ∑ [ W ( t i ) − W ( t i − 1 ) ] 2 = t \lim_{\max(t_i - t_{i-1}) \to 0} \sum [W(t_i) - W(t_{i-1})]^2 = t lim m a x ( t i − t i − 1 ) → 0 ∑ [ W ( t i ) − W ( t i − 1 ) ] 2 = t (概率为1)。布朗运动的数学模型 作为随机游走的极限 : 考虑一个简单的对称随机游走 S n = ∑ i = 1 n X i S_n = \sum_{i=1}^n X_i S n = ∑ i = 1 n X i ,其中 X i X_i X i i.i.d.,P ( X i = 1 ) = P ( X i = − 1 ) = 1 / 2 P(X_i=1)=P(X_i=-1)=1/2 P ( X i = 1 ) = P ( X i = − 1 ) = 1/2 。 E [ X i ] = 0 , V a r ( X i ) = 1 E[X_i]=0, Var(X_i)=1 E [ X i ] = 0 , Va r ( X i ) = 1 。 构造连续时间过程 W n ( t ) = 1 n S ⌊ n t ⌋ W_n(t) = \frac{1}{\sqrt{n}} S_{\lfloor nt \rfloor} W n ( t ) = n 1 S ⌊ n t ⌋ (Donsker’s Theorem)。 当 n → ∞ n \to \infty n → ∞ 时,W n ( t ) W_n(t) W n ( t ) 在分布意义上收敛于标准布朗运动 W ( t ) W(t) W ( t ) 。 这提供了从离散模型到连续模型的桥梁。布朗运动的应用 金融学 (Black-Scholes 模型) :股票价格的对数被模型化为几何布朗运动 S ( t ) = S 0 e ( μ − σ 2 / 2 ) t + σ W ( t ) S(t) = S_0 e^{(\mu - \sigma^2/2)t + \sigma W(t)} S ( t ) = S 0 e ( μ − σ 2 /2 ) t + σW ( t ) 。用于期权定价。物理学 :描述微粒的扩散现象、热噪声。生物学 :种群动态、分子运动。排队论 :作为重载情况下队列长度的近似。信号处理 :某些类型的噪声模型。第14讲:平稳过程 平稳过程的定义与性质 平稳性是随机过程的一个重要特性,意味着过程的统计特性不随时间的推移而改变。
严平稳过程 (Strict-Sense Stationary, SSS Process) : 一个随机过程 { X ( t ) , t ∈ T } \{X(t), t \in T\} { X ( t ) , t ∈ T } 是严平稳的,如果对于任意 k ≥ 1 k \ge 1 k ≥ 1 ,任意时间点 t 1 , … , t k ∈ T t_1, \dots, t_k \in T t 1 , … , t k ∈ T ,以及任意时间平移 τ \tau τ (使得 t i + τ ∈ T t_i+\tau \in T t i + τ ∈ T ),随机向量 ( X ( t 1 ) , … , X ( t k ) ) (X(t_1), \dots, X(t_k)) ( X ( t 1 ) , … , X ( t k )) 与 ( X ( t 1 + τ ) , … , X ( t k + τ ) ) (X(t_1+\tau), \dots, X(t_k+\tau)) ( X ( t 1 + τ ) , … , X ( t k + τ )) 具有相同的联合分布函数 。 F X ( t 1 ) , … , X ( t k ) ( x 1 , … , x k ) = F X ( t 1 + τ ) , … , X ( t k + τ ) ( x 1 , … , x k ) F_{X(t_1), \dots, X(t_k)}(x_1, \dots, x_k) = F_{X(t_1+\tau), \dots, X(t_k+\tau)}(x_1, \dots, x_k) F X ( t 1 ) , … , X ( t k ) ( x 1 , … , x k ) = F X ( t 1 + τ ) , … , X ( t k + τ ) ( x 1 , … , x k ) 这意味着过程所有的统计特性(各阶矩、联合分布等)都不随时间平移而改变。
推论 :一维分布不变: F X ( t ) ( x ) = F X ( t + τ ) ( x ) F_{X(t)}(x) = F_{X(t+\tau)}(x) F X ( t ) ( x ) = F X ( t + τ ) ( x ) 。因此 E [ X ( t ) ] E[X(t)] E [ X ( t )] 和 V a r ( X ( t ) ) Var(X(t)) Va r ( X ( t )) 是常数。 二维分布不变: F X ( t 1 ) , X ( t 2 ) ( x 1 , x 2 ) = F X ( t 1 + τ ) , X ( t 2 + τ ) ( x 1 , x 2 ) F_{X(t_1),X(t_2)}(x_1,x_2) = F_{X(t_1+\tau),X(t_2+\tau)}(x_1,x_2) F X ( t 1 ) , X ( t 2 ) ( x 1 , x 2 ) = F X ( t 1 + τ ) , X ( t 2 + τ ) ( x 1 , x 2 ) 。 令 t 1 + τ = s t_1+\tau = s t 1 + τ = s , t 2 + τ = s + Δ t t_2+\tau = s+\Delta t t 2 + τ = s + Δ t (即 τ = s − t 1 \tau = s-t_1 τ = s − t 1 , Δ t = t 2 − t 1 \Delta t = t_2-t_1 Δ t = t 2 − t 1 ),则 R X ( t 1 , t 2 ) R_X(t_1,t_2) R X ( t 1 , t 2 ) 只依赖于时间差 Δ t = t 2 − t 1 \Delta t = t_2-t_1 Δ t = t 2 − t 1 。 广义平稳过程 (Wide-Sense Stationary, WSS Process) 或 弱平稳过程 : 一个随机过程 { X ( t ) , t ∈ T } \{X(t), t \in T\} { X ( t ) , t ∈ T } 是广义平稳的,如果满足:
均值函数为常数 : E [ X ( t ) ] = μ X ( 常数,不依赖于 t ) E[X(t)] = \mu_X \quad (\text{常数,不依赖于 } t) E [ X ( t )] = μ X ( 常数 , 不依赖于 t ) 自相关函数仅依赖于时间差 : R X ( t 1 , t 2 ) = E [ X ( t 1 ) X ( t 2 ) ] = R X ( t 2 − t 1 ) = R X ( τ ) R_X(t_1, t_2) = E[X(t_1)X(t_2)] = R_X(t_2-t_1) = R_X(\tau) R X ( t 1 , t 2 ) = E [ X ( t 1 ) X ( t 2 )] = R X ( t 2 − t 1 ) = R X ( τ ) 其中 τ = t 2 − t 1 \tau = t_2-t_1 τ = t 2 − t 1 是时间滞后 (time lag)。 (注意:有些定义是 R X ( t 1 , t 2 ) = R X ( t 1 − t 2 ) R_X(t_1, t_2) = R_X(t_1-t_2) R X ( t 1 , t 2 ) = R X ( t 1 − t 2 ) ,两者等价因为 R X ( τ ) = R X ( − τ ) R_X(\tau)=R_X(-\tau) R X ( τ ) = R X ( − τ ) for real processes)推论 :E [ X 2 ( t ) ] = R X ( t , t ) = R X ( 0 ) E[X^2(t)] = R_X(t,t) = R_X(0) E [ X 2 ( t )] = R X ( t , t ) = R X ( 0 ) (平均功率为常数)。V a r ( X ( t ) ) = E [ X 2 ( t ) ] − ( E [ X ( t ) ] ) 2 = R X ( 0 ) − μ X 2 Var(X(t)) = E[X^2(t)] - (E[X(t)])^2 = R_X(0) - \mu_X^2 Va r ( X ( t )) = E [ X 2 ( t )] − ( E [ X ( t )] ) 2 = R X ( 0 ) − μ X 2 (方差为常数)。自协方差函数 C X ( t 1 , t 2 ) = R X ( t 1 , t 2 ) − μ X 2 = R X ( t 2 − t 1 ) − μ X 2 = C X ( t 2 − t 1 ) = C X ( τ ) C_X(t_1, t_2) = R_X(t_1,t_2) - \mu_X^2 = R_X(t_2-t_1) - \mu_X^2 = C_X(t_2-t_1) = C_X(\tau) C X ( t 1 , t 2 ) = R X ( t 1 , t 2 ) − μ X 2 = R X ( t 2 − t 1 ) − μ X 2 = C X ( t 2 − t 1 ) = C X ( τ ) 。 广义平稳过程与严平稳过程的区别 平稳过程的自相关函数与功率谱密度 对于 WSS 过程 X ( t ) X(t) X ( t ) :
自相关函数 R X ( τ ) R_X(\tau) R X ( τ ) : R X ( τ ) = E [ X ( t ) X ( t + τ ) ] R_X(\tau) = E[X(t)X(t+\tau)] R X ( τ ) = E [ X ( t ) X ( t + τ )] 性质:
偶对称性 : R X ( τ ) = R X ( − τ ) R_X(\tau) = R_X(-\tau) R X ( τ ) = R X ( − τ ) (对于实过程)。最大值在原点 : ∣ R X ( τ ) ∣ ≤ R X ( 0 ) |R_X(\tau)| \le R_X(0) ∣ R X ( τ ) ∣ ≤ R X ( 0 ) 。 R X ( 0 ) = E [ X 2 ( t ) ] R_X(0) = E[X^2(t)] R X ( 0 ) = E [ X 2 ( t )] 是过程的平均功率。非负定性 : 对于任意函数 g ( t ) g(t) g ( t ) ,∬ g ( t 1 ) g ∗ ( t 2 ) R X ( t 1 − t 2 ) d t 1 d t 2 ≥ 0 \iint g(t_1)g^*(t_2)R_X(t_1-t_2) dt_1 dt_2 \ge 0 ∬ g ( t 1 ) g ∗ ( t 2 ) R X ( t 1 − t 2 ) d t 1 d t 2 ≥ 0 。若 X ( t ) X(t) X ( t ) 包含周期成分,则 R X ( τ ) R_X(\tau) R X ( τ ) 也包含相应的周期成分。 若 lim τ → ∞ R X ( τ ) = μ X 2 \lim_{\tau \to \infty} R_X(\tau) = \mu_X^2 lim τ → ∞ R X ( τ ) = μ X 2 (对于遍历过程),则表示相隔很长时间的样本不相关 (如果均值为0,则趋于0)。 功率谱密度 (Power Spectral Density, PSD) S X ( f ) S_X(f) S X ( f ) (或 S X ( ω ) S_X(\omega) S X ( ω ) 其中 ω = 2 π f \omega = 2\pi f ω = 2 π f ): 描述了 WSS 随机过程的功率在频域上的分布。 根据 维纳-辛钦定理 (Wiener-Khinchin Theorem) ,WSS 过程的 PSD 是其自相关函数的傅里叶变换: S X ( f ) = F { R X ( τ ) } = ∫ − ∞ ∞ R X ( τ ) e − j 2 π f τ d τ S_X(f) = \mathcal{F}\{R_X(\tau)\} = \int_{-\infty}^{\infty} R_X(\tau) e^{-j2\pi f \tau} d\tau S X ( f ) = F { R X ( τ )} = ∫ − ∞ ∞ R X ( τ ) e − j 2 π f τ d τ 反之,自相关函数是 PSD 的傅里叶逆变换: R X ( τ ) = F − 1 { S X ( f ) } = ∫ − ∞ ∞ S X ( f ) e j 2 π f τ d f R_X(\tau) = \mathcal{F}^{-1}\{S_X(f)\} = \int_{-\infty}^{\infty} S_X(f) e^{j2\pi f \tau} df R X ( τ ) = F − 1 { S X ( f )} = ∫ − ∞ ∞ S X ( f ) e j 2 π f τ df 性质:
实偶函数 : S X ( f ) S_X(f) S X ( f ) 是实函数且 S X ( f ) = S X ( − f ) S_X(f) = S_X(-f) S X ( f ) = S X ( − f ) (因为 R X ( τ ) R_X(\tau) R X ( τ ) 是实偶函数)。非负性 : S X ( f ) ≥ 0 S_X(f) \ge 0 S X ( f ) ≥ 0 对所有 f f f 成立。总平均功率 : R X ( 0 ) = E [ X 2 ( t ) ] = ∫ − ∞ ∞ S X ( f ) d f R_X(0) = E[X^2(t)] = \int_{-\infty}^{\infty} S_X(f) df R X ( 0 ) = E [ X 2 ( t )] = ∫ − ∞ ∞ S X ( f ) df 这表示过程的总平均功率等于 PSD 在整个频率轴上的积分。线性时不变 (LTI) 系统响应 : 若 WSS 过程 X ( t ) X(t) X ( t ) 输入一个 LTI 系统,其频率响应为 H ( f ) H(f) H ( f ) ,则输出过程 Y ( t ) Y(t) Y ( t ) 也是 WSS,且其 PSD 为: S Y ( f ) = ∣ H ( f ) ∣ 2 S X ( f ) S_Y(f) = |H(f)|^2 S_X(f) S Y ( f ) = ∣ H ( f ) ∣ 2 S X ( f ) 第五部分:概率论的应用 第15讲:概率论在信息论中的应用 信息论由克劳德·香农 (Claude Shannon) 在1948年奠基,主要研究信息的量化、存储和通信。概率论是其核心数学工具。
信息熵的定义与计算 自信息 (Self-Information) : 一个事件 A A A 发生所提供的信息量,定义为其概率 P ( A ) P(A) P ( A ) 的函数。概率越小,信息量越大。 I ( A ) = − log b P ( A ) I(A) = -\log_b P(A) I ( A ) = − log b P ( A ) 单位取决于对数的底 b b b :
b = 2 b=2 b = 2 : 比特 (bits)b = e b=e b = e : 奈特 (nats)b = 10 b=10 b = 10 : 哈特利 (Hartleys) / 迪特 (dits) 通常使用 b = 2 b=2 b = 2 。离散随机变量的熵 (Entropy) H ( X ) H(X) H ( X ) : 衡量一个离散随机变量 X X X 不确定性的平均度量,即 X X X 的平均信息量。 设 X X X 的 PMF 为 p ( x i ) = P ( X = x i ) p(x_i) = P(X=x_i) p ( x i ) = P ( X = x i ) ,i = 1 , … , N i=1, \dots, N i = 1 , … , N 。 H ( X ) = E [ I ( X ) ] = E [ − log 2 p ( X ) ] = − ∑ i = 1 N p ( x i ) log 2 p ( x i ) H(X) = E[I(X)] = E[-\log_2 p(X)] = -\sum_{i=1}^N p(x_i) \log_2 p(x_i) H ( X ) = E [ I ( X )] = E [ − log 2 p ( X )] = − ∑ i = 1 N p ( x i ) log 2 p ( x i ) (约定 0 log 2 0 = 0 0 \log_2 0 = 0 0 log 2 0 = 0 ) 性质:
H ( X ) ≥ 0 H(X) \ge 0 H ( X ) ≥ 0 。当 X X X 等概率分布时(p ( x i ) = 1 / N p(x_i)=1/N p ( x i ) = 1/ N ),熵最大,H ( X ) = log 2 N H(X) = \log_2 N H ( X ) = log 2 N 。 当 X X X 是确定性变量(某个 p ( x k ) = 1 p(x_k)=1 p ( x k ) = 1 ,其他为0)时,熵最小,H ( X ) = 0 H(X)=0 H ( X ) = 0 。 联合熵 (Joint Entropy) H ( X , Y ) H(X,Y) H ( X , Y ) : 衡量一对随机变量 ( X , Y ) (X,Y) ( X , Y ) 的不确定性。 H ( X , Y ) = − ∑ i ∑ j p ( x i , y j ) log 2 p ( x i , y j ) H(X,Y) = -\sum_i \sum_j p(x_i, y_j) \log_2 p(x_i, y_j) H ( X , Y ) = − ∑ i ∑ j p ( x i , y j ) log 2 p ( x i , y j )
条件熵 (Conditional Entropy) H ( Y ∣ X ) H(Y|X) H ( Y ∣ X ) : 在已知 X X X 的条件下,Y Y Y 的剩余不确定性(平均条件信息量)。 H ( Y ∣ X ) = ∑ i p ( x i ) H ( Y ∣ X = x i ) = − ∑ i ∑ j p ( x i , y j ) log 2 p ( y j ∣ x i ) H(Y|X) = \sum_i p(x_i) H(Y|X=x_i) = -\sum_i \sum_j p(x_i, y_j) \log_2 p(y_j|x_i) H ( Y ∣ X ) = ∑ i p ( x i ) H ( Y ∣ X = x i ) = − ∑ i ∑ j p ( x i , y j ) log 2 p ( y j ∣ x i ) 性质:
H ( X , Y ) = H ( X ) + H ( Y ∣ X ) = H ( Y ) + H ( X ∣ Y ) H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y) H ( X , Y ) = H ( X ) + H ( Y ∣ X ) = H ( Y ) + H ( X ∣ Y ) (链式法则)H ( Y ∣ X ) ≤ H ( Y ) H(Y|X) \le H(Y) H ( Y ∣ X ) ≤ H ( Y ) (知道 X X X 不会增加 Y Y Y 的不确定性)互信息 (Mutual Information) I ( X ; Y ) I(X;Y) I ( X ; Y ) : 衡量一个随机变量包含的关于另一个随机变量的信息量,或者说,由于知道一个变量而导致另一个变量不确定性的减少量。 I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) = H(X) + H(Y) - H(X,Y) I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = H ( Y ) − H ( Y ∣ X ) = H ( X ) + H ( Y ) − H ( X , Y ) I ( X ; Y ) = ∑ i ∑ j p ( x i , y j ) log 2 p ( x i , y j ) p ( x i ) p ( y j ) I(X;Y) = \sum_i \sum_j p(x_i, y_j) \log_2 \frac{p(x_i, y_j)}{p(x_i)p(y_j)} I ( X ; Y ) = ∑ i ∑ j p ( x i , y j ) log 2 p ( x i ) p ( y j ) p ( x i , y j ) 性质:
I ( X ; Y ) ≥ 0 I(X;Y) \ge 0 I ( X ; Y ) ≥ 0 I ( X ; Y ) = I ( Y ; X ) I(X;Y) = I(Y;X) I ( X ; Y ) = I ( Y ; X ) (对称性)I ( X ; X ) = H ( X ) I(X;X) = H(X) I ( X ; X ) = H ( X ) X , Y X,Y X , Y 独立 ⟺ I ( X ; Y ) = 0 \iff I(X;Y)=0 ⟺ I ( X ; Y ) = 0 连续随机变量的微分熵 (Differential Entropy) h ( X ) h(X) h ( X ) : 对于 PDF 为 f ( x ) f(x) f ( x ) 的连续随机变量 X X X : h ( X ) = − ∫ − ∞ ∞ f ( x ) log 2 f ( x ) d x h(X) = -\int_{-\infty}^{\infty} f(x) \log_2 f(x) dx h ( X ) = − ∫ − ∞ ∞ f ( x ) log 2 f ( x ) d x 注意:微分熵可以为负,且不像离散熵那样具有绝对的度量意义,更多用于比较。
信道容量的定义与计算 离散无记忆信道 (Discrete Memoryless Channel, DMC) : 由输入字母表 X \mathcal{X} X ,输出字母表 Y \mathcal{Y} Y ,以及一组条件概率 p ( y ∣ x ) p(y|x) p ( y ∣ x ) (从输入 x ∈ X x \in \mathcal{X} x ∈ X 得到输出 y ∈ Y y \in \mathcal{Y} y ∈ Y 的转移概率) 描述。
信道容量 (Channel Capacity) C C C : 信道能够可靠传输信息的最大速率 (单位:比特/信道使用)。 对于 DMC,信道容量定义为在所有可能的输入分布 p ( x ) p(x) p ( x ) 下,输入 X X X 和输出 Y Y Y 之间互信息的最大值: C = max p ( x ) I ( X ; Y ) C = \max_{p(x)} I(X;Y) C = max p ( x ) I ( X ; Y )
香农-哈特利定理 (Shannon-Hartley Theorem) : 对于加性高斯白噪声 (AWGN) 信道,其容量为: C = B log 2 ( 1 + S N ) ( bits per second ) C = B \log_2 \left(1 + \frac{S}{N}\right) \quad (\text{bits per second}) C = B log 2 ( 1 + N S ) ( bits per second ) 其中:
B B B 是信道带宽 (Hz)。S S S 是接收信号的平均功率。N = N 0 B N = N_0 B N = N 0 B 是噪声功率,N 0 N_0 N 0 是噪声功率谱密度 (W/Hz)。S / N S/N S / N 是信噪比 (Signal-to-Noise Ratio, SNR)。 此公式表明,带宽和信噪比是限制通信速率的关键因素。概率论在数据压缩与加密中的应用 第16讲:概率论在通信系统中的应用 通信系统中的噪声模型 噪声是通信系统中信号传输质量的主要限制因素。
信号检测与估计的理论基础 接收端根据接收到的含噪信号 r ( t ) r(t) r ( t ) 对发送的信号 s ( t ) s(t) s ( t ) 或其参数进行判断或估计。
信号检测 (Signal Detection / Hypothesis Testing) : 判断发送的是哪个预定义的信号之一。 例如,二进制通信中,判断发送的是信号 s 0 ( t ) s_0(t) s 0 ( t ) (代表比特0) 还是 s 1 ( t ) s_1(t) s 1 ( t ) (代表比特1)。 这是一个假设检验 (Hypothesis Testing) 问题: H 0 H_0 H 0 : 发送的是 s 0 ( t ) s_0(t) s 0 ( t ) H 1 H_1 H 1 : 发送的是 s 1 ( t ) s_1(t) s 1 ( t ) 接收信号 r ( t ) = s i ( t ) + n ( t ) r(t) = s_i(t) + n(t) r ( t ) = s i ( t ) + n ( t ) , i ∈ { 0 , 1 } i \in \{0,1\} i ∈ { 0 , 1 } 。 常用判决准则:
最大后验概率 (Maximum A Posteriori, MAP) 准则 : 选择后验概率 P ( H i ∣ r ) P(H_i|r) P ( H i ∣ r ) 最大的假设。 如果 P ( r ∣ H 1 ) P ( H 1 ) > P ( r ∣ H 0 ) P ( H 0 ) P(r|H_1)P(H_1) > P(r|H_0)P(H_0) P ( r ∣ H 1 ) P ( H 1 ) > P ( r ∣ H 0 ) P ( H 0 ) ,则判为 H 1 H_1 H 1 ,否则判为 H 0 H_0 H 0 。 等价于比较似然比 Λ ( r ) = P ( r ∣ H 1 ) P ( r ∣ H 0 ) \Lambda(r) = \frac{P(r|H_1)}{P(r|H_0)} Λ ( r ) = P ( r ∣ H 0 ) P ( r ∣ H 1 ) 与阈值 P ( H 0 ) P ( H 1 ) \frac{P(H_0)}{P(H_1)} P ( H 1 ) P ( H 0 ) 。 最小化平均错误概率。最大似然 (Maximum Likelihood, ML) 准则 : MAP 准则在先验概率 P ( H 0 ) = P ( H 1 ) P(H_0)=P(H_1) P ( H 0 ) = P ( H 1 ) 时的特例。 选择使似然函数 P ( r ∣ H i ) P(r|H_i) P ( r ∣ H i ) 最大的假设。 等价于比较似然比 Λ ( r ) \Lambda(r) Λ ( r ) 与阈值 1 1 1 。奈曼-皮尔逊 (Neyman-Pearson) 准则 : 在虚警概率 P F A = P ( 判 H 1 ∣ H 0 为真 ) P_{FA} = P(\text{判}H_1|H_0 \text{为真}) P F A = P ( 判 H 1 ∣ H 0 为真 ) 不超过某个预设值 α \alpha α 的前提下,最大化检测概率 P D = P ( 判 H 1 ∣ H 1 为真 ) P_D = P(\text{判}H_1|H_1 \text{为真}) P D = P ( 判 H 1 ∣ H 1 为真 ) 。 也通过似然比检验实现,但阈值由 P F A ≤ α P_{FA} \le \alpha P F A ≤ α 确定。信号估计 (Signal Estimation / Parameter Estimation) : 估计信号中感兴趣的未知参数,如幅度、相位、频率、到达时间等。 设接收信号 r ( t ) = s ( t ; θ ) + n ( t ) r(t) = s(t; \theta) + n(t) r ( t ) = s ( t ; θ ) + n ( t ) ,其中 θ \theta θ 是待估计的参数。 常用估计方法:
最大似然估计 (MLE) :选择使观测数据 r r r 出现的似然 f ( r ∣ θ ) f(r|\theta) f ( r ∣ θ ) 最大的参数值 θ ^ M L \hat{\theta}_{ML} θ ^ M L 。最小均方误差 (MMSE) 估计 :选择使均方误差 E [ ( θ ^ − θ ) 2 ] E[(\hat{\theta}-\theta)^2] E [( θ ^ − θ ) 2 ] 最小的估计 θ ^ M M S E \hat{\theta}_{MMSE} θ ^ MMSE 。 θ ^ M M S E = E [ θ ∣ r ] \hat{\theta}_{MMSE} = E[\theta|r] θ ^ MMSE = E [ θ ∣ r ] (后验均值)。最大后验概率 (MAP) 估计 :选择使后验概率密度 f ( θ ∣ r ) f(\theta|r) f ( θ ∣ r ) 最大的参数值 θ ^ M A P \hat{\theta}_{MAP} θ ^ M A P 。 f ( θ ∣ r ) = f ( r ∣ θ ) f ( θ ) f ( r ) f(\theta|r) = \frac{f(r|\theta)f(\theta)}{f(r)} f ( θ ∣ r ) = f ( r ) f ( r ∣ θ ) f ( θ ) ,所以 θ ^ M A P = arg max θ [ f ( r ∣ θ ) f ( θ ) ] \hat{\theta}_{MAP} = \arg\max_\theta [f(r|\theta)f(\theta)] θ ^ M A P = arg max θ [ f ( r ∣ θ ) f ( θ )] 。概率论在无线通信中的应用 无线通信环境复杂,概率论是分析和设计无线系统的关键工具。
信道建模 (Channel Modeling) :
大尺度衰落 (Large-scale Fading) :由路径损耗和阴影效应引起,描述信号功率随距离和障碍物的平均变化。路径损耗模型 (如自由空间、Okumura-Hata),对数正态阴影模型。小尺度衰落 (Small-scale Fading) :由多径传播引起,导致信号幅度和相位的快速波动。瑞利衰落 (Rayleigh Fading) :当不存在直射路径 (LOS) 时,多条反射/散射路径叠加。信号包络服从瑞利分布,相位服从均匀分布。莱斯衰落 (Rician Fading) :当存在一条主要的直射路径时,信号包络服从莱斯分布。多普勒效应 (Doppler Effect) :由于移动台或散射体的运动,导致接收信号频率发生偏移和扩展,产生时间选择性衰落。时延扩展 (Delay Spread) :多径信号到达时间不同,导致符号间干扰 (ISI),产生频率选择性衰落。分集技术 (Diversity Techniques) : 用于对抗衰落影响,提高通信可靠性。通过提供多个独立的信号路径,使得所有路径同时处于深衰落的概率降低。
空间分集 (Space Diversity) :使用多个天线。如选择合并、最大比合并 (MRC)、等增益合并 (EGC)。时间分集 (Time Diversity) :在不同时间发送相同信息(如交织和信道编码)。频率分集 (Frequency Diversity) :在不同频率载波上传输信息(如OFDM)。 概率论用于分析不同分集方案下的中断概率、平均信噪比、误码率等性能。错误控制编码 (Error Control Coding) : 通过在数据中添加冗余比特,使得接收端可以检测和纠正传输中发生的错误。
如线性分组码、循环码、卷积码、Turbo码、LDPC码。 编码的性能分析(如误码率、误包率)依赖于信道模型(如BSC, AWGN)和概率计算。 多址接入技术 (Multiple Access Techniques) : 允许多个用户共享有限的无线资源。
FDMA, TDMA, CDMA, OFDMA, NOMA。 性能分析(如容量、吞吐量、延迟、干扰)涉及复杂的概率模型。例如,CDMA中的多用户干扰可以建模为高斯随机变量。 网络性能分析 : 如蜂窝网络中的切换 (Handover) 概率、呼叫阻塞概率、覆盖概率等,均使用概率模型和排队论等工具进行分析。
概率论笔记:从基础概念到随机变量与分布 周五 9月 12 2025 Course 14802 字 · 65 分钟