Please enable Javascript to view the contents

计算机应用数学总结

 ·  ☕ 79 分钟

1. 概率论的基本概念

1.1. 随机试验

1.1.1. 随机现象

  • 随机现象: 在一定的条件下,并不总出现相同结果的现象称为随机现象
  • 特点:
    1. 结果不止一个
    2. 事先明确所有可能的结果
    3. 事先不知道最终出现哪一个结果
  • 随机试验:对随机现象进行的实验与观察
  • 随机现象的统计规律性:随机现象的各种结果会表现出一定的规律性,这种规律性称之为统计规律性

1.2. 样本空间、随机事件

  1. 随机试验$E$
    • 具有三个特点:随机性、多样性、可确定性
  2. 样本点:随机试验的每一个可能结果
  3. 样本空间$\Omega$:随机试验的所有样本点构成的集合
  4. 两类样本空间:
    • 离散样本空间:样本点的个数为有限个或可列个
    • 连续样本空间:样本点的个数为无限不可列个

1.2.1. 随机事件

  1. 随机事件:某些样本点组成的集合,$\Omega$的子集,常用$A,B,C,\cdots$表示
  2. 基本事件:$\Omega$的单点集
  3. 必然事件:$\Omega$
  4. 不可能事件$\phi$:空集
  5. 随机变量:表示随机现象结果的变量,常用大写字母$X,Y,Z,\cdots$表示

1.2.2. 事件间的关系与运算

  • 事件是一个集合,其关系与运算可按照集合论中集合的关系和运算来处理

  • 事件的关系:

    • 包含关系:$A\subseteq B$,$A$的发生必然导致$B$发生
    • 相等关系:$A=B\Leftrightarrow A\subset B$且$B\subset A$
    • 互不相容:$A$和$B$不可能同时发生,或互斥的
    • 和事件:$A\cup B$,$A$和$B$至少有一个发生
    • 积事件:$A\cap B=AB$,$A$和$B$同时发生
    • 差事件:$A-B$,$A$发生但$B$不发生
    • 对立事件:$\overline{A}$,$A$不发生
  • 德摩根公式:
    $$
    \begin{aligned}
    \overline{A\cup B}&=\overline{A}\cap \overline{B}\\\\
    \overline{A\cap B}&=\overline{A}\cup \overline{B}\\\\
    \overline{\bigcup_{i=1}^nA_i}&=\bigcap_{i=1}^n\overline{A}_i\\\\
    \overline{\bigcap_{i=1}^nA_i}&=\bigcup_{i=1}^n\overline{A}_i
    \end{aligned}
    $$

  • 基本事件互不相容,基本事件之并为$\Omega$
    $$
    \begin{matrix}
    A\cap \overline A=\phi&A\cup\overline A=\Omega\\
    A\cap \phi=\phi&A\cup\phi=A\\
    A\cap \Omega=A&A\cup\Omega=\Omega\\
    \phi\subset AB\subset A&B\subset A\cup B\subset\Omega
    \end{matrix}
    $$

  • 其他常用的计算:
    $$
    \begin{aligned}
    &A\subset B\Rightarrow A\cup B=B,AB=A\\
    &A-B=A-AB\\
    &A\cup B=A\cup(B-A)=A\cup(B-AB)\\
    &A=AB\cup A\overline{B}
    \end{aligned}
    $$

  • 样本空间的分割

    若$A_1,A_2,\cdots,A_n$有

    1. $A_i$互不相容
    2. $A_1\cup A_2\cup \cdots\cup A_n=\Omega$

    则称$A_1,A_2,\cdots,A_n$为$\Omega$的一组分割

1.2.3. 事件域

设$\Omega$为样本空间,$\mathcal{F} $是由$\Omega$的子集组成的集合类,若$\mathcal{F} $满足以下三点,则称$\mathcal{F} $为事件域:

  1. $\Omega\in \mathcal{F} $
  2. 若$A\in \mathcal{F} $,则$\overline A\in \mathcal{F} $
  3. 若$A_n\in\mathcal{F}$,$n=1,2,\cdots$,则$\bigcup_{n=1}^{+\infty}A_n\in \mathcal F$

1.3. 频率与概率

1.3.1. 确定概率的频率方法

  • 随机试验可大量重复进行
  • 进行$n$次重复试验,记$n(A)$为事件$A$的频数,称$f_n(A)=\frac{n(A)}{n}$为事件$A$的频率
  • 频率$f_n(A)$会稳定于某一常数
  • 用频率的稳定值作为该事件的概率

1.3.2. 排列与组合公式

从$n$个元素中任取$r$个,求取法数。排列讲次序,组合不讲次序

  • 全排列:$P_n=n!$,特别地,$0!=1$
  • 重复排列:$n^r$
  • 选排列:$P_n^r=\frac{n!}{(n-r)!}=n(n-1)\cdots(n-r+1)$
  • 组合:$C_n^r=\begin{pmatrix}n\\r\end{pmatrix}=\frac{n!}{r!(n-r)!}=\frac{P_n^r}{r!}$

加法原则:完成某件事情有$n$类途径,在第一类途径中有$m_1$种方法,在第二类途径中有$m_2$种方法,依次类推,在第$ n $类途径中有$m_n$种方法,则完成这件事共有$m_1+m_2+\cdots+m_n$种不同的方法

乘法原则:完成某件事情需先后分成$ n $个步骤,做第一步有$m_1$种方法,第二步有$ m_2 $种方法,依次类推,第$ n $步有$m_n$种方法,则完成这件事共有$m_1\times m_2\times\cdots\times m_n$种不同的方法

1.3.3. 概率的定义

  • 设$E$是随机试验,对于$E$中的每一个事件,$A$赋予一个实数,记为$P(A)$,称为事件$A$的概率,其满足下列条件:

    • 非负性公理:$P(A)>0$

    • 正则性公理:$P(\Omega)=1$

    • 可列可加性公理:若$A_1,A_2,\cdots,A_n,\cdots$互不相容,则:
      $$
      P\left(\bigcup_{i=1}^\infty A_i\right)=\sum_{i=1}^\infty P(A_i)
      $$

1.3.4. 概率的性质

  • 不可能事件概率为0:$P(\phi)=0$,逆不一定成立

  • 有限可加性:若$AB=\phi$,则$P(A\cup B)=P(A)+P(B)$,可推广到$n$个互不相容事件的情况

  • 对立事件公式:
    $$
    P(\overline A)=1-P(A)
    $$

  • 概率的单调性

    若$A\subset B$,则$P(A-B)=P(A)-P(B)$

    若$A\subset B$,则$P(A)\geq P(B)$
    $$
    P(A-B)=P(A)-P(AB)
    $$

  • 概率的加法公式
    $$
    \begin{aligned}
    P(A\cup B)=&P(A)+P(B)-P(AB)\\\\
    P(A\cup B\cup C)=&P(A)+P(B)+P(C)\\\\
    &-P(AB)-P(AC)-P(BC)\\\\
    &+P(ABC)
    \end{aligned}
    $$

1.4. 等可能概型(古典概型)

若一个随机试验$(\Omega, \mathcal F,\mathcal P)$具有以下两个特征:

  1. 有限性:样本空间的元素(基本事件)只有有限个,即$\Omega={\omega_1,\omega_2,\cdots,\omega_n}$
  2. 等可能性:每个基本事件发生的可能性是相等的,即$P(\omega_1)=P(\omega_2)=\cdots=P(\omega_n)$

则称这类随机试验的数学模型为等可能概型,或古典概型。则事件A的概率为:
$$
P(A)=\frac{n}{N}
$$
其中,$n$为$A$中样本点的个数,$N$为样本点总数

常见模型——不放回模型(超几何模型)

口袋中有$N$个球,其中有$M$个白球,$N-M$个黑球。从中不放回任取$n$个,则此$n$个中有$m$个白球的概率为:
$$
P=\frac{C_M^mC_{N-M}^{n-m}}{C_N^n}
$$

常见模型——放回抽样

口袋中有$N$个球,其中有$M$个白球,$N-M$个黑球。从中不放回任取$n$个,则此$n$个中有$m$个白球的概率为:
$$
P=C_n^m\left(\frac{M}{N}\right)^m\left(\frac{N-M}{N}\right)^n
$$

常见模型——盒子模型

$n$个不同的球放入$N$个不同的盒子中,每个盒子中所放球数不限,求恰有$n$个盒子中各有一球的概率:
$$
P=\frac{C_N^nn!}{N^n}=\frac{N!}{N^n(N-n)!}
$$
常见模型——配对模型

有$n$个人,$n$顶帽子,任意取,求至少一个人拿对自己帽子的概率

记$A_i=$”第$i$个人拿对自己的帽子“,$i=1,\cdots,n$,求$P(A_1\cup A_2\cup \cdots\cup A_n)$,由加法公式,有:
$$
P\left(\bigcup_{i=1}^n A_i \right)=\sum_{i=1}^nP(A_i)-\sum P(A_iA_j)+\sum P(A_iA_jA_k)+\cdots+(-1)^{n-1}P(A_1A_2\cdots A_n)
$$
其中,
$$
\begin{aligned}
P(A_i)&=\frac{1}{n}\\
P(A_iA_j)&=\frac{1}{n(n-1)}\\
P(A_iA_jA_k)&=\frac{1}{n(n-1)(n-2)}\\
P(A_1A_2\cdots A_n)&=\frac{1}{n!}\\
P(A_1\cup A_2\cup\cdots\cup A_n)&=C_n^1\frac{1}{n}-C_n^2\frac{1}{n(n-1)}+\cdots+(-1)^{n-1}C_n^n\frac{1}{n!}\\
&=1-\frac{1}{2!}+\frac{1}{3!}-\frac{1}{4!}+\cdots+(-1)^{n-1}\frac{1}{n!}\rightarrow 1-e^{-1}
\end{aligned}
$$

1.5. 条件概率

1.5.1. 条件概率的定义

定义

对于事件$A$和$B$,若$P(B)>0$,则称
$$
P(A|B)=\frac{P(AB)}{P(B)}
$$
为在$B$出现的条件下,$A$出现的条件概率

条件概率$P(A|B)$满足概率的三条公理,即有:
$$
P(A\cup B|C)=P(A|C)+P(B|C)-P(AB|C)
$$
若$A$与$B$互不相容,则:
$$
\begin{aligned}
P(A\cup B|C)&=P(A|C)+P(B|C)\\
P(\overline A|B)&=1-P(A|B)
\end{aligned}
$$
注意:
$$
\begin{matrix}
P(\Omega|B)=1&P(B|\Omega)\neq 1\\
P(A|\Omega)=P(A)&P(A|A)=1
\end{matrix}
$$

1.5.2. 乘法公式

  • 若$P(B)>0$,则$P(AB)=P(B)P(A|B)$

    若$P(A)>0$,则$P(AB)=P(A)P(B|A)$

  • 若$P(A_1A_2\cdots A_{n-1})>0$,则
    $$
    P(A_1A_2\cdots A_{n-1})=P(A_1)P(A_2|A_1)\cdots P(A_n|A_1A_2\cdots A_{n-1})
    $$

1.5.3. 全概率公式

若事件$B_1,B_2,\cdots,B_n$是样本空间$\Omega$的一组分割,且$P(B_i)>0$,则
$$
P(A)=\sum_{i=1}^nP(AB_i)=\sum_{i=1}^nP(B_i)P(A|B_i)
$$

  • 全概率公式用于求复杂事件的概率

  • 使用全概率公式的关键在于寻找另一组事件来分割样本空间

  • 全概率公式最简单的形式:
    $$
    P(A)=P(B)P(A|B)+P(\overline B)P(A|\overline B)
    $$

摸彩模型

$n$张彩票有一张中奖,从中不放回地摸取,记$A_i$为“第i次摸到中奖券”,则
$$
P(A_1)=\frac{1}{n}
$$
由全概率公式:
$$
\begin{aligned}
P(A_2)&=P(A_1)P(A_2|A_1)+P(\overline{A}_1)P(A_2|\overline A_1)\\
&=\frac{1}{n}\cdot0+\frac{n-1}{n}\cdot\frac{1}{n-1}=\frac{1}{n}
\end{aligned}
$$
可用归纳法求得:
$$
P(A_i)=\frac{1}{n}
$$
同理,$n$张彩票中有$k$张中奖,从中不放回地摸取,记$A_i$为“第i次摸到中奖券”,则
$$
P(A_i)=\frac{k}{n}
$$
结论:不论先后,中彩机会是一样的

1.5.4. 贝叶斯公式

若事件$B_1,B_2,\cdots,B_n$是样本空间$\Omega$的一组分割,且$P(A)>0$,$P(B_i)>0$,则
$$
\begin{aligned}
P(B_i|A)&=\frac{P(AB_i)}{P(A)}=\frac{P(B_i)P(A|B_i)}{P(A)}\\\\
&=\frac{P(B_i)P(A|B_i)}{\sum_{j=1}^nP(B_j)P(A|B_j)}
\end{aligned}
$$

  • $B_1,B_2,\cdots,B_n$可以看作是导致$A$发生的原因
  • $P(B_j|A)$是在事件$A$发生下,某个原因$B_j$发生的概率,称为后验概率
  • $P(B_j)$称为先验概率

1.6. 独立性

1.6.1. 两个事件的独立性

定义

若事件$A$与$B$满足:
$$
P(AB)=P(A)P(B)
$$
则称$A$与$B$相互独立,简称$A$与$B$独立

结论

$A$、$B$为两个事件,若$P(A)>0$,则$A$与$B$独立等价于$P(B|A)=P(B)$

性质

若事件$A$与$B$独立,则$A$与$\overline B$独立,$\overline A$与$B$独立,$\overline A$与$\overline B$独立

1.6.2. 多个事件的相互独立性

  • 对于$A$、$B$、$C$三个事件,则称满足:
    $$
    \begin{aligned}
    P(AB)&=P(A)P(B)\\\\
    P(AC)&=P(A)P(C)\\\\
    P(BC)&=P(B)P(C)
    \end{aligned}
    $$
    为$A$、$B$、$C$两两独立

  • 对于$A$、$B$、$C$三个事件,则称满足:
    $$
    P(ABC)=P(A)P(B)P(C)
    $$
    为$A$、$B$、$C$三三独立

定义

若事件$A_1,A_2,\cdots,A_n$满足:两两独立、三三独立、……、$nn$独立,则称$A_1,A_2,\cdots,A_n$相互独立

结论

若$A$、$B$、$C$相互独立,则:$A\cup B$与$C$独立,$A\cap B$与$C$独立,$A-B$与$C$独立

2. 随机变量及其分布

2.1. 随机变量

2.1.1. 随机变量的定义

定义

设$\Omega={\omega}$为某随机现象的样本空间,则称定义在$\Omega$上的实数单值函数$X=X(\omega)$为随机变量

注意

  • 随机变量$X(\omega)$是样本点$\omega$的函数,其定义域为$\Omega$,其值域为$R=(-\infty,+\infty)$

  • 若$X$为随机变量,则${X=k}$、${a<X\leq b}$等均为随机事件,即${a<X\leq b={\omega:a<X(\omega)\leq b}}\subset \Omega$

  • 常用的一些表达:
    $$
    \begin{aligned}
    (X=k)=(X\leq k)-(X<k)\\\\
    (a<X\leq b)=(X\leq b)-(X\leq a)\\\\
    (X>b)=\Omega-(X\leq b)
    \end{aligned}
    $$

  • 同一样本空间可以定义不同的随机变量

两类随机变量

  • 若随机变量$X$可能取值的个数为有限个或可列个,则称$X$为离散随机变量
  • 若随机变量$X$的可能取值充满某个区间$[a,b]$,则称$X$为连续随机变量

2.2. 离散随机变量及其分布律

  • 设离散随机变量$X$的可能取值为:
    $$
    x_1,x_2,\cdots,x_n,\cdots
    $$
    称$p_i=P(X=x_i)$,$i=1,2,\cdots$为$X$的分布律

  • 分布律也可用表格形式表示:

$X$ $x_1$ $x_2$ $\cdots$ $x_n$ $\cdots$
$P$ $p_1$ $p_2$ $\cdots$ $p_n$ $\cdots$
  • 基本性质
    • 非负性:$p_i\geq 0$
    • 正则性:$\sum_ip_i=1$

2.2.1. 常用离散分布

二项分布

记为$X\sim b(n,p)$

$X$为$n$重伯努利里试验中成功的次数:
$$
P(X=k)=C_n^kp^k(1-p)^{n-k}, \quad k=0,1,\cdots,n
$$
当$n=1$时,称$b(1,p)$为0-1分布

泊松分布

若随机变量$X$的概率分布为:
$$
P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}\quad k=0,1,2,\cdots
$$
则称$X$服从参数为$\lambda$的泊松分布,记为$X\sim P(\lambda)$

  • 泊松定理(二项分布的泊松近似)

    在$n$重伯努利里试验中,记$p_n$为一次试验中成功的概率,若$np_n\rightarrow \lambda$,则
    $$
    C_n^kp_n^k(1-p)^{n-k}\rightarrow \frac{\lambda^k}{k!}e^{-\lambda}
    $$

超几何分布

超几何分布对应于不放回抽样模型:

  • $N$个产品中有$M$个不合格产品
  • 从中抽取$n$个,不合格品的个数为$X$

随机变量$X$的概率分布为:
$$
P(X=k)=\frac{C_M^kC_{N-M}^{n-k}}{C_N^n}
$$
记为$X\sim h(n,N,M)$

几何分布

随机变量$X$的概率分布为:
$$
P(X=k)=(1-p)^{k-1}p,\quad k=1,2,\cdots
$$
记为$X\sim Ge(p)$

  • $X$为独立重复的伯努利里试验中”首次成功“时的试验次数

  • 几何分布具有无记忆性,即:
    $$
    P(X>m+n|X>m)=P(X>n)
    $$

负二项分布(巴斯卡分布)

随机变量$X$的概率分布为:
$$
P(X=k)=C_{k-1}^{r-1}(1-p)^{k-r}p^r,\quad k=r,r+1,\cdots
$$
记为$X\sim Nb(r,p)$

  • $X$为独立重复的伯努利里试验中,试验持续进行,直到”第r次成功“时的试验次数

2.3. 随机变量的分布函数

定义

设$X$为一个随机变量,对任意实数$x$,称$F(x)=P(X\leq x)$为$X$的分布函数

基本性质

  1. $F(x)$单调不减
  2. 有界:$0\leq F(x)\leq 1$,$F(-\infty)=0$,$F(+\infty)=1$
  3. 右连续

注意

  • $F(x)$是递增的阶梯函数
  • 其间断点均为右连续的
  • 其间断点即为$X$的可能取值点
  • 其间断点的跳跃高度是对应的概率值

2.4. 连续型随机变量及其概率密度

定义

设随机变量$X$的分布函数为$F(x)$,若存在非负可积函数$f(x)$,满足:
$$
F(x)=\int_{-\infty}^x f(t)\mathrm dt
$$
则称$X$为连续随机变量,称$f(x)$为概率密度函数,简称概率密度

密度函数的基本性质

  1. 非负性:$f(x)\geq 0$

  2. 正则性:$\int_{-\infty}^\infty f(x)\mathrm dx=1$

  3. 积分性:
    $$
    \begin{aligned}
    P(a<X\leq b)
    &=P(a<X<b)\\\\
    &=P(a\leq X<b)\\\\
    &=P(a\leq X\leq b)\\\\
    &=F(b)-F(a)
    \end{aligned}
    $$

  4. 可导性

    当$F(x)$在$x$点可导时,$f(x)=F'(x)$

    当$F(x)$在$x$点不可导时,可令$f(x)=0$

注意点

  1. $F(a\leq X\leq b)=\int_a^b f(x)\mathrm dx$
  2. $F(x)$是$(-\infty,+\infty)$上的连续函数
  3. $P(X=x)=F(x)-F(x-0)=0$

2.4.1. 重要的连续随机变量

均匀分布

密度函数:
$$
f(x)=\begin{cases}
\dfrac{1}{b-a},&a<x<b\\\\
0,&\mathrm{otherwise}
\end{cases}
$$
分布函数:
$$
F(x)=\begin{cases}
0,&x<a\\\\
\dfrac{x-a}{b-a},&a\leq x<b\\\\
1,&b\leq x
\end{cases}
$$
记为$X\sim U(a,b)$

注意:$X$的取值在$(a,b)$内任意长的小区间的概率与小区间的位置无关,只与其长度成正比

指数分布

密度函数:
$$
f(x)=\begin{cases}
\dfrac{1}{\theta}e^{-x/\theta},&x>0\\\\
0,&x\leq 0
\end{cases}
$$
分布函数:
$$
F(x)=\begin{cases}
1-e^{-x/\theta},&x>0\\\\
0,&x\leq 0
\end{cases}
$$
记为$X\sim \exp(\theta)$,其中$\theta>0$

注意:指数分布具有无记忆性,即:
$$
P(X>s+t|X>s)=P(X>t)
$$
正态分布(高斯分布)
$$
f(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right),\quad -\infty<x<\infty
$$
记为$X\sim N(\mu, \sigma^2)$,其中$\sigma>0$,$\mu$是任意实数

  • $\mu$是位置参数
  • $\sigma$是尺度参数

标准正态分布$N(0,1)$,密度函数记为$\varphi(x)$,分布函数记为$\Phi(x)$:

  • $\Phi(0)=\dfrac{1}{2}$
  • $\Phi(-x)=1-\Phi(x)$

$\Phi(x)$的计算:

  1. $x\geq 0$时,查标准正态分布函数表

  2. $x<0$时,用$\Phi(x)=1-\Phi(-x)$计算

    若$X\sim N(0,1)$,则:

    • $P(X\leq a)=\Phi(a)$

    • $P(X>a)=1-\Phi(a)$

    • $P(a<X<b)=\Phi(b)-\Phi(a)$

    • 若$a\geq 0$,则
      $$
      \begin{aligned}
      P(|X|<a)&=P(-a<X<a)\\\\
      &=\Phi(a)-\Phi(-a)\\\\
      &=\Phi(a)-[1-\Phi(a)]\\\\
      &=2\Phi(a)-1
      \end{aligned}
      $$

一般正态分布的标准化:

设$X\sim N(\mu, \sigma^2)$,$Y=\frac{X-\mu}{\sigma}$,则$Y\sim N(0,1)$

推论:若$X\sim N(\mu, \sigma^2)$,则$F(x)=\Phi\left(\dfrac{x-\mu}{\sigma}\right)$

$3\sigma$原则:

设$X\sim N(\mu,\sigma^2)$,则
$$
\begin{aligned}
P(|X-\mu|<\sigma)&=0.6826\\\\
P(|X-\mu|<2\sigma)&=0.9544\\\\
P(|X-\mu|<3\sigma)&=0.9974
\end{aligned}
$$
正态变量的线性不变性:

设$X\sim N(\mu,\sigma^2)$,则当$a\neq 0$时,$Y=aX+b\sim N(a\mu+b,a^2\sigma^2)$

对数正态分布:

设$X\sim N(\mu,\sigma^2)$,则$Y=e^X$服从:
$$
f_Y(y)=\frac{1}{\sqrt{2\pi}y\sigma}\exp\left(-\frac{(\ln y-\mu)^2}{2\sigma^2}\right),\quad y>0
$$
伽马分布

密度函数:
$$
f(x)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},\quad x\geq 0
$$
记为$X\sim Ga(\alpha,\lambda)$,其中$\alpha>0$,$\lambda>0$

称$\Gamma(\alpha)=\int_0^{+\infty}x^{\alpha-1}e^{-x}\mathrm dx$为伽马函数

注意:

  1. $\Gamma(1)=1$,$\Gamma(1/2)=\sqrt{\pi}$,$\Gamma(\alpha)=(\alpha-1)!$
  2. $Ga(1,\lambda)=\exp(\lambda)$

可以直观地认为$\Gamma$分布是Possion分布在正实数集上的连续化版本

贝塔分布

密度函数:
$$
f(x)=\frac{1}{B(a,b)}x^{a-1}(1-x)^{b-1},\quad 0<x<1
$$
记为$X\sim Be(a,b)$,其中$a>0$,$b>0$

称$B(a,b)=\int_0^1 x^{a-1}(1-x)^{b-1}\mathrm dx$为贝塔函数

注意:

  1. $B(a,b)=B(b,a)$
  2. $B(a,b)=\Gamma(a)\Gamma(b)/\Gamma(a+b)$
  3. $Be(1,1)=U(0,1)$

2.5. 随机变量函数的分布

2.5.1. 离散随机变量函数的分布

设随机变量$X$的分布律为:
$$
P(X=x_k)=p_k,\quad k=1,2,\cdots
$$
由已知函数$g(x)$可求出随机变量$Y$的所有可能取值,则$Y$的概率分布为:
$$
P(Y=y_i)=\sum_{k:g(x_k)=y_i}p_k,\quad i=1,2,\cdots
$$

2.5.2. 连续随机变量函数的分布

已知随机变量$X$的概率密度函数为$f_X(x)$,随机变量$Y=g(X)$,求$Y$的概率密度函数$f_Y(y)$,使用分布函数法,先求出$Y$的分布函数$F_Y(y)$,再求$Y$的概率密度函数$f_Y(y)$

设$X\sim f_X(x)$,$y=g(x)$是$x$的严格单调函数,记$x=h(y)$为$y=g(x)$的反函数,且$h(y)$连续可导,则$Y=g(X)$的密度函数为:
$$
f_Y(y)=\begin{cases}
f_X[h(y)]|h'(y)|,&\alpha<y<\beta\\\\
0,&\mathrm{otherwise}
\end{cases}
$$
其中$\alpha=\min(g(-\infty),g(\infty))$,$\beta=\max(g(-\infty),g(\infty))$

证明:

设$y=g(x)$且单调递增,则$\alpha =g(-\infty)$,$\beta=g(+\infty)$,有
$$
\begin{aligned}
F_Y(y)&=P(Y\leq y)\\\\
&=\begin{cases}
0,&y<\alpha\\\\
P(X\leq h(y))=F_X(h(y)),&\alpha\leq y<\beta\\\\
1,&y\geq \beta
\end{cases}
\end{aligned}
$$
因此,
$$
\begin{aligned}
f_Y(y)&=F'_Y(y)\\\\
&=\begin{cases}
f_X(h(y))h'(y),&\alpha<y<\beta\\\\
0,&\mathrm{otherwise}
\end{cases}
\end{aligned}
$$
同理,当$y=g(x)$且单调递减时,有
$$
\begin{aligned}
f_Y(y)&=F'_Y(y)\\\\
&=\begin{cases}
-f_X(h(y))h'(y),&\alpha<y<\beta\\\\
0,&\mathrm{otherwise}
\end{cases}
\end{aligned}
$$
合起来得:
$$
f_Y(y)=\begin{cases}
f_X[h(y)]|h'(y)|,&\alpha<y<\beta\\\\
0,&\mathrm{otherwise}
\end{cases}
$$

3. 多维随机变量及其分布

3.1. 二维随机变量

3.1.1. 二维随机变量

定义

若$X$和$Y$是两个定义在同一个样本空间$S$上的随机变量,则称$(X,Y)$是二维随机变量,同理可以定义$n$维随机变量

3.1.2. 联合分布函数

定义

对任意实数$x$和$y$,称
$$
\begin{aligned}
F(x,y)&=P((X\leq x)\cap(Y\leq y))\\\\
&=P(X\leq x, Y\leq y)
\end{aligned}
$$
为$(X,Y)$的分布函数,或称为联合分布函数

注意:$F(x,y)$为$(X,Y)$落在点$(x,y)$左下区域的概率

推论:
$$
\begin{aligned}
&P((x_1\leq X\leq x_2),(y_1\leq Y\leq y_2))\\\\
=&P(X\leq x_2,Y\leq y_2)-P(X\leq x_2,Y\leq y_1)
-P(X\leq x_1,Y\leq y_2)+P(X\leq x_1,Y\leq y_1)\\\\
=&F(x_2,y_2)-F(x_2,y_1)-F(x_1,y_2)+F(x_1,y_1)
\end{aligned}
$$
基本性质

  1. 单调性:$F(x,y)$关于$x$和$y$分别单调递增
  2. 有界性:$0\leq F(x,y)\leq 1$,且$F(-\infty,y)=F(x,-\infty)=0$,$F(+\infty, +\infty)=1$
  3. 右连续性:$F(x,y)$关于$x$和$y$分别右连续
  4. 非负性:当$a<b$,$c<d$时,有$P(a<X\leq b, c<Y\leq d)=F(b,d)-F(b,c)-F(a,d)+F(a,c)\geq 0$

3.1.3. 联合分布律

定义

若$(X,Y)$的可能取值有有限对或可列对时,则称$(X,Y)$为二维离散随机变量,称$p_{ij}=P(X=x_i,Y=y_j)$,$i,j=1,2,\cdots$为$(X,Y)$的联合分布率

基本性质

  1. 非负性:$p_{ij}\geq 0$,$i,j=1,2,\cdots$
  2. 正则性:$\sum\sum p_{ij}=1$

确定联合分布律的方法

  1. 确定随机变量$(X,Y)$所有可能的数值对
  2. 计算取每个数值对的概率
  3. 列出表格

3.1.4. 联合密度函数

设二位随机变量$(X,Y)$的分布函数为$F(x,y)$,若存在非负可积函数$f(x,y)$,使得
$$
F(x,y)=\int_{-\infty}^x\int_{-\infty}^y f(u,v)\mathrm du\mathrm dv
$$
则称$(X,Y)$为二维连续型随机变量,称$f(x,y)$为联合概率密度,或概率密度

基本性质

  1. 非负性:$f(x,y)\geq 0$
  2. 正则性:$\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}f(x,y)\mathrm dx\mathrm dy=1$

3.1.5. 常用多维分布

多项分布

若每次试验有$r$种结果:$A_1,A_2,\cdots,A_r$,记$P(A_i)=p_i$,$i=1,2,\cdots,r$,记$X_i$为$n$次独立重复试验中$A_i$出现的次数,则$(X_1,X_2,\cdots,X_r)$的联合分布律为:
$$
P(X_1=n_1,X_2=n_2,\cdots,X_r=n_r)=\frac{n!}{n_1!n_2!\cdots n_r!}p_1^{n_1}p_2^{n_2}\cdots p_r^{n_r}
$$

多维超几何分布

口袋中有$N$只球,分成$r$类。第$i$种球有$N_i$只,$N_1+N_2+\cdots+N_r=N$,从中任取$n$只,记$X_i$为取出的$n$只球种,第$i$种球的只数,则$(X_1,X_2,\cdots,X_r)$的联合分布律为:
$$
P(X_1=n_1,X_2=n_2,\cdots,X_r=n_r)=\frac{C_{N_1}^{n_1}C_{N_2}^{n_2}\cdots C_{N_r}^{n_r}}{C_N^n}
$$

二维均匀分布

若二维连续随机变量$(X,Y)$的联合密度为:
$$
f(x,y)=\begin{cases}
\dfrac{1}{S_D},&(x,y)\in D\\\\
0,&\mathrm{otherwise}
\end{cases}
$$
其中$S_D$为$D$的面积,则称$(X,Y)$服从$D$上的均匀分布,记为$(X,Y)\sim U(D)$

二维正态分布

若二维连续随机变量$(X,Y)$的联合密度为:
$$
f(x,y)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}\exp\left(
-\frac{1}{2(1-\rho^2)}\left(
\frac{(x-\mu_1^2)}{\sigma^2_1}+
\frac{(y-\mu_1^2)}{\sigma^2_1}-
2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}
\right)
\right)
$$
则称$(X,Y)$服从二维正态分布,记为$(X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)$,其中$\mu_1$,$\mu_2$,$\sigma_1$,$\sigma_2$,$\rho$均为常数且$\sigma_1>0$,$\sigma_2>0$,$|\rho|<1$

3.2. 边缘分布

3.2.1. 边缘分布函数

已知$(X,Y)$的联合分布函数为$F(x,y)$,则
$$
\begin{aligned}
X\sim F_X(x)&=F(x,+\infty)\\\\
Y\sim F_Y(y)&=F(+\infty,y)
\end{aligned}
$$
称为关于$X$和$Y$的边缘分布函数

3.2.2. 边缘分布律

已知$(X,Y)$的联合分布律为$p_{ij}$,则

$X$的边缘分布律为:$p_i=P(X=x_i)=\sum_{j=1}^\infty p_{ij}=p_{i\cdot}$

$Y$的边缘分布律为:$p_j=P(Y=y_j)=\sum_{i=1}^\infty p_{ij}=p_{\cdot j}$

3.2.3. 边缘密度函数

已知$(X,Y)$的联合密度函数为$f(x,y)$,则

$X$的边缘密度函数为:$f_X(x)=\int_{-\infty}^{+\infty}f(x,y)\mathrm dy$

$Y$的边缘密度函数为:$f_Y(y)=\int_{-\infty}^{+\infty}f(x,y)\mathrm dx$

注意:

  • 由联合分布可以求出边缘分布
  • 但由边缘分布一般无法求出联合分布
  • 二维正态分布的边缘分布是一维正态分布,若$(X,Y)=N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)$,则$X\sim N(\mu_1,\sigma_1^2)$,$Y\sim N(\mu_2,\sigma_2^2)$
  • 二维均匀分布的边缘分布不一定是一维均匀分布

3.3. 条件分布

3.3.1. 条件分布

条件分布律

$$
p_{i|j}=P(X=x_i|Y=y_j)=\frac{p_{ij}}{p_{\cdot j}}
$$

条件概率密度

$$
f_{X|Y}(x|y)=\frac{f(x,y)}{f_Y(y)}
$$

条件分布函数
$$
F(x|y)=\begin{cases}
\sum_{x_i\leq x}P(X=x_i|Y=y)\\\\
\int_{-\infty}^xf_{X|Y}(x|y)\mathrm dx=\int_{-\infty}^x\frac{f(x,y)}{f_Y(y)}\mathrm dx
\end{cases}
$$

3.4. 相互独立的随机变量

3.4.1. 相互独立的随机变量的定义

若满足以下之一:

  1. 通式:$F(x,y)=F_X(x)F_Y(y)$
  2. 离散随机变量:$p_{ij}=p_ip_j$
  3. 连续随机变量:$f(x,y)=f_X(x)f_Y(y)$

则称$X$与$Y$是独立的

注意:

  1. 变量$X$与$Y$是独立的其本质是对任意实数$a,b,c,d$,有:$P(a<X<b,c<Y<d)=P(a<X<b)P(c<Y<d)$

  2. $X$与$Y$是独立的,则$g(X)$与$h(Y)$也是独立的

  3. $(X,Y)$服从矩形上的均匀分布,则$X$与$Y$独立

  4. $(X,Y)$服从单位圆上的均匀分布,则$X$与$Y$不独立

  5. 联合密度$f(x,y)$的表达式中,若$x$的取值与$y$的取值有关系,则$X$与$Y$不独立

  6. 若联合概率密度$f(x,y)$可分离变量,即
    $$
    f(x,y)=g(x)h(y)
    $$
    则$X$与$Y$独立

  7. 若$(X,Y)$服从二元正态$N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)$,则$X$与$Y$独立的充要条件是$\rho=0$

3.4.2. $n$维随机变量

设$n$维随机变量$(X_1,X_2,\cdots,X_n)$的分布函数为$F(x_1,x_2,\cdots,x_n)$,则
$$
\begin{aligned}
F(x_1,x_2,\cdots,x_n)
&=P(X_1<x_1,X_2<x_2,\cdots,X_n<x_n)\\\\
&=\int_{-\infty}^{x_n}\int_{-\infty}^{x_{n-1}}\cdots\int_{-\infty}^{x_1}f(x_1,x_2,\cdots,x_n)\mathrm dx_1\mathrm dx_2\cdots\mathrm dx_n
\end{aligned}
$$
则称$f(x_1,x_2,\cdots,x_n)$为$n$维概率密度函数

$n$维随机变量的边缘分布

设$n$维随机变量$(X_1,X_2,\cdots,X_n)$关于$X_1$,关于$(X_1,X_2)$的边缘分布函数分别为:
$$
\begin{aligned}
F_{X_1}(x_1)&=F(x_1,\infty,\infty,\cdots,\infty)\\\\
F_{X_1,X_2}(x_1,x_2)&=F(x_1,x_2,\infty,\cdots,\infty)\\\\
F_{X_1}(x_1)&=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}\cdots\int_{-\infty}^{+\infty} f(x_1,x_2,\cdots,x_n)\mathrm dx_2\mathrm dx_3\cdots\mathrm dx_n\\\\
F_{X_1,X_2}(x_1,x_2)&=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}\cdots\int_{-\infty}^{+\infty} f(x_1,x_2,\cdots,x_n)\mathrm dx_3\mathrm dx_4\cdots\mathrm dx_n
\end{aligned}
$$

$n$维随机变量的独立性
$$
F(x_1,x_2,\cdots,x_n)=F_{X_1}(x_1)F_{X_2}(x_2)\cdots F_{X_n}(x_n)
$$
则称$X_1,X_2,\cdots,X_n$是相互独立的
$$
F(x_1,x_2,\cdots,x_m,y_1,y_2,\cdots,y_n)=F_1(x_1,x_2,\cdots,x_m)F_2(y_1,y_2,\cdots,y_n)
$$
则称随机变量$(X_1,X_2,\cdots,X_m)$和$(Y_1,Y_2,\cdots,Y_n)$是相互独立的

3.5. 两个随机变量的函数的分布

3.5.1. 多维离散随机变量函数的分布

设$(X_1,X_2,\cdots,X_n)$是$n$维离散随机变量,而$Z=g(X_1,\cdots,X_n)$是一维离散随机变量

多维离散随机变量函数的分布是容易求的:

  1. 对$(X_1,X_2,\cdots,X_n)$的各种可能取值对,写出$Z$相应的取值
  2. 对$Z$的相同取值,合并其对应的概率

3.5.2. 卷积公式

连续函数的卷积公式

设连续随机变量$X$与$Y$独立,则$Z=X+Y$的密度函数为:
$$
\begin{aligned}
f_Z(z)&=\int_{-\infty}^\infty f_X(x)f_Y(z-x)\mathrm dx\\\\
&=\int_{-\infty}^\infty f_X(z-y)f_Y(y)\mathrm dy
\end{aligned}
$$

证明:
$$
\begin{aligned}
F_Z(z)&=P(Z\leq z)=P(X+Y\leq z)\\\\
&=\iint_{D=\{(x,y):x+y\leq z\}} f(x,y)\mathrm dx\mathrm dy\\\\
&=\int_{-\infty}^\infty\left(\int_{-\infty}^{z-y}f(x,y)\mathrm dx\right)\mathrm dy
\end{aligned}
$$
因此,
$$
f_Z(z)=F'_Z(z)=\int_{-\infty}^\infty f(z-y,y)\mathrm dy
$$
同理,
$$
f_Z(z)=F'_Z(z)=\int_{-\infty}^\infty f(x,z-x)\mathrm dx
$$
特别地,当$X$和$Y$独立时,设$(X,Y)$关于$X$和$Y$的边缘密度分别为$f_X(x)$和$f_Y(y)$,则上述两式化为:
$$
\begin{aligned}
f_Z(z)&=\int_{-\infty}^\infty f_X(z-y)f_Y(y)\mathrm dy\\\\
f_Z(z)&=\int_{-\infty}^\infty f_X(x)f_Y(z-x)\mathrm dy
\end{aligned}
$$

离散函数的卷积公式

设离散随机变量$X$与$Y$独立,则$Z=X+Y$的分布律为:
$$
\begin{aligned}
P(Z=z_l)&=\sum_{i=1}^\infty P(X=x_i)P(Y=z_l-x_i)\\\\
&=\sum_{j=1}^\infty P(X=z_l-y_j)P(Y=y_j)
\end{aligned}
$$

分布的可加性

若同一类分布的独立随机变量和的分布仍为此类分布,则称此类分布具有可加性

  • 二项分布的可加性:若$X\sim b(n_1,p)$,$Y\sim b(n_2,p)$,且独立,则$Z=X+Y\sim b(n_1+n_2,p)$

    注意:若$X_i\sim b(1,p)$,且独立,则$Z=X_1+X_2+\cdots+X_n\sim b(n,p)$

  • 泊松分布的可加性:若$X\sim P(\lambda_1)$,$Y\sim P(\lambda_2)$,且独立,则$Z=X+Y\sim P(\lambda_1+\lambda_2)$

    注意:$X-Y$不服从泊松分布

  • 正态分布的可加性:若$X\sim N(\mu_1,\sigma_1^2)$,$Y\sim N(\mu_2,\sigma_2^2)$,且独立,则$Z=X\pm Y\sim N(\mu_1\pm \mu_2,\sigma_1^2+\sigma_2^2)$

    注意:独立正态变量的线性组合仍为正态变量,$X_i\sim N(\mu_i,\sigma_i^2)$,$i=1,2,\cdots,n$,且$X_i$间相互独立,实数$a_1,a_2,\cdots,a_n$不全为零,则:
    $$
    \sum_{i=1}^na_iX_i\sim N\left(\sum_{i=1}^na_i\mu_i,\sum_{i=1}^na_i^2\sigma_i^2 \right)
    $$

  • 伽马分布的可加性:若$X\sim Ga(\alpha_1,\lambda)$,$Y\sim Ga(\alpha_2,\lambda)$,且独立,则$Z=X+Y\sim Ga(\alpha_1+\alpha_2,\lambda)$

    注意:$X-Y$不服从$Ga(\alpha_1-\alpha_2,\lambda)$

  • 独立的0-1分布随机变量之和服从二项分布

  • 独立的指数分布随机变量之和服从伽马分布

3.5.3. 最大值与最小值分布

设$X_1,X_2,\cdots,X_n$独立同分布,其分布函数和密度函数分别为$F_X(x)$和$f_X(x)$,若记
$$
\begin{aligned}
Y&=\max(X_1,X_2,\cdots,X_n)\\\\
Z&=\min(X_1,X_2,\cdots,X_n)
\end{aligned}
$$
则$Y$的分布函数为:
$$
F_Y(y)=[F_X(y)]^n
$$
$Y$的密度函数为:
$$
f_Y(y)=n[F_X(y)]^{n-1}f_X(y)
$$
$Z$的分布函数为:
$$
F_Z(z)=1-[1-F_X(z)]^n
$$
$Z$的密度函数为:
$$
f_Z(z)=n[1-F_X(z)]^{n-1}f_X(z)
$$

3.5.4. 变量变换法

已知$(X,Y)$的分布,$(X,Y)$的函数:
$$
\begin{cases}
U=g_1(X,Y)\\\\
V=g_2(X,Y)
\end{cases}
$$
求$(U,V)$的分布

若$u=g_1(x,y)$和$v=g_2(x,y)$有连续的偏导、存在反函数$x=x(u,v)$和$y=y(u,v)$,则$(U,V)$的联合密度为:
$$
f_{UV}(u,v)=f_{XY}(x(u,v),y(u,v))|J|
$$
其中$J$为变换的雅可比行列式
$$
J=\frac{\partial (x,y)}{\partial(u,v)}=\left(\frac{\partial (u,v)}{\partial(x,y)}\right)^{-1}
$$
若要求$U=g_1(X,Y)$的密度$p_U(u)$,可增补一个变量$V=g_2(X,Y)$,通过变量变换法求出$(U,V)$的联合密度$f_{UV}(u,v)$,由联合密度$f_{UV}(u,v)$去求取边缘密度$f_U(u)$

4. 随机变量的数字特征

4.1. 数学期望

4.1.1. 数学期望的定义

离散随机变量的数学期望

设离散随机变量$X$的分布律为:
$$
P(X=x_n)=p_n,\quad n=1,2,\cdots
$$
若级数$\sum_{i=1}^\infty x_ip_i$绝对收敛,则称该级数为$X$的数学期望,记为
$$
E(X)=\sum_{i=1}^\infty x_ip_i
$$

连续随机变量的数学期望

设连续随机变量$X$的概率密度为$f(x)$,若积分$\int_{-\infty}^\infty xf(x)\mathrm dx$绝对收敛,则称该积分为$X$的数学期望,又称为均值,记为:
$$
E(X)=\int_{-\infty}^\infty xf(x)\mathrm dx
$$

4.1.2. 数学期望的性质

设$Y=g(X)$是随机变量$X$的函数,若$E(g(X))$存在,则
$$
E(g(X))=\begin{cases}
\sum_{i=1}^\infty g(x_i)P(X=x_i)\\\\
\int_{-\infty}^\infty g(x)f(x)\mathrm dx
\end{cases}
$$
推论:设$Z=g(X,Y)$是随机变量$X$与$Y$的函数,若$E(g(X,Y))$存在,则
$$
E(g(X,Y))=\begin{cases}
\sum_{i=1}^\infty\sum_{j=1}^\infty g(x_i,x_j)P(X=x_i,Y=y_j)\\\\
\int_{-\infty}^\infty\int_{-\infty}^\infty g(x,y)f(x,y)\mathrm dx\mathrm dy
\end{cases}
$$
其他性质:

  1. $E(c)=c$
  2. $E(aX)=aE(X)$
  3. $E(g_1(X)+g_2(X))=E(g_1(X))+E(g_2(X))$
  4. $E(X+Y)=E(X)+E(Y)$
  5. 若$X$与$Y$是独立的,则$E(XY)=E(X)E(Y)$

4.1.3. 常用离散分布的数学期望

  • 0-1分布:$E(X)=p$
  • 二项分布$b(n,p)$:$E(X)=np$
  • 几何分布$Ge(p)$:$E(X)=1/p$
  • 泊松分布$P(\lambda)$:$E(X)=\lambda$

4.1.4. 常用连续分布的数学期望

  • 正态分布$N(\mu,\sigma^2)$:$E(X)=\mu$
  • 均匀分布$U(a,b)$:$E(X)=(a+b)/2$
  • 指数分布$Exp(\lambda)$:$E(X)=1/\lambda$
  • 伽马分布$Ga(\alpha,\lambda)$:$E(X)=\alpha/\lambda$
  • 贝塔分布$Be(a,b)$:$E(X)=a/(a+b)$

4.2. 方差

4.2.1. 方差与标准差的定义

若$E(X-E(X))^2$存在,则称$E(X-E(X))^2$为$X$的方差,记为
$$
\mathrm {Var}(X)=D(X)=E(X-E(X))^2
$$
注意:

  1. 方差反应了随机变量相对其均值的偏离程度。方差越大,则随机变量的选取越分散
  2. 称$\sigma_X=\sigma(X)-\sqrt{\mathrm{Var}(X)}$为$X$的标准差

4.2.2. 方差的性质

  1. $D(c)=0$

  2. $D(X)=E(X^2)-[E(X)]^2$

    证明:
    $$
    \begin{aligned}
    D(X)&=E[X-E(X)]^2\\\\
    &=E[X^2-2XE(X)+E(X)^2]\\\\
    &=E(X^2)-2E(X)^2+E(X)^2\\\\
    &=E(X^2)-E(X)^2
    \end{aligned}
    $$

  3. $D(aX+b)=a^2D(X)$

  4. $D(X+Y)=D(X)+D(Y)+2E[(X-E(X))(Y-E(Y))]$

    特别地,若$X$和$Y$相互独立,则$D(X+Y)=D(X)+D(Y)$

随机变量的标准化

设$D(X)>0$,令$Y=\frac{X-E(X)}{\sqrt{D(X)}}$,则有$E(Y)=0$,$D(Y)=1$,称$Y$为$X$的标准化

4.2.3. 切比雪夫不等式

设随机变量$X$的方差存在(此时均值也存在),则对任意正数$\varepsilon$,有下面等式成立:
$$
\begin{aligned}
P(|X-E(X)|\geq \varepsilon)&\leq \frac{D(X)}{\varepsilon^2}\\\\
P(|X-E(X)|< \varepsilon)&\geq 1-\frac{D(X)}{\varepsilon^2}
\end{aligned}
$$
由切比雪夫不等式可以看出,若$\sigma^2$越小,则事件$\{|X-E(X)|<\varepsilon\}$的概率越大,即随机变量$X$集中在期望附近的可能性越大

推论

$D(X)=0\Leftrightarrow P(X=a)=1$,$E(X-E(X))^2=0$,对所有的$X$,有$X=E(X)=a$

4.2.4. 常用离散分布的方差

  • 0-1分布:$D(X)=p(1-p)$
  • 二项分布$b(n,p)$:$D(X)=np(1-p)$
  • 几何分布$Ge(p)$:$D(X)=(1-p)/p^2$
  • 泊松分布$P(\lambda)$:$D(X)=\lambda$

4.2.5. 常用连续分布的方差

  • 正态分布$N(\mu,\sigma^2)$:$D(X)=\sigma^2$
  • 均匀分布$U(a,b)$:$E(X)=(b-a)^2/12$
  • 指数分布$Exp(\lambda)$:$E(X)=1/\lambda^2$
  • 伽马分布$Ga(\alpha,\lambda)$:$E(X)=\alpha/\lambda^2$
  • 贝塔分布$Be(a,b)$:$E(X)=ab/((a+b)^2(a+b+1))$

4.3. 协方差及相关系数

4.3.1. 协方差


$$
\mathrm{Cov}(X,Y)=E[(X-E(X))(Y-E(Y))]
$$
为$X$与$Y$的协方差

协方差的性质

  1. $\mathrm{Cov}(X,Y)=E(XY)-E(X)E(Y)$

    证明:
    $$
    \begin{aligned}
    \mathrm{Cov}(X,Y)&=E[(X-E(X))(Y-E(Y))]\\\\
    &=E(XY)-E(X)E(Y)-E(Y)E(X)+E(X)E(Y)\\\\
    &=E(XY)-E(X)E(Y)
    \end{aligned}
    $$

  2. 若$X$与$Y$独立,则$\mathrm{Cov}(X,Y)=0$

  3. $D(X\pm Y)=D(X)+D(Y)\pm 2\mathrm{Cov}(X,Y)$

    证明:
    $$
    \begin{aligned}
    D(X\pm Y)&=E[(X\pm Y)-E(X\pm Y)]^2\\\\
    &=E[(X-E(X))\pm (Y-E(Y))]^2\\\\
    &=E[(X-E(X))^2\pm 2(X-E(X))(Y-E(Y))+(Y-E(Y))^2]\\\\
    &=D(X)+D(Y)\pm 2\mathrm{Cov}(X,Y)
    \end{aligned}
    $$
    推广:
    $$
    D\left(\sum_{i=1}^nX_i\right)=\sum_{i=1}^nD(X_i)+2\mathop{\sum\sum}_{i<j}\mathrm{Cov}(X_i,X_j)
    $$
    若$X_1,X_2,\cdots,X_n$两两独立,上式化为$D\left(\sum_{i=1}^nX_i\right)=\sum_{i=1}^nD(X_i)$

  4. $\mathrm{Cov}(X,Y)=\mathrm{Cov}(Y,X)$

  5. $\mathrm{Cov}(X,a)=0$

  6. $\mathrm{Cov}(aX,bY)=ab\mathrm{Cov}(X,Y)$

  7. $\mathrm{Cov}(X+Y,Z)=\mathrm{Cov}(X,Z)+\mathrm{Cov}(Y,Z)$

4.3.2. 相关系数


$$
\rho_{XY}=\frac{\mathrm{Cov}(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}
$$
为$X$与$Y$的相关系数

若记
$$
\begin{matrix}
X^\ast=\dfrac{X-E(X)}{\sqrt{D(X)}}&Y^\ast=\dfrac{Y-E(Y)}{\sqrt{D(Y)}}
\end{matrix}
$$

$$
\rho_{XY}=\mathrm{Cov}(X^\ast,Y^\ast)
$$

相关系数的性质

  • $-1\leq \rho_{XY}\leq 1$

  • $\rho_{XY}=\pm 1\Leftrightarrow$$X$与$Y$几乎处处有线性关系,即$P(Y=aX+b)=1$

    注意:$\rho_{XY}$的大小反映了$X$与$Y$之间的线性关系:

    • $\rho_{XY}$接近于1,$X$与$Y$间正相关
    • $\rho_{XY}$接近于-1,$X$与$Y$间负相关
    • $\rho_{XY}$等于0,$X$与$Y$间不相关,没有线性关系
  • 施瓦茨不等式:
    $$
    \mathrm{Cov}^2(X,Y)\leq D(X)D(Y)
    $$

二维正态分布的特征数

$(X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)$

  1. $X\sim N(\mu_1,\sigma_1^2)$,$Y\sim N(\mu_2,\sigma_2^2)$
  2. 参数$\rho$为$X$和$Y$的相关系数
  3. $X$和$Y$独立$\Leftrightarrow \rho=0$
  4. 不相关与独立等价

4.4. 矩、协方差矩阵

随机变量的矩

设$X$和$Y$是随机变量,

若$E(X^k)$存在,则称为$X$的$k$阶原点矩,简称$k$阶矩,若$E[(X-E(X))^k]$存在,称为$X$的$k$阶中心矩

若$E(X^kY^l)$存在,称为$X$和$Y$的$k+l$阶混合矩

若$E([X-E(X)]^k[Y-E(Y)]^l)$存在,称为$X$和$Y$的$k+l$阶混合中心矩

$n$维随机变量的协方差矩阵

记$\overline X=(X_1,X_2,\cdots,X_n)^T$,则$E(\overline X)=(E(X_1),E(X_2),\cdots,E(X_n))^T$,则称
$$
\begin{pmatrix}
D(X_1)&\mathrm{Cov}(X_1,X_2)&\cdots&\mathrm{Cov}(X_1,X_n)\\\\
\mathrm{Cov}(X_2,X_1)&D(X_2)&\cdots&\mathrm{Cov}(X_2,X_n)\\\\
\vdots&\vdots&\ddots&\vdots\\\\
\mathrm{Cov}(X_n,X_1)&\mathrm{Cov}(X_n,X_2)&\cdots&D(X_n)
\end{pmatrix}
$$
协方差矩阵的性质

  • 协方差矩阵满足对称性

相关矩阵


$$
R=\begin{pmatrix}
\rho_{11}&\rho_{12}&\cdots&\rho_{1n}\\\\
\rho_{21}&\rho_{22}&\cdots&\rho_{2n}\\\\
\vdots&\vdots&\ddots&\vdots\\\\
\rho_{n1}&\rho_{n2}&\cdots&\rho_{nn}
\end{pmatrix}
$$
为$\overline X$的相关矩阵

5. 大数定律与中心极限定理

5.1. 大数定律

大数定律一般形式

若随机变量序列$\{X_n\}$满足:
$$
\lim_{n\rightarrow+\infty}P\left( \left|\frac{1}{n}\sum_{i=1}^nX_i-\frac{1}{n}\sum_{i=1}^nE(X_i)\right|<\varepsilon \right)=1
$$
则称$\{X_n\}$服从大数定律

切比雪夫大数定律

$\{X_n\}$两两不相关,且$X_n$方差存在,有共同的上界,则$\{X_n\}$服从大数定律

依概率收敛

若对任意的$\varepsilon>0$,有:
$$
\lim_{n\rightarrow+\infty}P\left(|Y_n-Y|<\varepsilon\right)=1
$$
则称随机变量序列$\{Y_n\}$依概率收敛于$Y$,记为:
$$
Y_n\mathop{\longrightarrow}^P Y
$$
大数定律讨论的就是依概率收敛

若$X_n\mathop{\longrightarrow}\limits^P a$,$Y_n\mathop{\longrightarrow}\limits^P b$,则$\{X_n\}$与$\{Y_n\}$的加减乘除依概率收敛到$a$与$b$的加减乘除

对于多变量函数,设$X_n\mathop{\longrightarrow}\limits^P a$,$Y_n\mathop{\longrightarrow}\limits^P b$,设函数$g(x,y)$在点$(a,b)$连续,则:
$$
g(X_n,Y_n)\mathop{\longrightarrow}\limits^P g(a,b)
$$

伯努利大数定律

设$\mu_n$是$n$重伯努利试验中事件$A$出现的次数,每次试验中$P(A)=p$,则对任意的$\varepsilon>0$,有
$$
\lim_{n\rightarrow+\infty}P\left(\left|\frac{\mu_n}{n}-p\right|<\varepsilon\right)=1
$$

马尔可夫大数定律

若随机变量序列$\{X_n\}$满足马尔可夫条件:
$$
\frac{1}{n^2}D\left(\sum_{i=1}^nX_i\right)\rightarrow 0
$$

则$\{X_n\}$服从大数定律

辛钦大数定律

若随机变量序列$\{X_n\}$独立同分布,且$X_n$的数学期望存在,则$\{X_n\}$服从大数定律

注意:

  1. 伯努利大数定律是切比雪夫大数定律的特例
  2. 切比雪夫大数定律是马尔可夫大数定律的特例
  3. 伯努利大数定律是辛钦大数定律的特例

5.2. 中心极限定理

5.2.1. 独立随机变量和

设$\{X_n\}$为独立随机变量序列,记其和为:
$$
Y_n=\sum_{i=1}^nX_i
$$

5.2.2. 独立同分布的中心极限定理

林德伯格——勒维中心极限定理

设$\{X_n\}$为独立同分布随机变量序列,数学期望为$\mu$,方差为$\sigma^2>0$,则当$n$充分大时,有
$$
\lim_{n\rightarrow\infty} P\left(\frac{\sum_{i=1}^nX_i-n\mu}{\sigma\sqrt{n}}\leq x\right)=\Phi(x)
$$
即:
$$
\begin{aligned}
&\frac{\sum_{i=1}^nX_i-n\mu}{\sigma\sqrt{n}}\sim N(0,1)\\
\Rightarrow&\frac{\frac{1}{n}\sum_{i=1}^nX_i-\mu}{\sigma/\sqrt{n}}\sim N(0,1)\\
\Rightarrow&\frac{\overline X_i-\mu}{\sigma/\sqrt{n}}\sim N(0,1)
\end{aligned}
$$
林德伯格—勒维中心极限定理的应用形式:

  1. $\frac{\sum_{i=1}^nX_i-n\mu}{\sigma\sqrt{n}}\sim N(0,1)$
  2. $\sum_{i=1}^nX_i\sim N(n\mu,n\sigma^2)\Rightarrow P\left(\sum_{i=1}^nX_i\leq x\right)\approx\Phi\left(\frac{x-n\mu}{\sqrt{n\sigma^2}}\right)$
  3. $\overline X\sim N(\mu,\frac{\sigma^2}{n})$

**棣莫弗—拉普拉斯中心极限定理 **

设$X$为服从二项分布$b(n,p)$的随机变量,则当$n$充分大时,有
$$
\lim_{n\rightarrow\infty}P\left(\frac{X-np}{\sqrt{np(1-p)}}\leq x\right)=\Phi(x)
$$
是林德伯格—勒维中心极限定理的特例

二项分布是离散分布,而正态分布是连续分布,所以用正态分布作为二项分布的近似时,可作如下修正:

$$
\begin{aligned}
P(k_1\leq X\leq k_2)&=P(k_2-0.5<X<k_2+0.5)\\\\
&\approx \Phi\left(\frac{k_2+0.5-np}{\sqrt{np(1-p)}}\right)-
\Phi\left(\frac{k_1-0.5-np}{\sqrt{np(1-p)}}\right)
\end{aligned}
$$
中心极限定理的应用:

  1. 已知$n$和$x$,求概率
  2. 已知$n$和概率,求$x$
  3. 已知$x$和概率,求$n$

6. 概率与统计:应用

6.1. 生日攻击

生日攻击是一种密码学攻击手段, 所利用的是概率论中生日问题的数学原理

生日问题

假设有一张圆桌,有$k$个人围着桌子吃面,要求有两个人生日相同的概率大于50%,求满足条件的$k$的最小值

根据鸽巢原理,当$k=366$时,必然有两个人生日相同(非闰年),而事实上:

  • 当$k=1$时,概率为$1-\frac{365}{365}$
  • 当$k=2$时,概率为$1-\frac{365\ast364}{365\ast365}$
  • ……
  • 当$k=23$时,概率为$1-\frac{365\ast364\ast\cdots\ast343}{365^{23}}\approx 0.507$

当$k=23$时,就有50%以上的概率出现两个人生日相同

$k$个人中存在生日相同的两个人的概率如下:
$$
1-P=1-\frac{365}{365}\ast\frac{364}{365}\ast\cdots\ast\frac{365-k+1}{365}=1-\frac{365!}{365^k(365-k)!}
$$
从而可以得到:

$k$ 23 30 40 50
$p$ 50.7% 70.6% 89.1% 97.0%

生日悖论

  • 固定置换次数(366)
  • 高碰撞概率(23次可以实现50%的碰撞概率)

生日攻击

  • 固定置换次数$\rightarrow$哈希碰撞
  • 高碰撞概率$\rightarrow$在$\sqrt{2^k}$中找到哈希函数碰撞

生日攻击的应用

  • 哈希

    • 简介
      • 生日攻击可以找到冲突的哈希函数值,从而伪造报文,攻击报文身份验证算法
      • 若使用64位哈希,则估计有$2^{64}\approx 1.8\times 10^{19}$个不同的输出
      • 通过生日攻击,则攻击者仅需约$5.38\times 10^9$就能通过暴力攻击生成碰撞,此值称为生日界限
    • 应用场景:数字签名
      • 数字签名是一种类似写在纸上的普通的物理签名,但是使用了公钥加密领域的技术实现,用于鉴别数字信息的方法
      • 公钥加密:有一个公钥,一个私钥;公钥用来加密,私钥用来解密;公钥可公开,私钥必须严格秘密保管。由于公钥和私钥不同,公钥加密也被称为非对称加密
    • 攻击过程
      • 攻击者将哈希函数$f$应用到所有变体,直到找到具有相同哈希值的正常合同变体和伪造合同变体,即$f(m)=f(m')$
      • 然后,攻击者将正常合同$m$带给Bob进行签名
      • 攻击者将签名取下并依附到伪造合同$m'$上
      • 这样伪造合同$m'$就变成了具有Bob签名的正常合同
    • 防范方法
      • 设置更长的散列(哈希)长度
  • 离散对数:Pollard rho算法

    • 简介

      • 离散对数是基于同余运算和原根的一种对数运算
      • 简单来说就是已知$a\equiv g^x\ \mathrm{mod}\ p$,求满足条件的$x$的值
      • 离散对数基于大整数分解
      • Pollard rho算法就是一种利用生日攻击来进行大整数分解的算法
    • Pollard rho算法

      image-20220112221350377

      • 找一个数字$x$
      • 找一个数字$y$
      • 计算$d=\mathrm{gcd}(|x-y|,p)$,其中$p$是要分解的数
      • 如果$d$不为1,则分解成功
      • 重复上述操作
    • 防范方法

      • 找个更大的大整数
      • 定时更换

6.2. 贝叶斯分类器

6.2.1. 贝叶斯定理

每个记录用一个$d$维特征向量$X=(x_1,x_2,\cdots,x_d)$表示,假定有$k$个类$y_1,y_2,\cdots,y_k$

给定$X$,$X$属于$y_j$类的后验概率$P(y_j|X)$满足贝叶斯定理:
$$
P(y_j|X)=\frac{P(X|y_j)P(y_j)}{P(X)}
$$
最大后验假设MAP:

  • 将$X$指派到具有最大后验概率$P(y_j|X)$的类$y_j$,即将$X$指派到$P(X|y_j)P(y_j)$最大的类$y_j$

6.2.2. 朴素贝叶斯分类

给定一个未知的数据样本$X$,分类法将预测$X$属于具有最高后验概率的类,即未知的样本分配给类$y_j$,当且仅当
$$
P(y_j|X)>P(y_i|X),\quad 1\leq i\leq k,\quad i\neq j
$$
根据贝叶斯定理,有:
$$
P(y_j|X)=\frac{P(X|y_j)P(y_j)}{P(X)}
$$
由于$P(X)$对于所有类为常数,只需最大化$P(X|y_j)P(y_j)$即可

  • 估计$P(y_j)$

    • 类$y_j$的先验概率可以用下式估计:
      $$
      P(y_j)=n_j/n
      $$
      其中,$n_j$是类$y_j$中的训练样本数,而$n$是训练样本总数
  • 估计$P(X|y_j)$

    • 为便于估计$P(X|y_j)$,假定类条件独立——给定样本的类标号,假定属性值条件等相互独立

    • 于是$P(X|y_j)$可以用下式估计
      $$
      P(X|y_j)=\prod_{i=1}^dP(x_i|y_j)
      $$
      其中,$P(x_i|y_j)$可以由训练样本估计

  • 估计$P(x_i|y_j)$

    • 设第$i$个属性$A_i$是分类属性,则
      $$
      P(x_i|y_j)=n_{ij}/n_j
      $$
      其中$n_{ij}$是在属性$A_i$上具有值$x_i$的$y_j$类的训练样本数,而$n_j$是$y_j$类的训练样本数

    • 设第$i$个属性$A_i$是连续值属性

      • 把$A_i$离散化

      • 假定$A_i$服从正态分布
        $$
        P(x_i|y_j)=\frac{1}{\sqrt{2\pi}\sigma_{ij}}e^{-\frac{(x_i-\mu_{ij})^2}{2\sigma_{ij}^2}}
        $$

      • 其中,$\mu_{ij}$,$\sigma_{ij}$分别为给定$y_j$类的训练样本在属性$A_i$上的均值和标准差

朴素贝叶斯分类器所需要的信息

  • 计算每个类的先验概率$P(y_j)$
    $$
    P(y_j)=n_j/n
    $$
    其中$n_j$是$y_i$类的训练样本数,而$n$是训练样本总数

  • 对于离散属性$A_i$,设的不同值为$a_{i1},a_{i2},\cdots,a_{il}$,对于每个类$y_j$,计算后验概率$P(a_{ik}|y_j)$,$1\leq k\leq l$
    $$
    P(a_{ik}|y_j)=n_{ikj}/n_j
    $$
    其中$n_{ikj}$是在属性$A_i$上具有值$a_{ik}$的$y_j$类的训练样本数,而$n_j$是$y_j$类的训练样本数

  • 对于连续属性$A_i$和每个类$y_j$,计算$y_j$类样本的均值$\mu_{ij}$,标准差$\sigma_{ij}$

Laplace估计

  • 如果各个条件概率$P(X_i=x_i|Y=y_j)$中的一个为0,则它们的乘积(计算$P(X|Y=y_j)$的表达式)为0,则很可能每个$P(X|Y=y_j)$都为0

  • 解决方法:Laplace估计
    $$
    P(X_i=x_i|Y=y_j)=\frac{n_{ij}}{n_j}\Rightarrow\frac{n_{ij}+1}{n_j+k}
    $$

贝叶斯分类器的特点

  • 对孤立的噪声点的鲁棒性
    • 个别点对概率估计的影响很小
  • 容易处理缺失值
    • 在估计概率时忽略缺失值的训练实例
  • 对不想关属性的鲁棒性
    • 各类在不相干属性上具有类似分布
  • 类条件独立假设可能不成立
    • 使用其他技术,如贝叶斯信念网络(Bayesian Belief Networks,BNN)

6.2.3. 贝叶斯信念网络

贝叶斯信念网络

  • 贝叶斯信念网络允许在变量的子集之间定义类条件独立性

  • 因果关系图模型

    • 表示变量之间的依赖
    • 给出联合概率分布的说明
  • 图示

    image-20220112224610987

    • 节点:随机变量
    • 边:依赖
    • $X,Y$是$Z$的父节点/前驱,且$Y$是$P$的父节点/前驱
    • $Z$和$P$之间没有依赖关系
    • 图中没有环

贝叶斯信念网络的训练

  • 若干情况

    • 给定网络结构和所有可观测变量
      • 只需学习CPT
    • 网络网络已知,而某些变量是隐藏的
      • 使用梯度下降法或类似于神经网络的方法训练信念网络
    • 网络结构未知,所有的变量可观测
      • 搜索模型空间,构造网络拓扑结构
    • 网络结构未知,所有变量是隐藏的
      • 没有已知的好算法
  • 梯度下降法

    • 设$S$是$s$个训练样本$X_1,X_2,\cdots,X_s$的集合,$w_{ijk}$是具有双亲$U_i=u_{ik}$的变量$Y=y_{ij}$的CPT(条件概率表)项
    • $w_{ijk}$可以看作权,类似于神经网络中隐藏单元的权,权的集合记作$w$
    • 这些权将被初始化为随机概率值
    • 梯度下降策略采用贪心爬山法,在每次迭代中,修改这些权,并最终收敛到一个局部最优解

    基于$w$的每个可能设置都等可能的假设,该方法搜索能最好地对数据建模$w_{ijk}$值,目标是最大化
    $$
    p_w(S)=\prod_{d=1}^sP_w(X_d)
    $$
    给定网络结构和$w_{ijk}$的初值,该算法按以下步骤处理:

    1. 计算梯度,对每个$i,j,k$,计算
      $$
      \frac{\partial \ln P_w(S)}{\partial w_{ijk}}=\sum_{d=1}^s\frac{P(Y_i=y_{ij},U_i=u_{ik}|X_d)}{w_{ijk}}
      $$

    2. 沿梯度方向前进一小步:用下式更新权值
      $$
      w_{ijk}\leftarrow w_{ijk}+(l)\frac{\partial \ln P_w(S)}{\partial w_{ijk}}
      $$
      $l$表示步长的学习率,设置为一个小常数

    3. 重新规格化权值:由于权值$w_{ijk}$是概率值,它们必须在0.0和1.0之间,且对于所有的$i,k$,必须有
      $$
      \sum_jw_{ijk}=1
      $$

6.3. Chernoff 界与安全性证明

6.3.1. 不经意传输(Oblivious Transfer, O.T.)

不经意传输(O.T.)

  • Alice知道1 bit的数据$b$
  • Bob以0.5的概率从Alice得到bit $b$
  • Bob知道他自己是否得到$b$
  • Alice不知道Bob是否得到$b$

二分之一不经意传输(one-out-of-two O.T.)

  • Alice知道两个bits数据$b_0$和$b_1$
  • Bob以$P(k=0)=P(k=1)=0.5$的概率得到bit $b_k$
  • Bob知道他具体拿到的数据是$b_0$还是$b_1$
  • Alice不知道Bob拿到的是哪个$b_k$

p不经意传输(p-O.T.)

  • Alice知道1 bit数据$b$
  • Bob以概率$p$从Alice得到bit $b$
  • Bob知道自己是否有$b$
  • Alice不知道Bob是否有$b$

6.3.2. one-out-of-two O.T. 协议

  • Alice和Bob同意一个安全系数$s$
  • Alice随机选择$K_s$个bit数据$r_1,r_2,\cdots,r_{K_S}$,其中某些常数$K$将在之后确定
  • 对每个$K_S$,Alice使用p-O.T.协议以概率$p$向Bob公开比特$r_i$
  • Bob选择$U=\{i_1,i_2,\cdots,i_{\alpha_S}\}$和$V=\{i_{\alpha_S+1},i_{\alpha_S+2},\cdots,i_{2\alpha_S}\}$,其中$\alpha_S=[2K_S/3]$且$UV=\phi$,同时他也知道对每个$i_j\in U$的$r{ij}$
  • Bob向Alice随机发送$(X,Y)=(U,V)$或$(X,Y)=(V,U)$
  • Alice计算$m_0=\mathop\oplus\limits_{x\in X}r_x$和$m_1=\mathop\oplus\limits_{y\in Y}r_y$
  • Alice向Bob返回$k$,对于随机位$k$,计算$b_k\oplus m_0$和$b_{k^-}\oplus m_l$
  • Bob计算$\mathop\oplus\limits_{u\in U}\{m_0,m_1\}$,并且用其得到他的密位

6.3.3. 安全性证明

命题

对于一个合适的给定常数$K$,
$$
Pr(Bob拿到b_0和b_1中的至少一个的概率)\geq 1-2^{-s}
$$

$$
Pr(Bob拿到b_0和b_1中不止一个的概率)\leq 2^{-s}
$$

7. 线性代数与矩阵论

7.1. 线性代数

7.1.1. 线性系统

一个线性系统满足两个条件:乘法不变性和加法不变性

乘法不变性:

image-20220113103037544

加法不变性:

image-20220113103104773

多元线性方程组是一个线性系统

7.1.2. 向量和矩阵

向量

向量是一堆数的集合,分为列向量和行向量
$$
\begin{aligned}
v_{col}&=\begin{pmatrix}1\\2\\3\end{pmatrix}\\\\
v_{row}&=\begin{pmatrix}1&2&3\end{pmatrix}
\end{aligned}
$$
向量与标量相乘,每一维都与该标量相乘
$$
c\cdot v=c\cdot\begin{pmatrix}v_1\\v_2\end{pmatrix}=\begin{pmatrix}cv_1\\cv_2\end{pmatrix}
$$
向量相加,使用平行四边形法则

image-20220113103409448

零向量:所有维度的值都为0
$$
\pmb 0=\begin{pmatrix}0\\\vdots\\0\end{pmatrix}
$$
标准向量:一个维度是1,其余维度是0
$$
\begin{matrix}
\pmb e_1=\begin{pmatrix}1\\0\\\vdots\\0\end{pmatrix}&
\pmb e_2=\begin{pmatrix}0\\1\\\vdots\\0\end{pmatrix}&
\cdots&
\pmb e_n=\begin{pmatrix}0\\0\\\vdots\\1\end{pmatrix}
\end{matrix}
$$
向量集可以包含有限个或无限个向量

image-20220113103640636

$\mathbb R^n$:所有的$n$维向量组成的向量集合

image-20220113103719833

7.1.3. 矩阵

矩阵是一组向量:
$$
A=\begin{pmatrix}
a_1&a_2&a_3
\end{pmatrix}=
\begin{pmatrix}
a_{11}&a_{12}&a_{13}\\
a_{21}&a_{22}&a_{23}\\
a_{31}&a_{32}&a_{33}
\end{pmatrix}
$$
如果矩阵有$m$行和$n$列,我们就说矩阵的大小为$m\times n$,如果$m=n$,我们称为方阵

矩阵的元素下标表示,先行后列:
$$
A=\begin{pmatrix}
a_{11}&\cdots&a_{1n}\\
\vdots&\ddots&\vdots\\
a_{n1}&\cdots&a_{nn}
\end{pmatrix}
$$
矩阵与标量相乘:每一个元素分别与该标量相乘

矩阵相加:两个矩阵的形状必须一致,同位置的元素分别相加

零矩阵:所有元素均为0的矩阵

单位矩阵:必须是方阵,对角线元素为1,其余为0,用$I_n$表示$n\times n$的单位矩阵

同形状矩阵的运算法则:

  • $A+B=B+A$
  • $(A+B)+C=A+(B+C)$
  • $(st)A=s(tA)$
  • $s(A+B)=sA+sB$
  • $(s+t)A=sA+tA$

矩阵的转置:沿左上到右下的对角线为轴进行翻转,将$(i,j)$位置的元素与$(j,i)$位置的元素互换得到的矩阵,转置的矩阵用$A^T$表示

矩阵转置的一些运算规则:

  • $(A^T)^T=A$
  • $(sA)^T=sA^T$
  • $(A+B)^T=A^T+B^T$

7.1.4. 矩阵与向量相乘

矩阵和向量相乘,结果如下:
$$
A\pmb x = \begin{pmatrix}
a_{11}&a_{12}&\cdots&a_{1n}\\
a_{21}&a_{22}&\cdots&a_{2n}\\
\vdots&\vdots&\ddots&\vdots\\
a_{m1}&a_{m2}&\cdots&a_{mn}
\end{pmatrix}
\begin{pmatrix}
x_1\\x_2\\\vdots\\x_n
\end{pmatrix}=
\begin{pmatrix}
a_{11}x_1+a_{12}x_2+\cdots+a_{1n}x_n\\
a_{21}x_1+a_{22}x_2+\cdots+a_{2n}x_n\\
\vdots\\
a_{m1}x_1+a_{m2}x_2+\cdots+a_{mn}x_n
\end{pmatrix}
$$
从行的角度来看矩阵和向量相乘:从行的角度看,矩阵$A$和向量$x$相乘,其结果是矩阵的$A$的每一行与向量$x$做点积的结果

从列的角度来看矩阵和向量相乘:从列的角度看,矩阵$A$和向量$x$相乘,相当于对矩阵A的列向量做了一次线性组合

无论从行角度还是列角度, 矩阵$A$的列数要与向量$ x $的维数相同

矩阵和向量相乘的性质:

$A$和$B$均为$m\times n$矩阵,$u$和$v$为$\mathbb R^n$上的向量,$c$为一个标量,则有

  • $A(u+v)=Au+Av$
  • $A(cu)=c(Au)=(cA)u$
  • $(A+B)u=Au+Bu$
  • $A\pmb 0$为$m\times 1$的零向量
  • $\pmb 0v$也为$m\times 1$的零向量
  • $I_nv=v$

如果$A$和$B$都是$m\times n$的矩阵,对所有的$w$,如果都有$Aw=Bw$,那么$A=B$

7.1.5. 线性方程组解的存在性

线性方程组

对于一个线性方程组,我们可以写成矩阵和向量相乘的形式:
$$
Ax=b
$$
对于一个线性方程组,其解的情况可能是无解,有唯一解或者有无穷多个解。我们把所有的解的集合称为解集

如果线性方程组有解,我们就称其为相容的;若无解,则称为不相容的

线性组合

线性组合是一个操作,将各个向量缩放之后,相加在一起,就得到了参与操作的向量之间的线性组合

给定向量集合$\{u_1,u_2,\cdots,u_k\}$,线性组合表示为:$v=c_1u_1+c_2u_2+\cdots+c_ku_k$

线性方程组的问题可以转变成:$ b$是否可以表示成$A$中列向量的线性组合?

张成的空间Span

对于一个向量集$S$,其向量的所有线性组合组成的向量集$V$,称为$\mathrm{Span}(S)$,也被称为$S$张成的空间

线性方程组的问题可以转变成:向量$b$是否在$A$的列向量所张成的空间中?

7.1.6. 线性方程组解的数量

线性相关与线性无关

给定一个向量集,如果其中一个向量可以表示成其余向量的线性组合,那么我们就说这组向量是线性相关的。值得注意的是,零向量是任意向量的线性组合,因此只要包含零向量的向量集,都是线性相关的

线性相关还有另一种定义,即可以找到一组非全零的标量,使得线性组合为零向量

与之相对应,如果无法找到一组非全零的标量,使得线性组合得到零向量,那么这组向量就是线性无关的

判断向量集是线性无关还是线性相关,其实就是看一个齐次方程有无非零解

由此,对于$Ax=b$,我们可以得到两个结论:如果$A$的列是线性相关的,且$Ax=b$有解,那么,它有无穷多个解;如果$Ax=b$有无穷多个解,那么$A$的列是线性相关的

矩阵的秩定义为线性无关的列的最大数目

矩阵的零化度是矩阵的列数减去矩阵的秩

对于一个$m\times n$的矩阵,其秩为$n$的话,它的列是线性无关的

7.1.7. 线性方程组的求解

初等行变换

如果两个线性方程组的解集是相同的,我们就称它们是等价的

对线性方程组做以下三种操作可以得到等价的方程组(即初等行变换):

  1. 交换两行
  2. 对其中一行变为$k$倍
  3. 将一行的$k$倍加到另一行上

增广矩阵:将$A$和$b$进行横向拼接:
$$
\begin{pmatrix}
A&|&b
\end{pmatrix}=
\begin{pmatrix}
a_{11}&a_{12}&\cdots&a_{1n}&b_1\\
a_{21}&a_{22}&\cdots&a_{2n}&b_2\\
\vdots&\vdots&\ddots&\vdots&\vdots\\
a_{m1}&a_{m2}&\cdots&a_{mn}&b_m
\end{pmatrix}
$$
通过初等行变换,如果我们能够将增广矩阵转换为一个相对简单的形式,那么我们可以很快的得出最终的解

简化行阶梯形式

行阶梯形式满足两个条件:

  1. 非零行要在全零行的上面
  2. 其先导元素(每行的第一个非零元素)按阶梯型排列

如果行阶梯形式先导元素所在的列都是标准向量的话,那么它就是简化行阶梯形式

根据简化行阶梯形式,我们很容易得到线性方程组的解的形式。如果简化行阶梯形式是$[I:b']$的,那么线性方程组有唯一解

对于有无穷多个解的情况,包含先导元素的标准向量,其对应的变量也称为基本变量,其他的称为自由变量

通过将增广矩阵化简为简化行阶梯形式,进而求解线性方程组解的方法,称之为高斯消元法

简化行阶梯形式的性质:

  1. 化简为简化行阶梯型形式之后,列之间的关系不变

  2. 先导元素所在的列(主列)线性无关,其他列是这些列的线性组合

  3. 矩阵的秩等于主列的个数,等于简化行阶梯形式里非0行的个数

  4. 当$m\times n$的矩阵$A$的秩为$m$时,方程组$Ax=b$恒有解

    对于增广矩阵来说,如果变为简化行阶梯型后先导元素出现在了最后一列,则无解

推论:
$$
\mathrm{Rank}(A)\leq \min(N_{col},N_{row})
$$
继续推论:

  • 对于$m\times n$的矩阵$A$,如果$m<n$,那么矩阵$A$的列一定是线性相关的
  • 在$\mathbb R^m$空间中,无法找到多于$m$个线性无关的向量

满秩

如果$m\times n$的矩阵的秩为$n$或$m$,那么说该矩阵为满秩

若矩阵秩等于行数,称为行满秩;若矩阵秩等于列数,称为列满秩。

既是行满秩又是列满秩则为$n$阶矩阵即$n$阶方阵。

行满秩矩阵就是行向量线性无关,列满秩矩阵就是列向量线性无关;所以如果是方阵,行满秩矩阵与列满秩矩阵是等价的

7.1.8. 矩阵乘法

矩阵乘法的含义

给定两个矩阵$A$和$B$,其相乘结果中的元素$(i,j)$是矩阵$A$的第$i$行和矩阵$B$的第$j$列的内积,因此,矩阵$A$的列数一定要个矩阵$B$的行数相等

矩阵乘法可以看作是两个线性方程的组合

矩阵乘法的性质

  1. $AB<>BA$
  2. $(AB)^T=B^TA^T$
  3. 其他性质
    • $s(AC)=(sA)C=A(sC)$
    • $(A+B)C=AC+BC$
    • $C(P+Q)=CP+CQ$
    • $I_kA=A=AI_m$

分块矩阵乘法

分块矩阵相乘和普通矩阵相同

7.1.9. 逆矩阵

逆矩阵的定义

一个矩阵是可逆的,必须满足两个条件,首先要是方阵,其次是可以找到另一个方阵$B$,使得$AB=I$

并非所有方阵均可逆。一个矩阵的逆矩阵是唯一的

逆矩阵的求解

如果一个方阵是可逆的,那么它的简化行阶梯形式是单位矩阵,所以我们可以使用初等行变换来得到一个矩阵的逆

7.1.10. 行列式

行列式的几何意义

在二维平面中,矩阵行列式的绝对值代表一个平行四边形的面积

在三维空间中,矩阵行列式的绝对值代表一个平行六面体的体积

行列式的性质

  1. 单位矩阵的行列式为1
  2. 交换任意的两行,行列式变号
  3. 对任意一行来说,行列式是线性的
  4. 如果行列式有两行相等或者是倍数关系,行列式值为0
  5. 对角矩阵的行列式等于对角线上元素的乘积
  6. 如果一个方阵的行列式不为0,那么它是可逆的,反之,如果一个方阵可逆,那么它的行列式不为0
  7. $\det(AB)=\det(A)\det(B)$
  8. 矩阵转置的行列式与原矩阵相同

行列式的计算

余子式:一个矩阵的任意一个元素$a_{ij}$都有对应的余子式,它就是将第$i$行和第$j$列划掉之后所得到的矩阵的行列式,用$\det(A_{ij})$表示:

代数余子式:$c_{ij}=(-1)^{i+j}\det(A_{ij})$

行列式计算:
$$
\begin{aligned}
\det A&=\sum_{i=1}^na_{ij}c_{ij}\quad(j=1,2,\cdots,n)\\\\
&=\sum_{j=1}^na_{ij}c_{ij}\quad (i=1,2,\cdots,n)
\end{aligned}
$$
对于一个方阵的行列式,它是$n!$项的和($n!$是$n$个元素的全排列的个数),对于每一项,它是从每一行选择一个元素进行相乘,而这些元素分别属于不同列

伴随矩阵:每个元素是原矩阵中该位置元素的代数余子式
$$
C=\begin{pmatrix}
c_{11}&\cdots&c_{1n}\\
\vdots&\ddots&\vdots\\
c_{n1}&\cdots&c_{nn}
\end{pmatrix}
$$
可以进一步通过伴随矩阵和行列式值来计算矩阵的逆:
$$
A^{-1}=\frac{1}{\det A}C^T
$$

7.1.11. 子空间

子空间

如果一个向量集合$V$满足三个条件:

  1. 包含零向量
  2. 如果$u$和$v$属于$V$,那么$u+v$也属于$V$
  3. 如果$u$属于$V$, $c$是一个标量,那么$cu$也属于$V$。就称这个向量集合$V$为子空间

零空间

对于一个矩阵$A$来说,使得$Ax=0$的所有$x$所组成的集合被称为矩阵$A$的零空间

列空间

列空间是矩阵$A$的列所张成的空间

行空间

行空间是矩阵$A$的行所张成的空间

7.1.12. 基

基的定义

假设$V$是$\mathbb R^n$的一个子空间,能够张成空间$V$的一组线性无关的向量被称为基

对于一个矩阵来说,其主列是其列空间的基

基的特性

  • 基是一个能张成空间$V$的数量最小的向量集合
  • 基是空间中数量最多的线性无关的向量集合
  • 子空间中任意的两组基都包含相同数目的向量
  • 子空间$V$的基的向量的数量被称为$V$的维度

7.1.13. 坐标系

使用基表示向量

在$n$维空间中,可以使用基向量来表示坐标系,这样空间中的任意向量的坐标都确定了,但是对于同一向量,使用不同的坐标系,其坐标是不同的

同理,在不同坐标系下,同一个坐标所代表的向量也不同

当基确定时,一个向量的坐标也是唯一的,由于基之间是线性无关的

坐标系的转换

设空间$V_1$的基为$u=\{u_1,u_2,\cdots,u_n\}$,空间$V_2$的基为$e=\{e_1,e_2,\cdots,e_n\}$,存在关系$u=Ee$,若有向量$v$在$V_1$空间内坐标为$(\alpha_1,\alpha_2,\cdots,\alpha_n)$,在$V_2$空间内坐标为$(\beta_1,\beta_2,\cdots,\beta_n)$

则有:
$$
v=\sum_{i=1}^n\alpha_iu_i=\sum_{i=1}^n\beta_ie_i
$$
即:
$$
\begin{aligned}
v&=
\begin{pmatrix}
\alpha_1&\alpha_2&\cdots&\alpha_n
\end{pmatrix}
\begin{pmatrix}
u_1\\u_2\\\vdots\\u_n
\end{pmatrix}\\
&=\begin{pmatrix}
\alpha_1&\alpha_2&\cdots&\alpha_n
\end{pmatrix}E
\begin{pmatrix}
e_1\\e_2\\\vdots\\e_n
\end{pmatrix}\\
&=\begin{pmatrix}
\beta_1&\beta_2&\cdots&\beta_n
\end{pmatrix}
\begin{pmatrix}
e_1\\e_2\\\vdots\\e_n
\end{pmatrix}
\end{aligned}
$$
因此有:
$$
\alpha E=\beta
$$

7.2. 矩阵论

7.2.1. 特征值和特征向量

一个直角坐标系下的向量$v$, 其在另一个坐标系下的坐标表示为$[v]_{\mathcal B}$,这个$B$是该坐标系下的基所做成的矩阵,所说矩阵可以表示一种线性变换,它将一个向量在直角坐标系下的坐标表示转换为另一坐标系下的坐标表示

任意非零向量都可以张成一条直线,有的向量在一个矩阵$A$作用后,偏离了其所张成的空间;但有的向量在矩阵$A$作用后,还是在原有张成的空间,矩阵$A$只是对该向量起到了一定的伸缩作用,那么就说该向量是矩阵$A$的特征向量,而这个伸缩作用的大小就称为特征值

设矩阵$A$的特征向量为$\pmb v$,特征值为$\lambda$,则
$$
A\pmb v=\lambda\pmb v
$$
特征向量的计算

而某一特征值$λ$的特征空间定义为
$$
(A-\lambda I)v=0
$$
的解集。

使用特征多项式进行求解:
$$
\det(A-\lambda I_n)=0
$$
如果一个$n$阶方阵有$n$个特征值(包括重复值),那么这$n$个特征值的的和等于矩阵的迹(即矩阵主对角线的元素之和),同时,这$n$个特征值的乘积等于矩阵的行列式

一个特征值对应的特征空间的维度,小于等于该特征值重复出现的次数

正定矩阵和半正定矩阵

如果一个矩阵的所有特征值都大于0,那么这个矩阵被称为正定矩阵

如果特征值都大于等于0,则称为半正定矩阵

7.2.2. 对角化

可对角化

如果一个$n$阶方阵$A$可以变为$A=PDP^{-1}$,其中$D$是$n$阶对角矩阵, $P$是$n$阶可逆方阵,那么$A$就是可对角化的

并非所有的矩阵都可以进行对角化

如果$A$是可对角化的,那么$P$中的列向量是$A$的特征向量, $D$中对角线元素是$A$的特征值

可对角化的性质

  1. 不同特征值对应的特征向量之间线性无关
  2. 如果一个矩阵$A$可对角化,那么其特征值对应的特征空间的维度,等于该特征值重复出现的次数
  3. 如果一个矩阵$A$可对角化,那么$A^m=PD^mP^{-1}$

7.2.3. 正交

范数和距离

范数表示矩阵的长度,其中最常用的是二范数:
$$
\|v\|=\sqrt{v_1^2+v_2^2+\cdots+v_n^2}
$$
点积和正交

点积计算如下:
$$
u\cdot v=\sum_{i=1}^nu_iv_i=\pmb u^T\pmb v
$$
如果两个向量的点积是0,则两个向量是正交的

零向量和任何向量都是正交的

点积的性质:

设$u$和$v$为向量,$A$为矩阵,$c$为标量

  • $u\cdot u=\|u\|^2$
  • 当且仅当$u=0$时,$u\cdot u=0$
  • $u\cdot v=v\cdot u$
  • $u\cdot(v+w)=u\cdot v+u\cdot w$
  • $(cu)\cdot v=c(u\cdot v)=u\cdot(cv)$
  • $\|cu\|=\|c\|\|u\|$

同时,如果两个向量是正交的,那么有$\|u+v\|=\|u\|^2+\|v\|^2$

对任意两个向量,则有:
$$
\|u+v\|\leq\|u\|+\|v\|
$$

7.2.4. 向量的内积

对复数域中的$n$维向量的内积定义为:

设$x=(\xi_1,\xi_2,\cdots,\xi_n)^T\in C^n$,$y=(\eta_1,\eta_2,\cdots,\eta_n)^T\in C^n$,则内积计算为:
$$
(x,y)=y^Hx=\sum^n\xi_k\overline \eta_k
$$
内积的性质:

设$x,y,z\in C^n$,$\lambda\in C$,则

  1. $(x,y)=\overline{(x,y)}$
  2. $(\lambda x,y)=\lambda(x,y)$,$(x,\lambda y)=\overline \lambda(x,y)$
  3. $(x+y,z)=(x,z)+(y,z)$,$(x,y+z)=(x,y)+(x,z)$
  4. $(x,x)\geq 0$,当且仅当$x=0$时有$(x,x)=0$
  5. Cauchy-Schwarz不等式:$(x,y)(y,x)\leq(x,x)(y,y)$

利用内积可以定义向量的长度和正交:

设$x=(\xi_1,\xi_2,\cdots,\xi_n)^T\in C^n$,$y=(\eta_1,\eta_2,\cdots,\eta_n)^T\in C^n$,令
$$
\|x\|_ 2=\sqrt{(x,x)}=\sqrt{\sum_{k=1}^n|\xi_k|^2}
$$
称$\|x\|_2$为向量$x$的长度或2范数

设$\lambda\in C$,则

  1. 当$x\neq 0$时,$\|x\|_2>0$,当$x=0$时,$\|x\|_2=0$
  2. $\|\lambda x\|_2=|\lambda|\cdot\|x\|_2$
  3. $\|x+y\|_2\leq \|x\|_2+\|y\|_2$

酉矩阵

两两正交的非零向量组一定线性无关

设$A\in C^{n\times n}$,若$A$满足$A^HA=I$或$A^{-1}=A^H$,则称$A$为酉矩阵

设$A,B\in C^{n\times n}$

  1. 若$A$是酉矩阵,则$A^{-1}$也是酉矩阵
  2. 若$A,B$是酉矩阵,则$AB$也是酉矩阵
  3. 若$A$是酉矩阵,则$|\det A|=1$
  4. $A$是酉矩阵的充要条件是:它的$n$个列向量是两两正交的单位向量

7.2.5. 酉相似下的标准型

设$A\in C^{n\times n}$,则$A$可酉相似于上三角矩阵$T$,即存在$n$阶酉矩阵$U$,使得
$$
U^{-1}AU=U^HAU=T
$$
设$A\in C^{n\times n}$,若$A$满足$A^HA=AA^H$,则称$A$为正规矩阵

正规矩阵酉相似于对角阵

酉矩阵,正交阵, Hermite阵($A=A^H$), 实对称阵, 反Hermite阵,实反对称阵,对角阵等都是正规矩阵

正规阵的性质:

  1. Hermite矩阵的特征值均为实数,反Hermite矩阵的特征值为零或纯虚数
  2. 实对称矩阵的特征值均为实数,实反对称矩阵的特征值为零或纯虚数
  3. 设$A\in C^{n\times n}$是正规矩阵,$\lambda$是$A$的特征值,$x$是对应$\lambda$的特征向量,则$\overline\lambda$是$A^H$的特征值,$A^H$的对应$\lambda$的特征向量仍为$x$
  4. 正规矩阵的属于不同特征值的特征向量彼此正交

正定矩阵的推广——Hermite正定矩阵:

设$A\in C^{n\times n}$是Hermite矩阵,如果对于任意$0\neq x\in C^n$都有
$$
x^HAx>0\quad(x^HAx\geq 0)
$$
则称$A$是Hermite正定矩阵(半正定矩阵)

设$A\in C^{n\times n}$是Hermite矩阵,则下列条件等价:

  1. $A$是Hermite正定矩阵
  2. $A$的特征值全为正实数
  3. 存在矩阵$P\in C_n^{n\times n}$,使得$A=P^HP$

推论:Hermite正定矩阵的行列式大于零

设$A\in C^{n\times n}$是Hermite矩阵,则下列条件等价:

  1. $A$是Hermite半正定矩阵
  2. $A$的特征值全为非负实数
  3. 存在矩阵$P\in C_n^{n\times n}$,使得$A=P^HP$

设$A\in C^{m\times n}$,则

  1. $A^HA$和$AA^H$的特征值全为非负实数
  2. $A^HA$和$AA^H$的非零特征值相同
  3. $\mathrm{rank}(A^HA)=\mathrm{rank}(AA^H)=\mathrm{rank}(A)$

设$A\in C^{n\times n}$是Hermite矩阵,则$A$是Hermite正定矩阵的充要条件是$A$的各阶顺序主子式均为正

7.2.6. 张量积

张量积的定义为:给定两个有限维的向量空间$V$和$W$,其中,$\vec v_1,\cdots,\vec v_m$为向量空间$V$的基,$\vec w_1,\cdots,\vec w_n$为向量空间$W$的基,则可将$V\otimes W$定义为$mn$个$\vec v_i\otimes\vec w_j$的线性组合,即
$$
V\otimes W=\sum_{i,j}c_{ij}(\vec v_i\otimes\vec w_j)
$$
双线性映射定义为:
$$
B:V\times W\rightarrow V\otimes W
$$
其中,
$$
B\left(\sum_ia_i\vec v_i,\sum_j b_j\vec w_j\right)=\sum_{i,j}a_ib_j(\vec v_i\otimes\vec w_j)
$$

$$
\pmb a\otimes \pmb b=\begin{pmatrix}
a_1\\a_2\\\vdots\\a_n
\end{pmatrix}
\begin{pmatrix}
b_1&b_2&\cdots&b_n
\end{pmatrix}
$$

7.2.7. 奇异值分解

一个$m\times n$的矩阵$A$可以分解为一个$m$阶的正交矩阵,一个$m\times n$的对角矩阵和一个$n$阶的正交矩阵:
$$
A_{m\times n}=U_{m\times m}\Sigma_{m\times n} V_{n\times n}^T
$$
奇异值通常用于降维,不需要所有的奇异值来描述矩阵,而是通过少数的几个比较大的奇异值就可以,即:
$$
A_{m\times n}=U_{m\times k}\Sigma'_{k\times k}V'^T_{k\times n}
$$

7.2.8. 对易式和反对易式

两个算符$A$和$B$的对易式定义为:
$$
[A,B]\equiv AB-BA
$$
如果$[A,B]=0$,则称$A$和$B$是对易的

相似地,定义反对易式:
$$
\{A,B\}\equiv AB+BA
$$
如果$\{A,B\}=0$,则称$A$和$B$是反对易的

8. 线性代数与矩阵论:应用

8.1. 量子计算

8.1.1. 量子信息和量子计算

量子信息的基本存储单元及其特性

经典信息的基本存储单元:比特(bit),可以由经典状态1和0(如电压的高低)表示

量子信息的基本存储单元:量子比特(qubit),一个量子比特的状态是一个二维复数空间的向量,它的两个极化状态$|0\rangle$和$|1\rangle$对应于经典状态的0和1
$$
\begin{matrix}
|0\rangle = \begin{pmatrix}1\\0\end{pmatrix}&
|1\rangle = \begin{pmatrix}0\\1\end{pmatrix}
\end{matrix}
$$
一个量子比特能够处于既不是$|0\rangle$又不是$|1\rangle$的状态上,而是处于$|0\rangle$和$|1\rangle$的一个线性组合的叠加态上:
$$
|\psi\rangle=a|0\rangle+b|1\rangle=\begin{pmatrix}a\\b\end{pmatrix}
$$
$n$个量子比特的状态:
$$
|\psi\rangle = |\psi\rangle_1|\psi\rangle_2\cdots|\psi\rangle_n=|1,2,\cdots,n\rangle
$$
叠加原理

$|0\rangle$和$|1\rangle$是薛定谔方程不同时刻的两个解,根据偏微分方程性质,$|0\rangle$和$|1\rangle$的任意线性组合也是薛定谔方程在某时刻的解,因此单量子比特可以由
$$
|\psi\rangle=a|0\rangle+b|1\rangle
$$
表示,又由于$|\psi\rangle$的模平方被要求为1,因此系数的模平方和也为1

8.1.2. 量子比特

量子比特在二维平面中的表示

image-20220113163450830

量子比特在三维空间中的表示

Bloch Sphere(布洛赫球)
$$
|\psi\rangle = \cos(\theta/2)|0\rangle+e^{i\phi}\sin(\theta/2)|1\rangle=|\pmb n\rangle
$$
image-20220113163558448

球面上方向相反的两个矢量为正交关系

证明:

正向:$|\psi\rangle = \cos\frac{\theta}{2}|0\rangle+e^{i\phi}\sin\frac{\theta}{2}|1\rangle$

反向:$|\psi'\rangle = \cos\frac{\pi-\theta}{2}|0\rangle+e^{i(\phi+\pi)}\sin\frac{\pi-\theta}{2}|1\rangle$

内积:
$$
\begin{aligned}
\langle\psi|\psi'\rangle&=
\begin{pmatrix}
\cos\frac{\theta}{2}&e^{-i\phi}\sin\frac{\theta}{2}
\end{pmatrix}
\begin{pmatrix}
\cos\frac{\pi-\theta}{2}\\e^{i(\phi+\pi)}\sin\frac{\pi-\theta}{2}
\end{pmatrix}\\
&=\cos\frac{\theta}{2}\cos\frac{\pi-\theta}{2}+e^{i\pi}\sin\frac{\theta}{2}\sin\frac{\pi-\theta}{2}\\
&=\cos(\frac{\theta}{2}+\frac{\pi-\theta}{2})\\
&=\cos\frac{\pi}{2}=0
\end{aligned}
$$

量子比特的内积计算
$$
\langle w,v\rangle=\langle w|v\rangle=\langle v|w\rangle^\ast=\sum_{i=0}^{N-1}w_i^\ast v_i
$$
单位比特:$\langle v|v\rangle=1$

量子比特的Cauchy-Schwarz定理

对两个量子比特$|\alpha\rangle$和$|\beta\rangle$,有:
$$
|\langle \alpha|\beta\rangle|^2\leq \langle\alpha|\alpha\rangle\langle\beta|\beta\rangle
$$
引理:令$c$为复数,则$|c\beta\rangle=c|\beta\rangle$,$\langle c\beta|=c^\ast\langle \beta|$

8.1.3. 量子算符

量子计算中几种常用的矩阵及其性质:

  1. 厄米Hermitian矩阵:$A=A^H$
  2. 幺正矩阵(酉矩阵):$UU^H=I$
  3. 正规矩阵:$AA^H=A^HA$
  4. 正交矩阵:$AA^T=I$

其他性质:

  1. 厄米矩阵的本征值都是实数
  2. 厄米矩阵的本征矢构成希尔伯特空间中的一组正交归一基
  3. 厄米矩阵的对角元均为实数
  4. 幺正矩阵保持两个矢量之间的内积不变
  5. 泡利阵$X$、$Y$和$Z$既是厄米的,也是幺正的
  6. 当且仅当一个矩阵的行和列是正交归一的,它才是幺正的
  7. 正交矩阵在复空间中所有的特征值的绝对值都是1,即其特征值要么是1,要么是-1
  8. 酉矩阵的所有特征值的模都是1
  9. 当且仅当一个矩阵是正规的,它才是可对角化的且具有正交归一的本征基矢
  10. 正规矩阵$A$和$B$是对易的,当且仅当存在一套正交归一基矢,使得$A$和$B$在其上为对角的

8.1.4. 量子力学基本假设

一个量子系统上的测量有一些结果集$M$,量子测量是由一个测量算子$\{P_m:m\in M\}$的集合来描述的

对量子态$|\psi\rangle$测量结果为$m$的概率为:
$$
p(m)=\langle\psi|P^H_mP_m|\psi \rangle
$$
在测量结束后,量子态坍塌为:
$$
\frac{P_m|\psi\rangle}{\sqrt{\langle\psi|P^H_mP_m|\psi\rangle}}
$$
所有的测量算子应满足完备性方程:
$$
\sum_{m\in M}P^H_mP_m=I
$$
保证了所有测量结果概率和为1:
$$
\sum_mp(m)=\sum_m\langle\psi|P^H_mP_m|\psi \rangle=\langle\psi|I|\psi\rangle=1
$$
一般性测量的等价简洁形式:

如果用一组基$|0\rangle,|1\rangle,\cdots,|n-1\rangle$来测量某一量子态$|\psi\rangle$,那么测量结果为$|j\rangle$的概率为$|\langle j|\psi\rangle|^2$,量子态在测量后变为$|j\rangle$

复合物理系统的状态空间是各个组成物理系统状态空间的张量积

如果一个空间处于状态$|\psi_1\rangle$,另一个处于状态$|\psi_2\rangle$,那么这个复合系统的状态处于$|\psi_1\rangle\otimes|\psi_2\rangle$

并不是所有复合物理系统都可以用张量积来表示

张量积

$U$是一个$m$维向量空间,$V$是一个$n$维的向量空间,则$U\otimes V$是一个$mn$维向量空间,定义$U\otimes V$空间内的向量为$|uv\rangle$

  • $|(u+u')v\rangle=|uv\rangle+|u’v\rangle$
  • $|u(v_v')\rangle=|uv\rangle+|uv'\rangle$
  • $z|uv\rangle=|(zu)v\rangle=|u(zv)\rangle$

对于酉算子$A:U\rightarrow U$和$B:V\rightarrow V$,定义算子$A\otimes B$是作用在空间$U\otimes V$的算子:
$$
(A\otimes B)|uv\rangle = |(Au),(Bv)\rangle
$$
张量积的矩阵形式:
$$
A\otimes B=\begin{pmatrix}
A_{11}B&A_{12}B&\cdots&A_{1m}B\\
A_{21}B&A_{22}B&\cdots&A_{2m}B\\
\vdots&\vdots&\ddots&\vdots\\
A_{m1}B&A_{m2}B&\cdots&A_{mm}B
\end{pmatrix}
$$
**纠缠态**

若一个系统不可分,那么它是纠缠的
$$
\frac{1}{\sqrt 2}(|10\rangle+|01\rangle)\quad \mathrm{and}\quad
\frac{1}{\sqrt 2}(|00\rangle+|11\rangle)
$$
注:物理分离并不意味着可分。两个物理分离的粒子仍然可以纠缠在一起

迹为矩阵对角线元素之和
$$
\begin{aligned}
\mathrm{tr}(A)&=\sum_{i=0}^{N-1}A_{i,i}\\\\
\mathrm{tr}(A+B)&=\mathrm{tr}(A)+\mathrm{tr}(B)\\\\
\mathrm{tr}(AB)&=\sum_{i,j=0}^{N-1}A_{i,j}B_{j,i}=\mathrm{tr}(BA)
\end{aligned}
$$
假设$H$为厄米矩阵,则有$H=U^HDU$,其中$D$为对角阵
$$
\mathrm {tr}(H)=\mathrm{tr}(U^HDU)=\mathrm{tr}(UU^HD)=\mathrm{tr}(D)=\sum_{i=0}^{N-1}\lambda_i
$$
重要性质:$\mathrm{tr}(A|\varphi\rangle\langle\varphi|)=\langle \varphi|A|\varphi\rangle$

证明:令$A|\varphi\rangle=|\omega\rangle$,$|\varphi\rangle=\begin{pmatrix}\varphi_1\\\varphi_2\\\vdots\\\varphi_n\end{pmatrix}$,$|\omega\rangle=\begin{pmatrix}\omega_1\\\omega_2\\\vdots\\\omega_n\end{pmatrix}$,则
$$
\begin{aligned}
\mathrm{tr}(A|\varphi\rangle\langle\varphi|)
&=\mathrm{tr}(|\omega\rangle\langle\varphi|)\\\\
&=\mathrm{tr}\left(\begin{pmatrix}\omega_1\\\omega_2\\\vdots\\\omega_n\end{pmatrix}\begin{pmatrix}\varphi_1^\ast&\varphi_2^\ast&\cdots&\varphi_n^\ast\end{pmatrix}
\right)\\\\
&=\sum_{i=1}^n\omega_i\varphi_i^\ast\\\\
&=\langle\varphi|\omega\rangle=\langle\varphi|A|\varphi\rangle
\end{aligned}
$$

8.1.5. 量子门

单量子比特门——Pauli门
$$
\begin{matrix}
X=\begin{pmatrix}0&1\\1&0\end{pmatrix}&
Y=\begin{pmatrix}0&-i\\i&0\end{pmatrix}&
Z=\begin{pmatrix}1&0\\0&-1\end{pmatrix}&
\end{matrix}
$$
对于$X$门
$$
\begin{aligned}
X|0\rangle &= |1\rangle\\\\
X|1\rangle&=|0\rangle
\end{aligned}
$$
对于$Y$门
$$
\begin{aligned}
Y|0\rangle&=i|1\rangle\\\\
Y|1\rangle&=-i|0\rangle
\end{aligned}
$$
对于$Z$门
$$
\begin{aligned}
Z|0\rangle&=|0\rangle\\\\
Z|1\rangle&=-|1\rangle
\end{aligned}
$$
泡利阵总结

泡利阵记号 别名 矩阵表示 谱分解 作用
$I,\sigma_0$ $\begin{pmatrix}1&0\\0&1\end{pmatrix}$ $|0\rangle\langle0|+|1\rangle\langle1|$ 恒等变换
$X,\sigma_X,\sigma_1$ 非门 $\begin{pmatrix}0&1\\1&0\end{pmatrix}$ $|+\rangle\langle+|-|-\rangle\langle-|$ $|0\rangle\rightarrow|1\rangle,\\ |1\rangle\rightarrow|0\rangle$
$Y,\sigma_Y,\sigma_2$ $\begin{pmatrix}0&-i\\i&0\end{pmatrix}$ $|p\rangle\langle p|-|q\rangle\langle q|$,其中,$|p\rangle=\frac{|0\rangle+i|1\rangle}{\sqrt{2}}=\frac{1}{\sqrt{2}}\begin{pmatrix}1\\i\end{pmatrix}$,$|q\rangle=\frac{|0\rangle-i|1\rangle}{\sqrt{2}}=\frac{1}{\sqrt{2}}\begin{pmatrix}1\\-i\end{pmatrix}$ $i\sigma_y$的作用:$|0\rangle\rightarrow-|1\rangle$,$|1\rangle\rightarrow|0\rangle$
$Z,\sigma_Z,\sigma_3$ $\begin{pmatrix}1&0\\0&-1\end{pmatrix}$ $|0\rangle\langle0|-|1\rangle\langle1|$ $|0\rangle\rightarrow|0\rangle$,$|1\rangle\rightarrow-|1\rangle$

谱分解

谱:本征值的集合
$$
A=\sum_{j=0}^{N-1}\lambda_j|\mu_j\rangle\langle\mu_j|
$$
其中$|\mu_j\rangle$是矩阵$A$的第$j$个本征矢,对应的本征值为$\lambda_j$,易得:
$$
A^{-1}=\sum_{j=1}^{N-1}\frac{1}{\lambda_j}|\mu_j\rangle\langle\mu_j|
$$

单量子比特门——H门

$$
H=\frac{1}{\sqrt{2}}\begin{pmatrix}1&1\\1&-1\end{pmatrix}
$$
有:
$$
\begin{aligned}
H|0\rangle&=\frac{|0\rangle+|1\rangle}{\sqrt 2}\\
H|1\rangle&=\frac{|0\rangle-|1\rangle}{\sqrt{2}}
\end{aligned}
$$
注意到$H^2=I$,$H$门将经典比特转化为量子比特叠加态

经常会将$H$门应用到多个量子位的情况:

image-20220113203619166
$$
|0,\cdots,0\rangle\rightarrow\frac{1}{\sqrt{2^n}}\sum_{x\in\{0,1\}^n}|x\rangle
$$

多量子比特门——CONT门

image-20220113203806250

$$
C=\begin{pmatrix}
1&0&0&0\\
0&1&0&0\\
0&0&0&1\\
0&0&1&0
\end{pmatrix}
$$
当第一个量子比特为1时,将会翻转第二个量子比特;当第一个量子比特为0时,维持第二个量子比特不变

image-20220113204021114

H门+CONT门

image-20220113204155709
$$
\begin{aligned}
|0,0\rangle\rightarrow&\frac{1}{\sqrt 2}(|0,0\rangle+|1,1\rangle)=|\Phi^+\rangle\\\\
|0,1\rangle\rightarrow&\frac{1}{\sqrt 2}(|0,1\rangle+|1,0\rangle)=|\Psi^+\rangle\\\\
|1,0\rangle\rightarrow&\frac{1}{\sqrt 2}(|0,0\rangle-|1,1\rangle)=|\Phi^-\rangle\\\\
|1,1\rangle\rightarrow&\frac{1}{\sqrt 2}(|0,1\rangle-|1,0\rangle)=|\Psi^-\rangle\\\\
\end{aligned}
$$

8.1.6. 量子不可克隆定理

不存在有效量子操作将任意态$|\Psi\rangle$映射至$|\Psi\rangle|\Psi\rangle$

证明:

image-20220113205221901

假设$|\Psi\rangle$和$|\Psi'\rangle$为两个输入状态,期望输出为$|\Psi\rangle|\Psi\rangle$和$|\Psi'\rangle|\Psi'\rangle$

由于$U$具有内积不变性,因此$\langle\Psi|\Psi'\rangle=\langle\Psi|\Psi'\rangle\langle\Psi|\Psi'\rangle$,即$\langle\Psi|\Psi'\rangle(1-\langle\Psi|\Psi'\rangle)=0$,故$|\langle\Psi|\Psi'\rangle|=0$或$|\langle\Psi|\Psi'\rangle|=1$

8.1.7. 量子隐形传态

通过传输两个bit来达到传输一个qubit的目的

  1. Alice和Bob共享一对贝尔态$|\beta_{00}\rangle=(|00\rangle+|11\rangle)/\sqrt 2$。Alice手中有一个量子比特$|\Psi\rangle=\alpha|0\rangle+\beta|1\rangle$
  2. Alice对手中两个量子比特进行贝尔测量,得到四种结果,根据贝尔态顺序得到2bits:00,01,10,11。并通过经典信道传输
  3. Bob根据获得的2bits对手中的量子比特进行Pauli Correction(实施$X^aZ^b$),最后Bob一定获得$\alpha|0\rangle+\beta|1\rangle$

注意:

  • 经典信道传递的信息受光速限制,因此量子隐形传态未超越光速
  • 在隐形传态后,原始态因测量而坍塌,只有目标量子处于状态$|\Psi\rangle=\alpha|0\rangle+\beta|1\rangle$,因此未违反不可克隆定理
  • 量子隐形传态中所传输的态可以是未知的, Alice不需要获取量子态的任何信息

8.2. 最小二乘法

对散点$(x_i,y_i)$,拟合$y=ax+b$,相当于寻找满足:
$$
\begin{cases}
y_1=ax_1+b\\
y_2=ax_2+b\\
\cdots\\
y_n=ax_n+b
\end{cases}
$$
可建立优化模型:
$$
\min_{a,b}f(a,b)=\sum_{i=1}^n(ax_i+b-y_i)^2
$$
对自变量$a$和$b$求导,并令为0,得到:
$$
\begin{cases}
\dfrac{\partial f}{\partial a}=2\sum_{i=1}^n(ax_i+b-y_i)x_i=0\\
\dfrac{\partial f}{\partial b}=2\sum_{i=1}^n(ax_i+b-y_i)=0
\end{cases}
$$
化简得到:
$$
\begin{cases}
a=\dfrac{n\sum_{i=1}^nx_iy_i-\sum_{i=1}^nx_i\sum_{i=1}^ny_i}{n\sum_{i=1}^nx_i^2-\left(\sum_{i=1}^nx_i\right)^2}\\\\
b=\dfrac{1}{n}\sum_{i=1}^ny_i-\dfrac{a}{n}\sum_{i=1}^nx_i
\end{cases}
$$

矩阵解法

记$\pmb x=(x_1,x_2,\cdots,x_n)^T$,$\pmb y=(y_1,y_2,\cdots,y_n)^T$,$\pmb l=(1,1,\cdots,1)^T$

线性模型表示为:
$$
\pmb y=a\pmb x+b\pmb l
$$
进一步,令$\pmb X=\begin{pmatrix}\pmb x&\pmb l\end{pmatrix}$,$\pmb c=(a,b)^T$,则线性模型进一步表示为:
$$
\pmb y=\pmb X\pmb c
$$
优化模型转化为:
$$
\min_{\pmb c}f(\pmb c)=\|\pmb y-\pmb X\pmb c\|^2
$$

对自变量求导,令为0,得到:
$$
f_{\pmb c}'=2\pmb X^T\pmb X\pmb c-2\pmb X^T\pmb y=\pmb 0
$$
求得模型的解为:
$$
\pmb c=(\pmb X^T\pmb X)^{-1}\pmb X^T\pmb y
$$

8.3. 奇异值分解

特征值分解(对称分解)
$$
S=U\Lambda U^{-1}
$$

  • $U$为$S$的特征向量组成的矩阵
  • $\Lambda$为$S$的特征值组成的对角阵$\Lambda=\mathrm{diag}(\lambda_1,\cdots,\lambda_m)$

证明:

设$n\times n$的矩阵$S$的特征值为$\lambda_i$,$i=1,2,\cdots,n$,对应的特征向量为$v_i$,$i=1,2,\cdots,n$,因此有
$$
Sv_i=\lambda_iv_i
$$

$$
U=\begin{pmatrix}
v_1&v_2&\cdots&v_n
\end{pmatrix}\quad
\Lambda=\mathrm{diag}(\lambda_1,\lambda_2,\cdots,\lambda_n)
$$
因此
$$
SU=\begin{pmatrix}
Sv_1&Sv_2&\cdots&Sv_n
\end{pmatrix}=
\begin{pmatrix}
\lambda v_1&\lambda v_2&\cdots&\lambda v_n
\end{pmatrix}
$$

$$
U\Lambda=\begin{pmatrix}
\lambda v_1&\lambda v_2&\cdots&\lambda v_n
\end{pmatrix}
$$

得到$SU=U\Lambda\Rightarrow S=U\Lambda U^{-1}$

对称特征分解

若$S\in\mathbb R^{m\times m}$为对称矩阵,则存在唯一的特征值分解:
$$
S=Q\Lambda Q^T
$$
其中$Q$是正交矩阵

  • $Q^{-1}=Q^T$
  • $Q$的列向量为特征值向量的标准化
  • 列向量正交

奇异值分解

对于一个$m\times n$的矩阵$A$,秩为$r$,则存在特征值分解:
$$
A_{m\times n}=U_{m\times m}\Sigma_{m\times n} V_{n\times n}^T
$$
其中,

  • $U$的列向量为$AA^T$的正交特征向量($UU^T=I$)
  • $V$的列向量为$A^TA$的正交特征向量($VV^T=I$)
  • $AA^T$和$A^TA$的特征值均为$\lambda_1,\lambda_2,\cdots,\lambda_r$,则$\Sigma=\mathrm{diag}(\sigma_1,\cdots,\sigma_r)$,其中$\sigma_i=\sqrt{\lambda_i}$

求解方法:

$A=U\Sigma V^T\Rightarrow A^TA=V\Sigma^T\Sigma V^T$,把$A^TA$对角化即可求得$V$和$\Sigma$

$A=U\Sigma V^T\Rightarrow AV=U\Sigma$,代入$A,V,\Sigma$,对$A$的每一个奇异值,获得$U$的一个列,并将这些列扩充为标准正交基即可获得$U$

奇异值分解的应用

  • 降噪
    • 用矩阵$A$表示带噪声的信号
    • 进行奇异值分解
    • 舍弃$A$的奇异值中的小值

9. 微分和差分

9.1. 微分基础

9.1.1. 函数与极限

函数的定义

设数集$D\subset \mathbb R$,则称映射$f:D\rightarrow\mathbb R$为定义在$D$上的函数,通常记为
$$
y=f(x),x\in D
$$
其中$x$称为自变量,$y$称为因变量,$D$称为定义域,记作$D_f$

函数的特性

  1. 有界性

    设函数$f(x)$的定义域为$D$,数集$X\subset D$。如果存在数$K_1$,使得
    $$
    f(x)\leq K_1
    $$
    对任一 $x\in X$ 都成立,那么称函数$f(x)$在$X$上有上界,而$K_1$称为函数$f(x)$在$X$上的一个上界。如果存在数$K_2$,使得
    $$
    f(x)\geq K_2
    $$
    对任一$x\in X$都成立,那么称函数$f(x)$在$X$上有下界,而$K_2$称为函数$f(x)$在$X$上的一个下界。如果存在正数$M$,使得
    $$
    |f(x)|\leq M
    $$
    对任一$x\in X$都成立,那么称函数$f(x)$在$X$上有界。否则,称函数$f(x)$在$X$上无界

  2. 单调性

    设函数$f(x)$的定义域为$D$,区间$I\subset D$。如果对于区间$I$上的任意两点$x_1$及$x_2$,当$x_1<x_2$时,恒有
    $$
    f(x_1)<f(x_2)
    $$
    那么称函数$f(x)$在区间$I$上是单调增加的;如果对于区间$I$上的任意两点$x_1$及$x_2$,当$x_1<x_2$时,恒有
    $$
    f(x_1)>f(x_2)
    $$
    那么称函数$f(x)$在区间$I$上是单调减少的,单调增加和单调减少的函数统称为单调函数

  3. 奇偶性

    设函数$f(x)$的定义域为$D$关于原点对称。如果对于任一$x\in D$,$f(-x)=f(x)$恒成立,那么称$f(x)$为偶函数。如果对于任一$x\in D$,$f(-x)=-f(x)$恒成立,那么称$f(x)$为奇函数

  4. 周期性

    设函数$f(x)$ 的定义域为$D$。如果存在一个正数$l$,使得对于任一$x\in D$有$(x\pm l)\in D$,且$f(x+l)=f(x)$恒成立,那么称$f(x)$为周期函数,$l$称为$f(x)$的周期,通常我们说周期函数的周期是指最小正周期

极限的定义

当$x\rightarrow x_0$时,设函数$f(x)$在点$x_0$的某一去心邻域内有定义。如果存在常数$A$,对于任意给定的正数$\varepsilon$(无论它多小),总存在整数$\delta$,使得当$x$满足不等式$0<|x-x_0|<\delta$时,对应的函数值$f(x)$都满足不等式$|f(x)-A|<\varepsilon$,那么常数$A$就叫做函数$f(x)$当$x\rightarrow x_0$时的极限,记作$\lim_{x\rightarrow x_0}f(x)=A$

设函数$f(x)$当$x$大于某一正数时有定义。如果存在常数$A$,对于任意给定的正数$\varepsilon$(无论它多小),总存在正数$X$,使得当$x$满足不等式$|x|>X$时,对应的函数值$f(x)$都满足不等式$|f(x)-A|<\varepsilon$,那么常数$A$就叫做函数$f(x)$当$x\rightarrow\infty$时的极限,记作$\lim_{x\rightarrow\infty}f(x)=A$

极限的性质

  1. 函数极限的唯一性:如果$\lim_{x\rightarrow x_0}f(x)$存在,那么这个极限唯一

  2. 函数极限的局部有界性:如果$\lim_{x\rightarrow x_0}f(x)=A$,那么存在常数$M>0$和$\delta>0$,使得当$0<|x-x_0|<\delta$时,有$|f(x)|\leq M$

  3. 函数极限的局部保号性

    如果$\lim_{x\rightarrow x_0}f(x)=A$且$A>0$(或$A<0$),那么存在常数$\delta>0$使得当$0<|x-x_0|<\delta$时,有$f(x)>0$($f(x)<0$)

    推论:如果在$x_0$的某个去心邻域内$f(x)\geq 0$(或$f(x)\leq 0$),且$\lim_{x\rightarrow x_0}f(x=A)$,那么$A\geq 0$(或$A\leq 0$)

9.1.2. 导数与微分

导数的定义

设函数$y=f(x)$在点$x_0$的某个邻域内有定义,当自变量$x$在$x_0$处取得增量$\Delta x$(点$x_0+\Delta x$仍在该邻域内) 时,相应地,因变量取得增量$\Delta y=f(x_0+\Delta x)-f(x_0)$;如果$\Delta y$与$\Delta x$之比当$\Delta x\rightarrow 0$时的极限存在,那么称函数$y=f(x)$在点$x_0$处可导,并称这个极限为函数$y=f(x)$在点$x_0$处的导数,记为$f'(x_0)$,即
$$
f'(x_0)=\lim_{\Delta x\rightarrow 0}\frac{\Delta y}{\Delta x}=\lim_{\Delta x\rightarrow 0}\frac{f(x_0+\Delta x)-f(x_0)}{\Delta x}
$$
也可记作$y'|_{x=x_0}$,$\frac{\mathrm dy}{\mathrm dx}\big|_{x=x_0}$或$\frac{\mathrm df(x)}{\mathrm dx}\big|_{x=x_0}$

导数的几何意义

设曲线$y=f(x)$在点$(x_0,y_0)$的切线斜率为
$$
\tan\alpha=f'(x_0)
$$

  • 若$f'(x_0)>0$,曲线过$(x_0,y_0)$上升
  • 若$f'(x_0)<0$,曲线过$(x_0,y_0)$下降
  • 若$f'(x_0)=0$,切线与$x$轴平行,$x_0$称为驻点
  • 若$f'(x_0)=\infty$,切线与$x$轴垂直

$f'(x_0)\neq \infty$时,曲线在点$(x_0,y_0)$处的

切线方程:$y-y_0=f'(x_0)(x-x_0)$

法线方程:$y-y_0=-\frac{1}{f'(x_0)}(x-x_0)$,$f'(x_0)\neq 0$

基本求导法则

  • $(u\pm v)'=u'\pm v'$

  • $(Cu)'=Cu'$($C$为常数)

  • $(uv)'=u’v+uv'$

  • $(u/v)'=(u’v-uv')/v^2$,$(v\neq 0)$

  • 设$x=f(y)$在区间$I_y$内单调可导且$f'(y)\neq 0$,则它的反函数$y=f^{-1}(x)$在$I_x=f(I_y)$内也可导,且$[f^{-1}(x)]'=1/f'(y)$

  • 设$y=f(u)$,$u=g(x)$且$f(u)$及$g(x)$都可导,则
    $$
    \frac{\mathrm dy}{\mathrm dx}=\frac{\mathrm dy}{\mathrm du}\cdot\frac{\mathrm du}{\mathrm dx}
    $$

    $$
    y'(x)=f'(u)\cdot g'(x)
    $$

高阶导数运算法则

设函数$u=u(x)$和$v=v(x)$均有$n$阶导数,则

  • $(u\pm v)^{(n)}=u^{(n)}\pm v^{(n)}$
  • $(Cu)^{(n)}=Cu^{(n)}$,$C$为常数
  • $(uv)^{(n)}=\sum_{i=0}^{n}C_n^iu^{(i)}v^{(n-i)}$

微分的定义

设函数$y=f(x)$在某区间内有定义,$x_0$及$x+\Delta x$在这区间内,如果函数的增量$\Delta y=f(x_0+\Delta x)-f(x_0)$可表示为$\Delta y=A\Delta x+o(\Delta x)$,其中$A$是不依赖于$\Delta x$的常数,那么称函数$y=f(x)$在点$x_0$是可微的,而$A\Delta x$叫做函数$y=f(x)$在点$x_0$相对于自变量增量$\Delta x$的微分,记作$\mathrm dy$,即:
$$
\mathrm dy=A\Delta x
$$
定理:函数$y=f(x)$在点$x_0$可微的充要条件是$y=f(x)$在点$x_0$处可导,且$A=f'(x_0)$,即$\mathrm dy=f'(x_0)\Delta x$

微分的几何意义:切线纵坐标增量

image-20220113224922376
$$
\mathrm dy=f'(x_0)\Delta x=\tan\alpha\cdot\Delta x
$$
当$\Delta x$很小时,$\Delta y\approx \mathrm dy$

微分运算法则

  • $\mathrm d(u\pm v)=\mathrm du\pm\mathrm dv$
  • $\mathrm d(Cu)=C\mathrm du$
  • $\mathrm d(uv)=v\mathrm du+u\mathrm dv$
  • $\mathrm d(u/v)=(v\mathrm du-u\mathrm dv)/v^2$
  • 设$y=f(u)$,$u=\varphi(x)$分别可微,则复合函数$y=f[\varphi(x)]$的微分为$\mathrm dy=f'(u)\mathrm du$

9.1.3. 常用定理与应用

费马引理

image-20220113225259121

$y=f(x)$在$\bigcup(x_0)$有定义,且$f(x)\leq f(x_0)$(或$f(x)\geq f(x_0)$),$f'(x_0)$存在,则$f'(x_0)=0$

罗尔定理

如果函数$f(x)$满足:

  1. 在闭区间$[a,b]$上连续
  2. 在开区间$(a,b)$内可导
  3. 在区间端点处的函数值相等,即$f(a)=f(b)$

那么在$(a,b)$内至少有一点$\xi(a<\xi<b)$,使得$f'(\xi)=0$

拉格朗日中值定理

如果函数$f(x)$满足:

  1. 在闭区间$[a,b]$上连续
  2. 在开区间$(a,b)$内可导

那么在$(a,b)$内至少有一点$\xi(a<\xi<b)$,使得等式
$$
f(b)-f(a)=f'(\xi)(b-a)
$$
成立。

有限增量形式:

令$a=x_0$,$b=x_0+\Delta x$,则
$$
\Delta y=f'(x_0+\theta\Delta x)\Delta x\quad(0<\theta<1)
$$
推论:若函数$f(x)$在区间$I$上满足$f'(x)\equiv0$,则$f(x)$在区间$I$上必为常数

柯西中值定理

如果函数$f(x)$及$F(x)$满足:

  1. 在闭区间$[a,b]$上连续
  2. 在开区间$(a,b)$内可导
  3. 对任一$x\in(a,b)$,$F'(x)\neq0$

那么在$(a,b)$内至少有一点$\xi(a<\xi<b)$,使得等式
$$
\frac{f(b)-f(a)}{F(b)-F(a)}=\frac{f'(\xi)}{F'(\xi)}
$$
成立

几何意义:

image-20220114085604589

微分中值定理的条件、结论及关系:

image-20220114085657735

函数的极值

必要条件:

设函数$f(x)$在$x_0$处可导,且在$x_0$处取得极值,则$f'(x_0)=0$

极值第一判别法:

设函数$f(x)$在$x_0$处连续,且在$x_0$的某去心邻域内可导,当$x$由小到大通过$x_0$时,

  1. $f'(x)$左正右负,则$f(x)$在$x_0$处取极大值
  2. $f'(x)$左负右正,则$f(x)$在$x_0$处取极小值

极值第二判别法:

设函数$f(x)$在$x_0$处具有二阶导数,且$f'(x_0)=0$,$f''(x_0)\neq0$,

  1. 若$f''(x_0)<0$,则$f(x)$在$x_0$取极大值
  2. 若$f''(x_0)>0$,则$f(x)$在$x_0$取极小值

9.2. 多元微分

9.2.1. 多元函数

多元函数的定义

设非空点集$D\subset \mathbb R^n$,映射$f:D\rightarrow \mathbb R$为定义在$D$上的$n$元函数,通常记为

$$
u=f(x_1,x_2,\cdots,x_n)\quad 或 \quad u=f(P),\quad P\in D
$$

其中点集$D$称为函数的定义域;数集$\{u|u=f(P),P\in D\}$称为函数的值域

特别地,当$n=2$时,有二元函数

$$
z=f(x,y)\quad (x,y)\in D\subset\mathbb R^2
$$

当$n=3$时,有三元函数

$$
u=f(x,y,z)\quad (x,y,z)\in D\subset\mathbb R^3
$$

多元函数的极值

设$n$元函数$f(P)$,$P\in D\subset\mathbb R^n$,$P_0$是$D$的聚点,若存在常数$A$,对任意正数$\varepsilon$,总存在正数$\delta$,对一切$P\in D\cap\mathop U\limits^\circ(P_0,\delta)$都有$|f(P)-A|<\varepsilon$,则称$A$
为函数$f(P)$当$P\rightarrow P_0$时的极限,记作

$$
\lim_{P\rightarrow P_0}f(P)=A
$$

也称为$n$重极限

当$n=2$时,记$\rho=|PP_0|=\sqrt{(x-x_0)^2+(y-y_0)^2}$

多元函数的连续性

设$n$元函数$f(P)$定义在$D$上,聚点$P_0\in D$,如果存在

$$
\lim_{P\rightarrow P_0} f(P)=f(P_0)
$$

则称$n$元函数$f(P)$在点$P_0$连续;否则称为不连续,此时$P_0$称为间断点

如果函数在$D$上各点处都连续,则称此函数在$D$上连续

闭域上多元连续函数有与一元函数类似的如下性质:

若$f(P)$在有界闭域$D$上连续,则

  1. 有界性定理:$\exists K>0$,使$|f(P)|\leq K$,$P\in D$
  2. 最值定理: $f(P)$在$D$上可取得最大值$M$及最小值$m$
  3. 介值定理:对任意$\mu\in[m,M]$,$\exists Q\in D$,使$f(Q)=\mu$
  4. 一致连续定理:$f(P)$必在$D$上一致连续

二元函数偏导数定义

设函数$z=f(x,y)$在点$(x_0,y_0)$的某邻域内极限

$$
\lim_{\Delta x\rightarrow 0}\frac{f(x_0+\Delta x, y_0)-f(x_0,y_0)}{\Delta x}
$$

存在,则称此极限为函数$z=f(x,y)$在点$(x_0,y_0)$对$x$的偏导数,记作:

$$
\begin{matrix}
\dfrac{\partial z}{\partial x}\big|_ (x_ 0,y_ 0)&
\dfrac{\partial f}{\partial x}\big|_ (x_ 0,y_ 0)&
z'_ x\big|_ (x_ 0,y_ 0)&
f'_ x\big|_ (x_ 0,y_ 0)
\end{matrix}
$$

若函数$z=f(x,y)$,$y$在域$D$内每一点$(x_0,y_0)$处对$x$或$y$偏导数都存在,则可构成偏导函数,也可简称为偏导数,
记为

$$
\begin{matrix}
\dfrac{\partial z}{\partial x}&
\dfrac{\partial f}{\partial x}&
z'_ x&
f'_ x(x,y)\\\\
\dfrac{\partial z}{\partial y}&
\dfrac{\partial f}{\partial y}&
z'_ y&
f'_ y(x,y)
\end{matrix}
$$

二元函数偏导数的几何意义

$$
\frac{\partial f}{\partial x}\bigg|_ {x=x_ 0,y=y_ 0}=\frac{\mathrm d}{\mathrm dx}f(x,y_ 0)\bigg|_{x=x_ 0}
$$

是曲线

$$
\begin{cases}
z=f(x,y)\\
y=y_0
\end{cases}
$$

在点$M_0$处的切线$M_0T_x$对$x$轴的斜率

$$
\frac{\partial y}{\partial x}\bigg|_ {x=x_0,y=y_0}=\frac{\mathrm d}{\mathrm dy}f(x_0,y)\bigg|_ {y=y_0}
$$

是曲线

$$
\begin{cases}
z=f(x,y)\\
y=y_0
\end{cases}
$$

在点$M_0$处的切线$M_0T_y$对$y$轴的斜率

注意:函数在某点处各偏导数均存在,但在该点处不一定连续

高阶偏导数

设$z=f(x,y)$, $y$在域$D$内存在连续的偏导数

$$
\frac{\partial z}{\partial x}=f'_x(x,y),\quad
\frac{\partial z}{\partial y}=f'_y(x,y)
$$

若这两个偏导数仍存在偏导数,则称它们是$z=f(x,y)$,$y$的二阶偏导数。按照求导顺序不同,有下列四个二阶偏导数:

$$
\begin{matrix}
\dfrac{\partial}{\partial x}\left(\frac{\partial^2 z}{\partial x^2}\right)=\dfrac{\partial^2 z}{\partial x^2}=f_{xx}(x,y)&
\dfrac{\partial}{\partial y}\left(\frac{\partial^2 z}{\partial x^2}\right)=\dfrac{\partial^2 z}{\partial x\partial y}=f_{xx}(x,y)\\\\
\dfrac{\partial}{\partial x}\left(\frac{\partial^2 z}{\partial y^2}\right)=\dfrac{\partial^2 z}{\partial y\partial x}=f_{xx}(x,y)&
\dfrac{\partial}{\partial y}\left(\frac{\partial^2 z}{\partial y^2}\right)=\dfrac{\partial^2 z}{\partial y^2}=f_{xx}(x,y)
\end{matrix}
$$

应用:雅克比Jacobian 矩阵、梯度下降

类似可以定义更高阶的偏导数,例如:

$z=f(x,y)$,$y$关于$x$的$n-1$阶偏导数,再关于$y$的一阶偏导数为:

$$
\dfrac{\partial}{\partial y}\left(\dfrac{\partial^{n-1}z}{\partial x^{n-1}} \right)=
\dfrac{\partial^nz}{\partial x^{n-1}\partial y}
$$

若$f_{xy}(x,y)$和$f_{yx}(x,y)$都在点$(x_0,y_0)$连续,则

$$
f_{xy}(x_0,y_0)=f_{yx}(x_0,y_0)
$$

本定理对$n$元函数的高阶混合导数也成立

全微分的定义

如果函数$z=f(x,y)$在定义域$D$的内点$(x,y)$处全增量

$$
\Delta z = f(x+\Delta x,y+\Delta y)-f(x,y)
$$

可表示成

$$
\Delta z=A\Delta x+B\Delta y+o(\rho),\quad \rho=\sqrt{(\Delta x)^2+(\Delta y)^2}
$$

其中$A$,$B$不依赖于$\Delta x$,$\Delta y$,仅与$x$,$y$有关,则称函数$f(x,y)$在点$x$,$y$可微,$A\Delta x+B\Delta y$称为函数$f(x,y)$在点$(x,y)$的全微分,记作:

$$
\mathrm dz=\mathrm df=A\Delta x+B\Delta y
$$

若函数在域$D$内各点都可微,则称此函数在$D$内可微

由微分定义:

$$
\lim_{\Delta x\rightarrow 0,\Delta y\rightarrow 0}\Delta z=\lim_{\rho\rightarrow 0}
[(A\Delta x+B\Delta y)+o(\rho)]=0
$$

得:

$$
\lim_{\Delta x\rightarrow 0,\Delta y\rightarrow 0}f(x+\Delta x,y+\Delta y)=f(x,y)
$$

即,函数$z=f(x,y)$在点$(x,y)$处可微$\Rightarrow$函数在该点连续

可微与偏导数存在关系:

  1. 函数可微$\mathop\rightarrow\limits_{\not\leftarrow}$偏导数存在
  2. 偏导数连续$\mathop\rightarrow\limits_{\not\leftarrow}$函数可微

9.2.2. 求导和微分法则

多元复合函数求导的链式法则

若函数$u=\varphi(t)$,$v=\psi(t)$在点$t$可导,$z=f(u,v)$在点$(u,v)$处偏
导连续,则复合函数$z=f(\varphi(t),\psi(t))$在点$t$可导,且有链式法则

$$
\frac{\mathrm dz}{\mathrm dt}=\frac{\mathrm dz}{\mathrm du}\cdot
\frac{\mathrm du}{\mathrm dt}+\frac{\mathrm dz}{\mathrm dv}\cdot
\frac{\mathrm dv}{\mathrm dt}
$$

多元复合函数的全微分

函数$z=f(u,v)$,$u=\varphi(x,y)$,$v=\psi(x,y)$都可微,
则复合函数$z=f(\varphi(x,y),\psi(x,y))$的全微分为:

$$
\begin{aligned}
\mathrm dz&=\frac{\partial z}{\partial x}\mathrm dx+\frac{\partial z}{\partial y}\mathrm dy\\\\
&=\left(\frac{\partial z}{\partial u}\cdot\frac{\partial u}{\partial x}+
\frac{\partial z}{\partial v}\cdot\frac{\partial v}{\partial x}\right)\mathrm dx+
\left(\frac{\partial z}{\partial u}\cdot\frac{\partial u}{\partial y}+
\frac{\partial z}{\partial v}\cdot\frac{\partial v}{\partial y}\right)\mathrm dy\\\\
&=\frac{\partial z}{\partial u}\left(\frac{\partial u}{\partial x}\mathrm dx+\frac{\partial u}{\partial y}\mathrm dy\right)+
\frac{\partial z}{\partial v}\left(\frac{\partial v}{\partial x}\mathrm dx+\frac{\partial v}{\partial y}\mathrm dy\right)\\\\
&=\frac{\partial z}{\partial u}\mathrm du+\frac{\partial z}{\partial v}\mathrm dv
\end{aligned}
$$

可见无论$u$,$v$是自变量还是中间变量,其全微分表达形式都一样,这性质叫做全微分形式不变性

隐函数的求导方法

一个方程所确定的隐函数

$$
F(x,y)=0\Rightarrow y=f(x)
$$

设函数$F(x,y)$在点$P(x_0,y_0)$的某一邻域内满足

  1. 具有连续的偏导数
  2. $F(x_0,y_0)=0$
  3. $F_y(x_0,y_0)\neq0$

则方程$F(x,y)=0$在点$x_0$的某邻域内可唯一确定一个单值连续函数$y=f(x)$,满足条件$y_0=f(x_0)$,并有连续导数

$$
\frac{\mathrm dy}{\mathrm dx}=-\frac{F_x}{F_y}
$$

推广到三元函数:

设函数$F(x,y,z)$在点$P(x_0,y_0,z_0)$的某一邻域内满足

  1. 具有连续的偏导数
  2. $F(x_0,y_0,z_0)=0$
  3. $F_y(x_0,y_0,z_0)\neq0$

则方程$F(x,y,z)=0$在点$(x_0,y_0)$的某邻域内可唯一确定一个单值连续函数$z=f(x,y)$,满足条件$z_0=f(x_0,y_0)$,并有连续偏导数

$$
\frac{\partial z}{\partial x}=-\frac{F_x}{F_z},\quad
\frac{\partial z}{\partial y}=-\frac{F_y}{F_z}
$$

方程组所确定的隐函数组

$$
\begin{cases}
F(x,y,u,v)=0\\
G(x,y,u,v)=0
\end{cases}\Rightarrow
\begin{cases}
u=u(x,y)\\
v=v(x,y)
\end{cases}
$$

由$F$、$G$的偏导数组成的行列式

$$
J=\frac{\partial(F,G)}{\partial(u,v)}=\left|
\begin{matrix}
F_u&F_v\\G_u&G_v
\end{matrix}
\right|
$$

称为$F$、$G$的雅可比行列式

设函数$F(x,y,u,v)$,$G(x,y,u,v)$满足:

  1. 在点$P(x_0,y_0,u_0,v_0)$的某一邻域内具有连续偏导数
  2. $F(x_0,y_0,u_0,v_0)=0$,$G(x_0,y_0,u_0,v_0)=0$
  3. $J|_P=\frac{\partial(F,G)}{\partial(u,v)}|_P\neq 0$

则方程组$F(x,y,u,v)=0$,$G(x,y,u,v)$在点$(x_0,y_0)$的某一邻域内可唯一确定一组满足条件$u_0=u(x_0,y_0)$,$v_0=v(x_0,y_0)$的单值连续函数$u=u(x,y)$,$v=v(x,y)$,且有偏导数公式:

$$
\begin{aligned}
\frac{\partial u}{\partial x}&=-\frac{1}{J}\frac{\partial(F,G)}{\partial(x,v)}
=\frac{1}{\left|\begin{matrix}F_u&F_v\\G_u&G_v\end{matrix}\right|}\left|\begin{matrix}F_x&F_v\\G_x&G_v\end{matrix}\right|\\\\
\frac{\partial u}{\partial y}&=-\frac{1}{J}\frac{\partial(F,G)}{\partial(y,v)}
=\frac{1}{\left|\begin{matrix}F_u&F_v\\G_u&G_v\end{matrix}\right|}\left|\begin{matrix}F_y&F_v\\G_y&G_v\end{matrix}\right|\\\\
\frac{\partial v}{\partial x}&=-\frac{1}{J}\frac{\partial(F,G)}{\partial(u,x)}
=\frac{1}{\left|\begin{matrix}F_u&F_v\\G_u&G_v\end{matrix}\right|}\left|\begin{matrix}F_u&F_x\\G_u&G_x\end{matrix}\right|\\\\
\frac{\partial v}{\partial y}&=-\frac{1}{J}\frac{\partial(F,G)}{\partial(u,y)}
=\frac{1}{\left|\begin{matrix}F_u&F_v\\G_u&G_v\end{matrix}\right|}\left|\begin{matrix}F_u&F_y\\G_u&G_y\end{matrix}\right|\\\\
\end{aligned}
$$

9.2.3. 方向导数和梯度

方向导数

不同于反映函数在某一坐标轴方向变化情况的偏导数,方向导数是反映任一指定方向上函数的变量率
注意:方向导数是按某一方向的单侧导数,即只有一个单侧的方向;但偏导数要求左右双侧导数相等,其本质上还是一元函数中的导数概念

梯度

多元函数在定义域内具有一阶连续偏导数,则在某点$P$上所有偏导数构成的向量称为函数在该点上的梯度

二元函数方向导数存在和计算

如果函数$f(x,y)$在点$P_0(x_0,y_0)$可微分,那么函数在该点沿任一方向$l$的方向导数存在,且有

$$
\frac{\partial f}{\partial l}\bigg|_{(x_0,y_0)}=f_x(x_0,y_0)\cos\alpha+f_y(x_0,y_0)\cos\beta
$$

其中$\cos\alpha$和$\cos\beta$是方向$l$的方向余弦

二元函数梯度定义

设函数$f(x,y)$在平面区域$D$内具有一阶连续偏导数,则对于每一点$P_0(x_0,y_0)\in D$,都可定出一个向量

$$
f_x(x_0,y_0)\pmb i+f_y(x_0,y_0)\pmb j
$$

这向量称为函数$f(x,y)$在点$P_0(x_0,y_0)$的梯度,记作$\mathrm{grad}\ f(x_0,y_0)$或$\nabla f(x_0,y_0)$ ,即

$$
\mathrm{grad}\ f(x_0,y_0)=\nabla f(x_0,y_0)=f_x(x_0,y_0)\pmb i+f_y(x_0,y_0)\pmb j
$$

其中,$\nabla=\frac{\partial}{\partial x}\pmb i+\frac{\partial}{\partial y}\pmb j$称为二维向量微分算子

方向导数和梯度的关系

如果函数$f(x,y)$在点$P_0(x_0,y_0)$可微分,$\pmb e_l=(\cos\alpha,\cos\beta)$是方向$l$上的单位向量,那么

$$
\begin{aligned}
\frac{\partial f}{\partial l}\bigg|_ {(x_0,y_0)}&=f_x(x_0,y_0)\cos\alpha+f_y(x_0,y_0)\cos\beta\\\\
&=\mathrm{grad}\ f(x_0,y_0)\cdot\pmb e_l\\\\
&=|\mathrm{grad}\ f(x_0,y_0)|\cos\theta
\end{aligned}
$$

其中$\theta$为$\mathrm{grad}\ f(x_0,y_0)$和$\pmb e_l$的夹角

函数$f$在某点$P$上的梯度$\nabla f$和方向导数间的关系:

  1. 当方向$\pmb e_l$与梯度$\nabla f$的方向相同时,函数增加最快,即该方向的方向导数$\frac{\partial f}{\partial l}\bigg|_P$达到最大值
  2. 当方向$\pmb e_l$与梯度$\nabla f$的方向相反时,函数减少最快,即该方向的方向导数$\frac{\partial f}{\partial l}\bigg|_P$达到最小值
  3. 当方向$\pmb e_l$与梯度$\nabla f$的方向正交时,函数变化率为零,即该方向的方向导数$\frac{\partial f}{\partial l}\bigg|_P$为零

9.2.4. 极值及其求法

多元函数的极值

若函数$z=f(x,y)$在点$(x_0,y_0)$的某邻域内有

$$
f(x,y)\leq f(x_0,y_0)\quad(f(x,y)\geq f(x_0,y_0))
$$

则称函数在该点取得极大值(极小值)。极大值和极小值统称为极值,使函数取得极值的点称为极值点

必要条件

函数$z=f(x,y)$在点$(x_0, y_0)$存在偏导数,且在该点取得极值,则有

$$
f'_x(x_0,y_0)=0,\quad f'_y(x_0,y_0)=0
$$

充分条件

若函数$z=f(x,y)$在点$(x_0,y_0)$的某邻域内具有一阶和二阶连续偏导数,且

$$
f_x(x_0,y_0)=0,\quad f_y(x_0,y_0)=0
$$

令$A=f_{xx}(x_0,y_0)$,$B=f_{xy}(x_0,y_0)$,$C=f_{yy}(x_0,y_0)$,则:

  1. 当$AC-B^2>0$时,具有极值($A<0$时取极大值,$A>0$时取极小值)
  2. 当$AC-B^2<0$时,没有极值
  3. 当$AC-B^2=0$时,不能确定

条件极值

对自变量除定义域限制外,还有其他条件限制

在条件$\varphi(x,y)=0$下,求函数$z=f(x,y)$的极值

代入法:
可从条件$\varphi(x,y)=0$中解出$y=\psi(x)$代入原函数,将问题转化为求一元函数$z=f(x,\psi(x))$的无条件极值问题

拉格朗日乘数法:
设$\varphi(x,y)=0$可确定隐函数$y=\psi(x)$,则问题等价于一元函数$z=f(x,\psi(x))$的极值问题,故极值点必满足:

$$
\frac{\mathrm dz}{\mathrm dx}=f_x+f_y\frac{\mathrm dy}{\mathrm dx}=0
$$

因$\frac{\mathrm dy}{\mathrm dx}=-\frac{\varphi_x}{\varphi_y}$,故有:$f_x-f_y\frac{\varphi_x}{\varphi_y}=0$
记$\frac{f_x}{\varphi_x}=\frac{f_y}{\varphi_y}=-\lambda$,则
极值点必满足:
$$
\begin{cases}
f_x+\lambda\varphi_x=0\\\\
f_y+\lambda\varphi_y=0\\\\
\varphi(x,y)=0
\end{cases}
$$
引入辅助函数$F=f(x,y)+\lambda \varphi(x,y)$
则极值点满足:
$$
\begin{cases}
F_x=f_x+\lambda\varphi_x=0\\\\
F_y=f_y+\lambda\varphi_y=0\\\\
F_\lambda=\varphi=0
\end{cases}
$$
辅助函数$F$称为拉格朗日函数。利用拉格朗日函数求极值的方法称为拉格朗日乘数法

9.3. 差分基础

9.3.1. 无限微积分和有限微积分

无限微积分

$$
Df(x)=\lim_{h\rightarrow 0}\frac{f(x+h)-f(x)}{h}
$$

其中, $D$为微分算子;微分算子作用于连续函数

有限微积分

$$
\Delta f(x)=f(x+1)-f(x)
$$

其中,$\Delta$为差分算子;差分算子作用于离散函数

无限微积分与有限微积分之间的联系

  • $\Delta$是$D$在“有限”离散集上的原型
  • $D$是$\Delta$在“无限”连续集上的推广
  • 差分算子是微分的有限模拟,限制了取$h$的正整数值

算子:函数的函数

符号$D$和$\Delta$被称为算子,它们作用在函数上并给出新的函数,因此称算子为函数的函数

$\Delta$和$D$的逆运算

$D\rightarrow\int$:逆微分算子,积分算子

$$
g(x)=Df(x)\Leftrightarrow \int g(x)\mathrm dx=f(x)+C
$$

定积分:

$$
\int_a^b g(x)\mathrm dx=f(x)\bigg|^b_a=f(b)-f(a)
$$

$\Delta\rightarrow\Sigma$:逆差分算子,求和算子

$$
g(x)=\Delta f(x)\Leftrightarrow \sum g(x)\delta x=f(x)+C
$$

定积分:

$$
\sum_a^bg(x)\delta x=f(x)\bigg|^b_a=f(b)-f(a)
$$

$\sum_a^bg(x)\delta x$的观察

假设$g(x)=\Delta f(x)=f(x+1)-f(x)$,那么

若$b=a$,则有

$$
\sum_a^ag(x)\delta x=f(a)-f(a)=0
$$

若$b=a+1$,则有

$$
\sum_a^{a+1}g(x)\delta x=f(a+1)-f(a)=g(a)
$$

更一般地,如果$b$增加1,考察

$$
\begin{aligned}
&\sum_a^{b+1}g(x)\delta x-\sum_a^{b}g(x)\delta x\\\\
=&(f(b+1)-f(a))-(f(b)-f(a))\\\\
=&f(b+1)-f(b)\\\\
=&g(b)
\end{aligned}
$$

归纳可得:当$a$和$b$是整数且$b\geq a$时:

$$
\sum_ a^bg(x)\delta x=\sum_ {k=a}^{b-1}g(k)=\sum_ {a\leq k<b}g(k),\quad b\geq a,b\in \mathbb N,a\in \mathbb N
$$

9.3.2. 下降阶乘幂

上升阶乘幂

$$
x^{\overline m}=x(x+1)\cdots(x+m-1),\quad m\geq 0,m\in \mathbb N
$$

下降阶乘幂

$$
x^{\underline m}=x(x-1)\cdots(x-m+1),\quad m\geq 0,m\in \mathbb N
$$

下降阶乘幂的有限微分:

$$
\begin{aligned}
\Delta (x^{\underline m})
&=(x+1)^{\underline m}-x^{\underline m}\\\\
&=(x+1)x\cdots(x-m+2)-x(x-1)\cdots(x-m+1)\\\\
&=mx(x-1)\cdots(x-m+2)\\\\
&=mx^{\underline{m-1}}
\end{aligned}
$$

类比连续函数微分$D(x^m)=mx^{m-1}$

下降幂的求和:

$$
\sum_ {0\leq k<n}k^{\underline{m}}=\sum_ {0\leq k<n}k^{\underline{m}}\delta k=
\frac{k^{\underline{m+1}}}{m+1}\bigg|_0^n=\frac{n^{\underline{m+1}}}{m+1},
\quad m,n\geq 0, m\in \mathbb N,n\in\mathbb N
$$

类比连续函数积分$\int_0^nx^m\mathrm dx=\frac{n^{m+1}}{m+1}$

负指数下降幂的一般定义

$$
x^{\underline{-m}}=\frac{1}{(x+1)(x+2)\cdots(x+m)},\quad m>0
$$

下降幂的指数法则:

$$
x^{\underline{m+n}}=x^{\underline{m}}(x-m)^{\underline n}
$$

下降幂指数的推广

$$
x^{\underline{m}}=\frac{x!}{(x-m)!},\quad m\in\mathbb N
$$

有限微分:

$$
\Delta x^{\underline{m}}=mx^{\underline{m-1}},\quad m\neq -1
$$

求和:

$$
\sum_a^bx^{\underline{m}}\delta x=\frac{x^{\underline{m+1}}}{m+1}\bigg|_a^b,\quad m\neq -1
$$

调和数$H_x$

当$m=-1$时,对于无限微积分有:$\int_a^bx^{-1}\mathrm dx=\ln x\big|_a^b$

在有限微积分中,调和数$H_x$可以作为对$\ln x$的有限模拟:

$$
H_x=\frac{1}{1}+\frac{1}{2}+\cdots+\frac{1}{x},\quad
\Delta H_x=H_{x+1}-H_{x}=\frac{1}{x+1}=x^{\underline{-1}}
$$

因此,对下降幂求和的完整描述为:

$$
\sum_a^bx^{\underline{m}}\delta x=
\begin{cases}
\dfrac{x^{\underline{m+1}}}{m+1}\bigg|_a^b,&m\neq -1\\\\
H_x\bigg|_a^b,&m=-1
\end{cases}
$$

求和:$\sum_{k=0}^{n-1}k^2$
由于$x^2=x^{\underline 2}+x^{\underline 1}$,故
$$
\begin{aligned}
\sum_{k=0}^{n-1}k^2
&=\sum_{k=0}^{n}k^2\delta k\\\\
&=\sum_{k=0}^n(k^{\underline 2}+k^{\underline 1})\delta k\\\\
&=\left(\frac{k^{\underline 3}}{3}+\frac{k^{\underline 2}}{2}\right)\bigg|^n_0\\\\
&=\frac{n^{\underline 3}}{3}+\frac{n^{\underline 2}}{2}=\frac{n(n-1)(n-2)}{3}+\frac{n(n-1)}{2}
\end{aligned}
$$

10. 微分和差分:应用

10.1. Logistic模型

传染病问题

某国总人口为$M$,其中$N$个人感染了新冠肺炎(COVID-19),他们可以通过接触传染给健康的人。问任意时刻患上新冠肺炎的人有多少?

设任意$t$时刻感染的人和健康人的数目分别为$u$和$v$,则

$$
u+v=M
$$

感染人数的变化率正比于乘积$uv$(即正比于患者与健康人接触的概率):

$$
\frac{\mathrm du}{\mathrm dt}=\beta uv
$$

这里的非线性项$uv$刻画病人的接触性传染,比例系数$\beta>0$,联立得

$$
\frac{\mathrm du}{\mathrm dt}=\alpha u-\beta u^2
$$

其中,$\alpha=\beta M$,可以化为:

$$
\frac{M\mathrm du}{u(u-M)}=-\alpha\mathrm dt
$$

的形式,求取定积分得:

$$
M\int_N^{u(t)}\frac{\mathrm du}{u(u-M)}=-\alpha\int_0^t\mathrm dt
$$

解得:

$$
u(t)=\frac{M}{1+\left(\frac{M}{N}-1\right)e^{-\alpha t}}
$$

其函数图像为S型曲线,初始值$u(0)=N$,饱和值$u(\infty)=M$,曲线拐点出现在时刻$T=\frac{1}{\alpha}\ln(\frac{M}{N}-1)$,拐点处取值为饱和值的一半,即$u(T)=\frac{M}{2}$

Logistic模型

满足非线性动力学方程:

$$
\frac{\mathrm du}{\mathrm dt}=\alpha u-\beta u^2
$$

能够相当好地描述人口增长。非线性项$-\beta u^2$所包含的机制是:人口的相对增长率不再是一个简单的函数,而是一个随$u$增大而线性衰减的函数,即:

$$
\alpha\rightarrow\alpha(1-\frac{u}{M})
$$

logistic函数

$$
\mathrm{logistic}(x)=\frac{1}{1+e^{-x}}
$$

10.2. 傅里叶变换

三角傅里叶级数

$$
f(t)=a_0+\sum_{n=1}^\infty a_n\cos(\frac{2\pi nt}{T})+\sum_{n=1}^\infty b_n\sin(\frac{2\pi nt}{T})
$$

其中,

$$
\begin{aligned}
a_n&=\frac{1}{\pi}\int_{-\pi}^\pi f(t)\cos(\frac{2\pi nt}{T})\mathrm dt\\\\
b_n&=\frac{1}{\pi}\int_{-\pi}^\pi f(t)\sin(\frac{2\pi nt}{T})\mathrm dt
\end{aligned}
$$

傅里叶变换

傅里叶变换:

$$
F(\omega)=\int_{-\infty}^{\infty}f(t)e^{-j\omega t}\mathrm dt
$$

傅里叶逆变换:

$$
f(t)=\frac{1}{2\pi}\int_{-\infty}^\infty F(\omega)e^{j\omega t}\mathrm d\omega
$$

傅里叶变换的性质

  1. 线性性质:$\mathcal F[af(t)+bg(t)]=aF(\omega)+bG(\omega)$
  2. 时移性质:$\mathcal F[f(t-t_0)]=e^{-j\omega t_0}F(\omega)$
  3. 频移性质:$\mathcal F^{-1}[F(\omega-\omega_0)]=e^{j\omega_0t}f(t)$
  4. 相似性质:$\mathcal{F}[f(at)]=\frac{1}{|a|}F\left(\frac{\omega}{a}\right)$
  5. 微分性质:$\mathcal{F}[f^{(n)}(t)]=(j\omega)^nF(\omega)$,$\mathcal{F}[F^{(n)}(\omega)]=(-jt)^nf(t)$
  6. 积分性质:$\mathcal{F}[\int_{-\infty}^tf(t)\mathrm dt]=\frac{1}{j\omega}F(\omega$
  7. Parseval等式:$\int_{-\infty}^{+\infty}f^2(t)\mathrm dt=\frac{1}{2\pi}\int_{-\infty}^{+\infty}|F(\omega)|^2\mathrm d\omega$

应用

  1. 量子傅里叶变换与大数分解
  2. 图像处理
  3. 将时域信号转化为频域信号
  4. 音频信号处理
分享

Wenbo Chen
作者
Wenbo Chen
CG Student

目录