线性代数 - Fight4354

这两天的学习过程对线性代数的认知逐渐清晰，我以此贴，把一些关键新内容汇总于此。

当面对矩阵、奇异值时，应该建立如下认知：
✅ 矩阵是空间操作器
✅ 奇异值分解帮你分解矩阵的精髓：旋转 → 拉伸 → 旋转
✅ 奇异值的大小排序，告诉你：矩阵在哪些方向上真正有力量，哪些方向是废

1、正交矩阵#

正交矩阵（Orthogonal Matrix）的核心定义

一个 $n \times n$ 实矩阵 $Q$ 如果满足

$Q^{\mathsf T}\,Q \;=\; Q\,Q^{\mathsf T}\;=\;I_n$

则称 $Q$ 为正交矩阵。
这里 $Q^{\mathsf T}$ 是转置， $I_n$ 是 $n$ 阶单位矩阵。

逆即转置

Q^{-1}=Q^{\mathsf T}

计算上省事，数值稳定。
正交矩阵就是 “保持内积” 的实矩阵—— 它把坐标系旋转或翻转，但绝不拉伸或扭曲。

2、尖括号#

在这里

\langle q_i,\;q_j\rangle

就是 “内积 (inner product)” 的符号。最常见的情形 —— 实数向量空间 $\mathbb R^n$ —— 它等同于我们熟悉的点积（dot product）：

\langle q_i,\;q_j\rangle \;=\; q_i^{\mathsf T}\,q_j \;=\; \sum_{k=1}^n (q_i)_k\,(q_j)_k.

3、矩阵交换位置#

1. 消掉左边的 $Q$

贴在 $S$ 左边的是 $Q$
用它的逆 $Q^{-1}$ 左乘双方：

Q^{-1}\,A \;=\; \cancel{Q^{-1}Q}\,S\,Q^{\mathsf T} \quad\Longrightarrow\quad Q^{-1}A \;=\; S\,Q^{\mathsf T}

注意：

必须左右一致地左乘；

不要尝试把 $Q^{-1}$ 乘到右边去（那会打乱乘积顺序）。

2. 消掉右边的 $Q^{\mathsf T}$

贴在 $S$ 右边的是 $Q^{\mathsf T}$
用它的逆 $(Q^{\mathsf T})^{-1}$ 右乘双方：

Q^{-1}A(Q^{\mathsf T})^{-1} \;=\; S\cancel{Q^{\mathsf T}(Q^{\mathsf T})^{-1}} \quad\Longrightarrow\quad S = Q^{-1}A(Q^{\mathsf T})^{-1}

若 $Q$ 是正交矩阵， $Q^{-1}=Q^{\mathsf T}$ ，于是

S \;=\; Q^{\mathsf T}\,A\,Q.

为什么顺序不能颠倒？

一旦乘错侧，符号会 “插” 到别的位置：
$AQ^{-1} \neq Q^{-1}A$ 。
在等号两边必须 对称地 进行相同操作，等式才仍然成立。
这本质上与函数复合顺序或坐标变换顺序相同：先做哪个变换、后做哪个变换都写在乘积的对应位置，绝不能随意交换。

4、相似对角化矩阵#

相似对角化矩阵（常说 “可对角化矩阵”）指的是：

存在一个可逆矩阵 $P$ ，使得

$P^{-1}AP = D,$

其中 $D$ 是对角矩阵。
此时说 $A$ 能通过相似变换被对角化，或简称 $A$ 可对角化。

对角化的 “机械流程”

求特征值：解 $\det(A-\lambda I)=0$ 。
求特征向量：对每个 $\lambda$ ，解 $(A-\lambda I)x=0$ 。
组装 $P$ ：把 $n$ 个互不相关的特征向量按列排成矩阵 $P$ 。
得到 $D$ ：把对应特征值填进对角线： $D=\operatorname{diag}(\lambda_1,\dots,\lambda_n)$ 。
就有 $A = P D P^{-1}$ 。

5、奇异值分解#

A \;=\; Q\,S\,Q^{\mathsf T} \quad\Longleftrightarrow\quad S \;=\; Q^{\mathsf T} A Q

符号	含义
$A$	给定的实对称矩阵（ $A^{\mathsf T}=A$ ）
$Q$	正交矩阵： $Q^{\mathsf T}Q=I$ ，列向量两两正交且单位长度
$S$	对角矩阵： $S=\operatorname{diag}(\lambda_1,\dots,\lambda_n)$

写法 $A=Q S Q^{\mathsf T}$ 称为 正交相似对角化；几何上就是 “旋转（或镜像）坐标系 → A 只剩独立的伸缩”。

1. 为什么 “实对称矩阵一定能正交对角化”？

光谱定理：

对任何实对称矩阵 $A$ ，存在正交矩阵 $Q$ 使得 $Q^{\mathsf T} A Q$ 是对角的，且对角元就是 $A$ 的特征值。

实特征值：对称保证特征值全是实数。
正交特征向量：若 $\lambda_i \ne \lambda_j$ ，对应特征向量必正交。
重根也能取正交基：同一特征值可能对应多个向量，这时在它们张成的子空间里再做 Gram–Schmidt 即可。

文字步骤逐条解析

步骤	说明
1. 求出 $A$ 的全部特征值和特征向量	计算 $\det(A-\lambda I)=0$ 得到所有 $\lambda_i$ ；对每个 $\lambda_i$ 解 $(A-\lambda_i I)v=0$ 求特征向量。
2. 将特征值按一定顺序在对角线上排列即可得到对角阵 $S$	例如按从小到大排成 $S=\operatorname{diag}(\lambda_1,\dots,\lambda_n)$ 。顺序无关紧要，只要和稍后列向量顺序一致即可。
3. 不同特征值对应的特征向量彼此正交；对重根特征向量用 Gram-Schmidt 正交化并单位化	- 若 $\lambda_i\neq\lambda_j$ ，对应向量天然正交，不用动。
- 如果 $\lambda$ 有重复（几何重数 >1），先随便取一组线性无关向量，再在该子空间里做 Gram-Schmidt，使之两两正交并各自归一（长度调成 1）。
4. 按照特征值在对角线上的顺序将改造后的特征向量横向排列，即可得到正交矩阵 $Q$	按对角线特征值顺序把改造后的特征向量作为列排成 $Q=[q_1\ \cdots\ q_n]$ 。此时 $Q^{\mathsf T}Q=I$ ，并有 $A = Q S Q^{\mathsf T}$ 。

一个 $2 \times 2$ 具体小例子

设

A=\begin{bmatrix} 4 & 1\\ 1 & 4 \end{bmatrix}

① 求特征值

\det(A-\lambda I)=(4-\lambda)^2-1=0 \Longrightarrow \lambda_1=5,\; \lambda_2=3

② 求特征向量

$\lambda_1=5$ ： $(A-5I)v=0 \ \Rightarrow\ v_1=\begin{bmatrix}1\\1\end{bmatrix}$
$\lambda_2=3$ ： $(A-3I)v=0 \ \Rightarrow\ v_2=\begin{bmatrix}1\\-1\end{bmatrix}$

③ 归一化

q_1=\frac{1}{\sqrt2}\begin{bmatrix}1\\1\end{bmatrix},\quad q_2=\frac{1}{\sqrt2}\begin{bmatrix}1\\-1\end{bmatrix}

④ 组装并验证

Q=\frac1{\sqrt2}\begin{bmatrix} 1 & 1\\ 1 & -1 \end{bmatrix},\quad S=\begin{bmatrix}5&0\\0&3\end{bmatrix},\quad Q^{\mathsf T} A Q = S.

6、取行列式（det・）#

行列式（determinant）是把一个方阵 $A$ 映射成一个标量 $\det A$ 的运算。
这个标量综合了矩阵最核心的几何与代数信息：体积伸缩因子、可逆性、特征值乘积等。

公式

阶数	公式
$1\times1$	$\det[a]=a$
$2\times2$	$\displaystyle\det\!\begin{bmatrix}a&b\\c&d\end{bmatrix}=ad-bc$
$3\times3$	“Sarrus 法” 或按第一行展开：
$\displaystyle \det\!\begin{bmatrix}a&b&c\\d&e&f\\g&h&i\end{bmatrix}=a(ei-fh)-b(di-fg)+c(dh-eg)$
核心性质（任何定义都必须满足）

性质	说明
乘法性	$\det(AB)=\det A\cdot\det B$
可逆判据	$\det A\neq0 \iff A$ 可逆
按行列线性	每一行（列）关于元素线性
交替性	两行（列）交换 ⇒ 行列式变号
对角线积	上 / 下三角矩阵： $\det A=\prod_{i}a_{ii}$
特征值积	$\det A=\lambda_1\lambda_2\cdots\lambda_n$ （含重数）

3×3 手算示例

设

A=\begin{bmatrix} 2 & 1 & 3\\ 0 & 4 & -1\\ 5 & 2 & 0 \end{bmatrix}

按第一行展开：

\begin{aligned} \det A &= 2\;\det\!\begin{bmatrix}4&-1\\2&0\end{bmatrix} \;-\;1\;\det\!\begin{bmatrix}0&-1\\5&0\end{bmatrix} \;+\;3\;\det\!\begin{bmatrix}0&4\\5&2\end{bmatrix} \\[4pt] &= 2\,(4\cdot0-(-1)\cdot2) -1\,(0\cdot0-(-1)\cdot5) +3\,(0\cdot2-4\cdot5) \\[4pt] &= 2\,(2) -1\,(5) +3\,(-20) \\[4pt] &= 4 - 5 - 60 = -61. \end{aligned}

一句话总结

“取行列式” 就是：让一个 $n\times n$ 方阵通过一套交替、线性的规则坍缩成单一数字，这个数字同时编码了矩阵的体积伸缩、方向、可逆性和特征值乘积等关键信息。

7、矩阵的秩#

矩阵的 “秩” 到底是什么？

等价视角	直观解释
线性独立	行（或列）里能挑出多少个彼此线性无关的向量，就是秩。
空间维数	列向量张成的子空间（列空间）维度 = 行向量张成的子空间（行空间）维度 = 秩。
满秩子式	矩阵里最大的非零行列式的阶数 = 秩。
奇异值	在 SVD $A=U\Sigma V^{\!}$ 里，非零奇异值*的个数 = 秩。

线性独立
下面用 3 × 3 的小矩阵举三个对比案例，让「秩 = 能挑出几根线性无关的列（或行）向量」这句话一目了然。

| 矩阵 $A$ | 列向量写成 $\bigl(v_1\,|\,v_2\,|\,v_3\bigr)$ | 线性关系 | 秩 |
|------------|-----------------------------------------------|-----------|--------|
| $\displaystyle\begin{bmatrix}1&2&3\\2&4&6\\3&6&9\end{bmatrix}$ | $v_1=\begin{bmatrix}1\\2\\3\end{bmatrix}$
$v_2=\begin{bmatrix}2\\4\\6\end{bmatrix}=2v_1$
$v_3=\begin{bmatrix}3\\6\\9\end{bmatrix}=3v_1$ | 三列全在同一直线上 ——只有 1 根独立向量 | 1 |
| $\displaystyle\begin{bmatrix}1&0&1\\0&1&1\\1&1&2\end{bmatrix}$ | $v_1=\begin{bmatrix}1\\0\\1\end{bmatrix}$
$v_2=\begin{bmatrix}0\\1\\1\end{bmatrix}$
$v_3=v_1+v_2$ | $v_1, v_2$ 不共线 ⇒ 2 维平面； $v_3$ 落在这平面里 | 2 |
| $\displaystyle\begin{bmatrix}1&0&1\\0&1&1\\1&1&0\end{bmatrix}$ | $v_1=\begin{bmatrix}1\\0\\1\end{bmatrix}$
$v_2=\begin{bmatrix}0\\1\\1\end{bmatrix}$
$v_3=\begin{bmatrix}1\\1\\0\end{bmatrix}$ | 任意两列都无法线性表达第三列 ⇒ 三列张成整个 $\mathbb R^{3}$ | 3 |

如何判断「无关」？

手算把列拼成矩阵，对它做消元 → 非零行数就是秩。
概念如果存在常数 $c_1,c_2,c_3$ 使 $c_1v_1+c_2v_2+c_3v_3=0$ 且不全为 0，向量就相关；否则无关。
- 案例 1：$2v_1-v_2=0$ → 相关
- 案例 2：只有 $v_3=v_1+v_2$ 相关，$v_1,v_2$ 无关
- 案例 3：任何非平凡组合都 ≠ 0 → 三向量全独立

一句话：秩 = 这张矩阵真正 “存得下” 多少独立信息（维度）。

8、低秩近似#

为什么截断 SVD (低秩近似) 只要存 k (m+n)+k 个数？

把原矩阵

A\in\mathbb R^{m\times n}

截断到秩 $k$ 后写成

A_k \;=\; U_k \,\Sigma_k \, V_k^{\mathsf T},

块	形状	需要保存的标量个数	说明
$U_k$	$m\times k$	$m \times k$	左奇异向量：只取前 $k$ 列
$V_k$	$n\times k$	$n \times k$	右奇异向量：同理
$\Sigma_k$	$k\times k$ 对角	$k$	只保留对角线上 $k$ 个奇异值

把三块加起来就是

\underbrace{m k}_{U_k} \;+\; \underbrace{n k}_{V_k} \;+\; \underbrace{k}_{\Sigma_k} \;=\; k\,(m+n)+k.

$U_k$ 和 $V_k$ ：各有 $k$ 列，每列存一个长度为行数的向量
$\Rightarrow mk + nk$ 个数。
$\Sigma_k$ ：是对角矩阵，只需那 $k$ 个对角元素 —— 不是 $k^2$ 。

因此，用秩 - $k$ 的 SVD 近似替代原来的 $m\times n$ 储存量，参数量从 $mn$ 缩到 $k(m+n)+k$ 。
如果 $k \ll \min(m,n)$ ，省下的空间就非常可观。

秩降低 = 信息维度降低，低秩存储 = 参数量 / 内存同步降低

9、范数#

“两竖线” $|,\cdot,|$ 在线性代数里表示 范数（norm）。

对向量 $v\in\mathbb R^m$ ，最常用的是 二范数（Euclidean norm）： $\|v\|=\sqrt{v^{\mathsf T}v}=\sqrt{\sum_{i=1}^{m}v_i^{2}},\qquad \|v\|^{2}=v^{\mathsf T}v.$
在图中 $\|Xw-y\|^{2}$ 就是把向量 $Xw-y$ 的每个分量平方后求和。
对矩阵 $A$ 若也写 $\|A\|$ ，常默认为 Frobenius 范数： $\|A\|_F=\sqrt{\sum_{i,j}A_{ij}^{2}}$ 。不过在这张图里涉及的都是向量。

与之对比，单竖线 $|\,\cdot\,|$ 通常表示绝对值（标量）或行列式 $|A|$ 。所以双竖线是向量／矩阵 “长度” 的符号，单竖线是标量大小或行列式的符号 —— 对象和含义都不同。

向量常用欧几里得距离 -- 2 范数（L2 范数）#

import torch

b = torch.tensor([3.0, 4.0])
print(b.norm())  # 输出 5.0

.norm() 是 PyTorch 张量（torch.Tensor） 的方法。

矩阵常用 Frobenius 范数#

矩阵也有 “长度”—— 常用的是 Frobenius 范数

名称	记号	公式（对 $A\in\mathbb R^{m\times n}$）	与向量的类比
Frobenius 范数	$\displaystyle\|A\|_F$	$\displaystyle\sqrt{\sum_{i=1}^{m}\sum_{j=1}^{n}A_{ij}^{2}}$	就像向量 2 - 范数 $\|v\|=\sqrt {\sum v_i^2}$

1. 为什么也能写成 “矩阵点积”

在矩阵空间里常用的内积是

\langle A,B\rangle := \operatorname{tr}\!\bigl(A^{\mathsf T}B\bigr),

其中 $\operatorname{tr}(\cdot)$ 是迹运算（对角线元素之和）。
给 $A$ 自己做这个内积，就得到

\|A\|_F^{2} \;=\;\langle A,A\rangle \;=\;\operatorname{tr}\!\bigl(A^{\mathsf T}A\bigr).

所以：

$\boxed{\;\|A\|_F^{2}= \operatorname{tr}(A^{\mathsf T}A)\;}$

这正是矩阵版本的 $\|v\|^{2}=v^{\mathsf T}v$ —— 只是把向量点积换成了 “迹点积”。
Frobenius 范数确实等于所有奇异值平方和的平方根，也就是：

\| A \|_F = \sqrt{\sum_i \sigma_i^2}

这里：

$| A |_F$ 是矩阵 $A$ 的 Frobenius 范数
$\sigma_i$ 是 $A$ 的奇异值

Frobenius 范数确实等于所有奇异值平方和的平方根
展开解释：

Frobenius 范数定义为：

\| A \|_F = \sqrt{ \sum_{i,j} |a_{ij}|^2 }

但奇异值分解（SVD）告诉我们：

A = U \Sigma V^T

其中 $\Sigma$ 是对角矩阵，主对角线上就是奇异值 $\sigma_1, \sigma_2, \dots$ 。

因为 Frobenius 范数不变换（单位正交变换不改变范数），我们可以直接算：

\| A \|_F^2 = \sum_{i,j} |a_{ij}|^2 = \sum_i \sigma_i^2

所以最终：

\| A \|_F = \sqrt{ \sum_i \sigma_i^2 }

小心误区

注意：
✅ 不是单个奇异值平方根，也不是最大奇异值
✅ 是所有奇异值平方后再相加取根号

谱范数看 “最能放大的一个方向”，Frobenius 则把所有能量都累加

矩阵的谱范数#

✅ 谱范数定义

矩阵 $A$ 的谱范数（spectral norm）定义为：

\| A \|_2 = \max_{\|x\|_2 = 1} \| A x \|_2

直白讲，就是 矩阵 $A$ 把单位向量拉伸到多长的最大值。
奇异值本来就是表示矩阵的拉伸变换的。

它等于 $A$ 的最大奇异值：

\| A \|_2 = \sigma_{\max}(A)

另一角度：谱范数 ≈ 把单位向量丢进矩阵后被拉伸的最大长度
✅ 它跟 Frobenius 范数的关系

Frobenius 范数 → 看整体能量（矩阵元素平方和）
谱范数 → 看单个方向上最大拉伸量

换句话说：

Frobenius 像是矩阵 “体积” 总量感
谱范数像是 “最极端” 的单一方向放大率

✅ 例子：为什么它重要？

想象一个神经网络的线性层 $W$：

如果 $\| W \|_2$ 非常大，输入的微小扰动会被放大，
网络容易过拟合，对噪声敏感。
如果 $\| W \|_2$ 适度，网络输出变化对输入扰动就稳定，
泛化能力更好。

所以现代方法（比如 spectral normalization）
会直接在训练中把 $W$ 的谱范数压制到一个范围内。

⚠ 直说缺点

谱范数很强，但：

只关注单一最大方向，忽略了其他方向的放大；
计算比 Frobenius 范数复杂（需要奇异值分解，而不是简单元素平方和）。

概要对比

	欧几里得范数 (2-norm, ‖v‖)	Frobenius 范数 (‖A‖_F)
对象	向量 $v\in\mathbb R^{n}$	矩阵 $A\in\mathbb R^{m\times n}$
定义	$\displaystyle\\|v\\|=\sqrt{\sum_{i=1}^{n}v_i^{2}}$	$\displaystyle\\|A\\|_F=\sqrt{\sum_{i=1}^{m}\sum_{j=1}^{n}A_{ij}^{2}}$
等价表达	$\\|v\\|^{2}=v^{\mathsf T}v$	$\\|A\\|_F^{2}=\operatorname{tr}(A^{\mathsf T}A)=\sum_{k}\sigma_k^{2}$
几何意义	向量在 $n$ 维欧氏空间的长度	把矩阵元素按 “长向量” 看时的长度
单位 / 尺度	与坐标轴有同样度量	同上；对矩阵不依赖行列数的排列方式
常见用途	误差度量、正则化 $L^2$ 、距离	权重衰减、矩阵近似误差、核方法
与谱范数关系	$\\|v\\|=\sigma_{\max }(v)$ (仅一条奇异值)	$\\|A\\|_F\ge \\|A\\|_2=\sigma_{\max }(A)$ ；若 rank = 1 则相等

1. 同一思路、不同维度

欧几里得范数是 向量自身与自己做点积后开方。
Frobenius 范数把矩阵各元素看成一条长向量，再做同样的事；用矩阵语言写成

$\|A\|_F=\sqrt{\operatorname{tr}(A^{\mathsf T}A)}.$

这就是 “转置 → 乘 → 取迹”。

2. 何时用哪个？

场景	推荐范数	原因
预测误差、梯度下降	欧几里得 (向量残差)	残差天然是列向量
网络权重正则 (Dense / Conv)	Frobenius	不关心参数形状、仅关心整体幅度
比较矩阵逼近质量 (SVD, PCA)	Frobenius	容易与奇异值平方和对应
稳定性 / Lipschitz 边界	谱范数 ( $\\|A\\|_2$ )	关心放大率而非总能量

3. 直观区别

欧几里得：量 单个方向 的长度；
Frobenius：量 每个元素能量 的总和，因此对矩阵来说，哪一列或哪一行并不特殊，所有元素一视同仁。

一句话记忆：

欧几里得范数：向量 “标尺”。
Frobenius 范数：把矩阵 “铺平” 后用同一把标尺量它的整体大小。

10、矩阵相乘的转置#

在矩阵代数里，两个（或多个）矩阵相乘后的转置有一个固定的 “翻转顺序” 规则：

(AB)^{\mathsf T}=B^{\mathsf T}\,A^{\mathsf T}.

也就是说 先转置每个矩阵，再把乘法顺序倒过来。
这一条性质对任何维度匹配的实（或复）矩阵都成立，而且可以递归推广：

(ABC)^{\mathsf T}=C^{\mathsf T}\,B^{\mathsf T}\,A^{\mathsf T},\qquad (\,A_1A_2\cdots A_k)^{\mathsf T}=A_k^{\mathsf T}\cdots A_2^{\mathsf T}A_1^{\mathsf T}.

xLog 编辑 Markdown 文档注意内容

确认所有数学表达式都用 $$ … $$
如果有 $n \times n$ 之类单 $，改成 n × n 或 $$n\\times n$$

参考视频：

点这里看 B 站视频