草稿

代数批如何理解 Einstein 求和约定

Einstein summation for confused algebraists

math
algebra
geometry
physics
作者

sun123zxy

发布于

2025年10月29日

统一、自洽与简洁的记号体系是数批的床前明月光.大部分数学方向都已经发展出了一套相对完备的记号体系——但遗憾的是,有的方向的记号非常不巧地和其他学科的外来物种杂交在了一起,使得不同背景的使用者对同一记号的理解大相径庭.我们今天辨析的 Einstein 求和约定(Einstein summation convention)似乎就深受其害:物理学家们习惯于使用 Einstein 求和约定来简化张量矩阵运算中的求和符号,和物理学家纠缠不清的微分几何学家们也纷纷采用这一记号,并在教学时自豪的向学生介绍这一记号对求和的简化作用.一眼看上去,在 Einstein 求和约定下,你不再显式地写出求和符号和求和指标:每个乘法中左侧的下标和右侧的上标自动配对作为求和指标.例如,两个向量 \(\boldsymbol a\)\(\boldsymbol b\) 的内积将被写作 \(a_i b^i\).然而,大部分教学实践中仅仅将 Einstein 求和约定理解为一种“省略求和符号的记号简化”,忽视其背后的代数结构,并不能说服困惑的学生接受这一记号.纯坐标化的理解也往往掩盖了 Einstein 求和约定的内在含义——这是将抽象线性空间张量积和其在基底下的坐标矩阵运算联系起来的桥梁.

我们今天来捅破这层窗户纸.

1 张量缩并的坐标无关记法

1.1 逆变

首先约定本文中出现的上标默认均不代表乘法幂.考虑一组维度分别为 \(n_i\) 的域 \(K\) 上的线性空间 \(V^i\), 这里 \(i \in \Sigma\) 是一组抽象指标.设他们分别有自然基底 \(\left( \boldsymbol e^i_{\alpha_i} \right)_{1 \leq \alpha_i \leq n_i}\) 1.此时,对任意向量 \(\boldsymbol a^i \in V^i\) 2,都有坐标表示 \[ \boldsymbol a^i = \sum_{\alpha_i = 1}^{n_i} \boldsymbol e^i_{\alpha_i} a^{\alpha_i} \tag{1}\]

1 不少文献会在这里省去 \(\boldsymbol e\) 的上标 \(i\).这是一种记号滥用:即通过 \(\alpha_i\) 里面的 \(i\) 来区分是哪个模的基底.

2 这里 \(a^i\) 上的 \(i\) 仅作标识 \(\boldsymbol a^i \in V^i\) 使用,类似多项式环的 \(f(\mathrm x) \in K[\mathrm x]\).后面将看到这种记法的妙处.少数(记号过于复杂的)情况下,也可能省略这一标识不写.

1.2 协变

接下来,我们考虑这些线性空间的对偶.对每个 \(V^i\),记其对偶空间 \(V_i := \left( V^i \right)^*\),其有自然对偶基底 \(\left( \boldsymbol e_i^{\alpha_i} \right)_{1 \leq \alpha_i \leq n_i}\),满足 \[ \boldsymbol e_i^{\alpha_i} \left( \boldsymbol e^i_{\beta_i} \right) = \delta^{\alpha_i}_{\beta_i} = \begin{cases} 1 & \text{if } \alpha_i = \beta_i \\ 0 & \text{otherwise} \end{cases} \tag{2}\] 后者是 Kronecker delta 符号.此时,对任意 \(\boldsymbol a_i \in V_i\),都有坐标表示 \[ \boldsymbol a_i = \sum_{\alpha_i = 1}^{n_i} a_{\alpha_i} \boldsymbol e_i^{\alpha_i} \tag{3}\]

1.3 混合张量积

我们研究的对象是这些 \(V^i\)\(V_i\) 的张量积.注意交换张量积顺序是一个自然同构,故我们总可以事先确定一个张量积的顺序——例如,按抽象指标 \(i \in \Sigma\) 的字典序排列,\(V_i\) 排在 \(V^i\)3.设 \(I,J \subseteq \Sigma\) 为两组抽象指标,可记 \(V_I^J\) 为按如此顺序排列做张量积得到的线性空间.

3 方便起见,以后书写张量积时的顺序有时会和上述顺序不符,实际上均理解为按上述约定顺序排列.

Remark (张量积与线性映射)

注记 (张量积与线性映射). 回忆张量积泛性质 \[ \mathrm{Hom}(V, W^*) \cong (V \otimes W)^* \quad\text{or}\quad \mathrm{Hom}(V, W) \cong V^* \otimes W \] 故有自然同构 \(V_I^J \cong V_I \otimes V^J \cong \mathrm{Hom}(V^I, V^J)\),即 \(V_I^J\) 中的张量也可理解为 \(V^I \to V^J\) 的线性映射.

考察 \(V_I^J\) 的自然基底:4 \[ \boldsymbol e_{\alpha_J}^{\alpha_I} := \left( \otimes_{i \in I} \boldsymbol e^{\alpha_i} \right) \otimes \left( \otimes_{j \in J} \boldsymbol e_{\alpha_j} \right) \in V_I^J \] 其中具体指标 \(\alpha_I := (\alpha_i)_{i \in I}\)\(\alpha_J := (\alpha_j)_{j \in J}\)

4 这里 \(\boldsymbol e_{\alpha_J}^{\alpha_I}\) 完整的写法是 \(\left(\boldsymbol e_{\alpha_J}^{\alpha_I} \right)_I^J\),简洁起见我们做省略.

Remark

注记. 实际操作时,通常将抽象指标集 \(\Sigma\) 取做正体字母的集合,例如 \(\Sigma = \{\mathrm i, \mathrm j, \mathrm k, \mathrm l\}\).此时各个具体指标 \(\alpha_i\) 用单个斜体字母(例如 \(i, j, k, l\))替换表示.如取 \(I = \{\mathrm i,\mathrm k\}\), \(J = \{\mathrm j,\mathrm l\}\),则有 \[ \boldsymbol e{^i}{_j}{^k}{_l} := \boldsymbol e^i \otimes \boldsymbol e_j \otimes \boldsymbol e^k \otimes \boldsymbol e_l \in V{_\mathrm i}{^\mathrm j}{_\mathrm k}{^\mathrm l} \]

现在来描述 Einstein 求和约定下 \(V_I^J\) 中张量的记号:\(\boldsymbol a_I^J \in V_I^J\).这种写法类似将多项式写成 \(f(\mathrm x, \mathrm y) \in K[\mathrm x, \mathrm y]\)

  • \(\mathrm x, \mathrm y\) 明确了多项式(函数)\(f\) 的自变量,而 \(I,J\) 明确了张量 \(\boldsymbol a\) 的协变和逆变空间 \(V_J\), \(V^I\)
  • \(f(\mathrm y, \mathrm x)\) 代表多项式 \(f(\mathrm x, \mathrm y)\) 交换自变量顺序后得到的多项式,而 \(\boldsymbol a_{I'}^{J'}\) 代表通过对偶同构 \(V \cong V^*\) 将张量 \(\boldsymbol a_I^J\) 放入 \(V_{I'}^{J'}\) 中得到的张量.

需要注意的是,基底 \(\boldsymbol e_{\alpha_J}^{\alpha_I}\) 的具体指标和张量 \(\boldsymbol a_I^J\) 的抽象指标位置恰好相反——这一设计与张量的坐标表示密切相关: \[ \boldsymbol a_I^J = \sum_{\alpha_I, \alpha_J} a_{\alpha_I}^{\alpha_J} \boldsymbol e_{\alpha_J}^{\alpha_I} \tag{4}\] 这里的 \(a_{\alpha_I}^{\alpha_J}\) 是张量 \(\boldsymbol a_I^J\) 在基底 \(\boldsymbol e_{\alpha_J}^{\alpha_I}\) 下的坐标.

1.4 张量缩并

定义张量间的缩并运算(tensor contraction):设 \(\boldsymbol a_I^J \in V_I^J, \boldsymbol b_J^K \in V_J^K\),定义它们的乘积 \(\boldsymbol c_I^K := \boldsymbol b_J^K \boldsymbol a_I^J \in V_I^K\) 为张量积后对抽象指标 \(J\) 进行自然配对得到的张量,即线性映射理解下的复合映射 \(V_I \to V_J \to V_K\).当参与乘法的张量的抽象指标 \(J\) 左下右上不匹配时,定义它们的乘积为 \(0\)

考察自然基底间的缩并.根据前述对偶基的关系,有 \[ \boldsymbol e_{\beta_J}^{\beta_K} \boldsymbol e_{\alpha_I}^{\alpha_J} = \begin{cases} \boldsymbol e_{\alpha_I}^{\beta_K} & \beta_{J} = \alpha_{J} \\ 0 & \text{otherwise} \end{cases} \] 利用这一自然基底的缩并关系,我们考察一般张量间的缩并的分量形式: \[ \boldsymbol c_I^K = \left( \sum_{\alpha_J, \alpha_K} b_{\alpha_J}^{\alpha_K} \boldsymbol e_{\alpha_K}^{\alpha_J} \right) \left( \sum_{\alpha_I, \alpha_J} a_{\alpha_I}^{\alpha_J} \boldsymbol e_{\alpha_J}^{\alpha_I} \right) = \sum_{\alpha_I, \alpha_K} \left( \sum_{\alpha_J} b_{\alpha_J}^{\alpha_K} a_{\alpha_I}^{\alpha_J} \right) \boldsymbol e_{\alpha_K}^{\alpha_I} \] 这里的内层求和正是 Einstein 求和约定下省略的求和符号.写作分量形式即 \[ c_{\alpha_I}^{\alpha_K} = \sum_{\alpha_J} b_{\alpha_J}^{\alpha_K} a_{\alpha_I}^{\alpha_J} \tag{5}\] 注意分量形式的缩并,形状上恰好可以看成张量形式缩并 \(\boldsymbol c_I^K := \boldsymbol b_J^K \boldsymbol a_I^J\) 还原粗体为斜体,添加 “\(\alpha\)” 和求和符号的结果.这就是 Einstein 求和约定的坐标无关视角:它是混合张量缩并运算的抽象张量写法.左下右上抽象指标自动配对,在坐标形式下按对应具体指标求和.

Remark

注记. 实践中,例如 \(I = \{\mathrm i\}, J = \{\mathrm j, \mathrm k\}\), \(K = \{\mathrm l\}\),则有 \[ \boldsymbol c{_\mathrm i}{^\mathrm l} = \boldsymbol b{_\mathrm j}{^\mathrm l} \boldsymbol a{_\mathrm i}{^\mathrm j} \] 对应的分量形式为 \[ c{_i}{^l} = \sum_{j} b{_j}{^l} a{_i}{^j} \]

Remark

注记. 张量形式的缩并被称为 abstract index notation,而分量形式的缩并被称为 Ricci calculus / tensor index notation.二者是 Einstein summation convention 在数学这边的两种理解方式.

1.5 坐标表示的 Einstein 求和

坐标无关的 Einstein 求和约定并不能解释所有物理学家使用的记号——物理学家完全没有 coordinate-free 的概念,他们的张量总是由具体的坐标组成.换言之,他们不在 \(V_I^J\) 中操作张量,而是选定基底后在 \[ K_{n_I}^{n_J} := \left( \bigotimes_{i \in I} \left( K^{\oplus n_i} \right)^* \right) \otimes \left( \bigotimes_{j \in J} K^{\oplus n_j} \right) \] 中工作.因此我们现在在这里回头,建立从抽象张量到坐标张量的范畴等价.

既然要选定基底,我们的函子必然与基底 \(\boldsymbol e_{\alpha_J}^{\alpha_I}\) 有关.它是什么?

它是个向量,但这里的 \(\alpha_I, \alpha_J\) 是一组具体指标.我们需要“用抽象指标替换具体指标”,i.e. 找到映射 \[ (\alpha_I, \alpha_J) \mapsto \boldsymbol e_{\alpha_J}^{\alpha_I} \] (线性扩张后)所在的线性空间.自然地,考虑 \(K_{n_I n_J} \otimes V_I^J\),将抽象指标写作 \(n_I\), \(n_J\),则我们得到基底的张量表达 \(\boldsymbol E_{n_I n_J}{_I^J} \in K_{n_I n_J} \otimes V_I^J\)

最后,我们还需要将 \(a_{\alpha_I}^{\alpha_J}\) 视为取坐标映射 \[ (\alpha_I, \alpha_J) \mapsto a_{\alpha_I}^{\alpha_J} \] 的线性扩张并完成张量化:仍然使用抽象指标 \(n_I, n_J\),我们现在记张量 \(\boldsymbol A_{n_I n_J} \in K_{n_I n_J}\) 实现了上述线性映射.现在:

  • 混合张量积坐标表示 式 4 有张量形式 \(\boldsymbol a_I^J = \boldsymbol A_{n_I n_J} \boldsymbol E^{n_I n_J}{_I^J}\)

  • 逆变向量坐标表示 式 1 有张量形式 \(\boldsymbol a^i = \boldsymbol E_{n_i}{^i} \boldsymbol A^{n_i}\).(\(I := \{ i \}\), \(J := \varnothing\)

  • 协变向量坐标表示 式 3 有张量形式 \(\boldsymbol a_i = \boldsymbol A_{n_i} \boldsymbol E^{n_i}{_i}\).(\(I := \{ i \}\), \(J := \varnothing\)

A n J n I K n J n I V JI a JI B n K n J A n J n I K n K n I V KI b KJ a JI nInJ · E nInJJI B nKnJ ·− b KJ ·− nInK · E nInKKI
图 1: 混合张量积的坐标表示
  • 混合张量缩并运算的坐标表达 式 5 升级为坐标张量的缩并形式 \(\boldsymbol C_{n_I}^{n_K} = \boldsymbol B_{n_J}^{n_K} \boldsymbol A_{n_I}^{n_J}\)这是 Einstein 求和约定的坐标张量视角.

  • 对偶关系 式 2 有张量形式 \(\boldsymbol E^{n_i}{_i} \boldsymbol E_{n_i}{^i} = \boldsymbol\delta_{n_i}^{n_i}\)

  • 反过来写的结果是 \(V^i \to V^i\) 上的恒同映射 \(\boldsymbol E_{n_i}{^i} \boldsymbol E^{n_i}{_i} = \mathbf{id}_{i}^{i}\)

Remark

注记. 值得注意的是,物理学家并不区分抽象指标和具体指标:他们不区分具体指标 \(\alpha_I\) 和抽象指标 \(I\),也不区分坐标空间 \(K^{n_I}\) 的抽象指标 \(n_I\) 和抽象线性空间 \(V\) 的抽象指标 \(I\):实践中往往会看到他们直接去掉 式 1, 式 3, 式 4 的求和号,并认为左上和右下也可以缩并——遇到例如 式 2 左上右下不应该缩并的情况,他们会手动更换记号区分两个 \(n_i\),例如写作 \(\boldsymbol E^{n_i^2}{_i} \boldsymbol E_{n_i^1}{^i} = \boldsymbol\delta_{n_i^1}^{n_i^2}\).笔者暂时无力为这种记号完成善后工作,上述解释仅供参考.

2 使用例

2.1 内积

\(V^i\) 上有双线性型 \(\langle -, - \rangle\)\(\boldsymbol a^i, \boldsymbol b^i \in V^i\).Recall 张量积泛性质,全体双线性型与 \(\mathrm{Hom}(V^i \otimes V^i, K) \cong V_i \otimes V^i\) 自然同构,故可用张量 \(\boldsymbol g_i^i \in V_i^i\) 表征该双线性型,则内积可写作张量缩并形式 \[ \langle \boldsymbol a^i, \boldsymbol b^i \rangle = \boldsymbol a_i \boldsymbol g_i^i \boldsymbol b^i \] 特别地,若该内积使得 \(\langle \boldsymbol e^{\alpha_i}, \boldsymbol e^{\beta_i} \rangle = \delta^{\alpha_i}_{\beta_i}\),即 \(\boldsymbol g_i^i = \boldsymbol\delta_i^i\),则有 \[ \langle \boldsymbol a^i, \boldsymbol b^i \rangle = \boldsymbol a_i \boldsymbol b^i \]

2.2 指标翻转

物理学家会写出形如 \(\boldsymbol a_i = g{_i}{_j} \boldsymbol a^j\) 的式子,我们来试着帮他们做一下善后工作.【TODO】

2.3 叉积

【TODO】