6.6 스펙트럴 분해와 정사영

우리는 이전에 선형대수학 1을 복습하면서 스펙트럴 정리를 배웠었다. $V$가 내적공간이고 $T \in \mathcal{L}(V)$이라 하자. 이제 모든 $x,y \in V$에 대해 $Tx\bullet y = x \bullet T^{*}y$가 되는 유일한 adjoint operator $T^{*}$를 정의할 수 있었음을 상기하라.

 

$\mathbb{F} = \mathbb{C}$이면, $TT^{*} = T^{*}T$인 모든 선형변환 $T$는 어떤 정규직교기저 $\beta$로 대각화 가능했고, $\mathbb{F} = \mathbb{R}$이면 $T = T^{*}$인 모든 선형변환 $T$는 어떤 정규직교기저 $\beta$로 대각화 가능했다. (체에 따라 조건이 다른 이유는 특성다항식이 체에서 일차식으로 분해되어야 하기 때문이었음을 상기하라.)

 

 

이제 오늘은 "정규직교기저로 대각화 된다"는 말을, 정사영의 개념을 통해 설명하고자 한다. 특히, (예컨대 $\mathbb{F} = \mathbb{C}$일 때) 임의의 normal operator는 정사영의 합으로 분해된다는 중요한 결과를 얻을 것이다. 이하에서는 $V$가 내적공간이라 가정하고, $\mathbb{F} = \mathbb{C}$이거나 $= \mathbb{R}$이라 가정하자.

 

 

우선 사영의 개념을 정의해야 한다.

정의. (사영)

$T \in \mathcal{L}(V)$라 하고, $V = W_{1} \oplus W_{2}$라 하자. 이제 $x = x_{1} + x_{2}, x_{1} \in W_{1}, x_{2} \in W_{2}$일 때, $T(x) = x_{1}$으로 주어지는 선형변환 $T$는 the projection on $W_{1}$ along $W_{2}$라 한다. 

 

 

정리. (사영의 조건)

$T \in \mathcal{L}(V)$가 사영이면, $T^{2} = T$인 것이다. 역으로, $T^{2} = T$이면, $T$는 사영이다.

증명.

$(\Rightarrow)$ $V = W_{1} \oplus W_{2}$라 하고, $T$는 $W_{2}$를 따르는 $W_{1}$에 대한 사영이라 하자. 또한 $x = x_{1} + x_{2}, x_{1} \in W_{1}, x_{2} \in W_{2}$라 하자. 

이제 $T^{2}(x) = T(T(x)) = T(x_{1}) = x_{1}$이다.

 

$(\Leftarrow)$ $T^{2} = T$인 어떤 선형변환 $T \in \mathcal{L}(V)$가 주어졌다 하자. 이제 $V = R(T) \oplus N(T)$임을 보이면 족하다.

우선 $V = R(T) + N(T)$임을 보이고자 한다. 

$x = T(x) + (x - T(x))$ 임은 자명하다.

이제 $T(x) = T^{2}(x) + T(x-T(x)) = T(x) + T(x-T(x))$이므로 $x - T(x) \in N(T)$이고, $V = R(T) + N(T)$임을 안다.

이제 $x \in R(T) \cap N(T)$라 하자. 이제 다음의 사실들이 모두 성립한다: 

$$\exists y \in V, x = T(y) \\ \Rightarrow 0 = T(x) = T^{2}(y) = T(y) = x$$

 

따라서 $R(T) \cap N(T) = \{0\}$이므로 $V = R(T) \oplus N(T)$이다.

 

 

위의 논의에 의해 일반적인 사영은 range와 nullity 모두에 의해 주어짐에 주목하라.

한편, range와 nullity가 직교 관계를 가지는 특별한 사영이 존재하는데 이를 정사영이라 한다:

 

 

정의. (정사영)

$T \in \mathcal{L}(V)$가 사영이라 하자. 이제 $R(T) = N(T)^{\perp}, N(T) = R(T)^{\perp}$이면 $T$는 정사영이다.

 

유한차원 벡터공간에서는 두 조건 중 하나가 다른 하나를 내포하나, 무한차원에서는 그렇지 않으므로 두 조건을 모두 서술하였다.

 

 

유한차원 벡터공간의 경우 정사영은 $R(T)$에 의해서 완전히 정의된다는 사실에 주목하라. 

 

다음의 정리는 사영이 정사영일 조건을 서술한다:

 

정리 6.24 (정사영의 조건)

내적공간 $V$에 대해 $T \in \mathcal{L}(V)$가 사영이라 하자. 이제 $T$가 정사영일 필요충분조건은 $T^{*}$이 존재하고 $T = T^{*}$인 것이다.

 

$(\Rightarrow)$ $T$가 정사영이라 하자. 이제 $V = R(T) \oplus N(T)$이고 $R(T)^{\perp} = N(T), N(T)^{\perp} = R(T)$가 성립한다. 임의의 $x,y\in V$를 고르자. $x = x_{1} + x_{2}, y = y_{1} + y_{2}, x_{1}, y_{1} \in R(T), x_{2}, y_{2} \in N(T)$라 하자.

 

이제 $Tx\bullet y = x_{1} \bullet y = x_{1} \bullet y_{1} = x \bullet y_{1} = x \bullet Ty$

가 성립하므로 $T^{*}$가 존재하며 $T^{*} = T$라는 사실을 알 수 있다.

 

 

$(\Leftarrow)$ 사영 $T$에 대해 $T^{*}$가 존재하고 $T^{*} = T$라 하자. 이제 정사영임을 보이고자 한다.

임의의 $x \in R(T), y \in N(T)$라 하자. 이제 $\exists z \in V, x = Tz$이고, $x \bullet y = z \bullet T^{*}y = z \bullet Ty = z \bullet 0 = 0$이라는 사실을 아므로, $R(T) \subset N(T)^{\perp}$이다. 마찬가지로 $N(T) \subset R(T)^{\perp}$이다. 따라서 $R(T) \subset R(T)^{\perp \perp}$인데, $R(T)^{\perp\perp} \subset R(T)$이므로 $R(T) = N(T)^{\perp}, N(T) = R(T)^{\perp}$가 성립한다. $\square$

 

 

이제 우리는 정사영의 용어를 통해 스펙트럴 정리를 서술하고 증명할 수 있게 되었다:

 

 

정리 6.25 (스펙트럴 정리 - 정사영 버전)

$V$는 유한차원 내적공간이라 하고, $T \in \mathcal{L}(V)$라 하자. $\mathbb{F} = \mathbb{C}$이면 $T$가 normal이고, $\mathbb{F} = \mathbb{C}$이면 $T$가 self-adjoint라 하자.

이제 ONB $\beta$에 의해 $T$가 대각화된다는 사실을 안다. $\lambda_{1}, ... , \lambda_{k}$가 $T$의 서로 다른 고윳값들이고, $W_{i} \space (1 \leq i \leq k)$는 $\lambda_{i}$에 대응되는 고유공간이라 하자. 마지막으로, $T_{k}$는 고유공간 $W_{k}$에 대한 정사영이라 하자.

 

이제 다음의 사실들이 모두 성립한다:

 

1) $V = W_{1} \oplus W_{2} \oplus ... \oplus W_{k}$

2) $W_{i}^{\perp} = \oplus_{j \neq i} W_{j}$

3) $T_{i}T_{j} = \delta_{ij}T_{i}, \space 1 \leq i,j \leq k$

4) $I = T_{1} + T_{2} + ... + T_{k}$

5) $T = \lambda_{1} T_{1} + \lambda_{2} T_{2} + ... + \lambda_{k} T_{k}$

 

 

증명.

1) $T$는 ONB $\beta$에 의해 대각화 가능하다는 사실을 안다. 따라서, 고유벡터들로만 이루어져 있는 기저가 존재한다. 이제 예컨대 $\beta = \{v_{1}, ... , v_{m_{1}}, v_{m_{1}+1}, ... , v_{m_{2}}, ... , v_{m_{k}}\}$라 하자. 또한 $v_{1} , ... , v_{m_{1}}$은 $\lambda_{1}$에 대응하는 고유벡터들이고, $v_{m_{i}+1},... , v_{m_{i+1}}$은 $\lambda_{i+1}$에 대응하는 고유벡터들이라 하자.

이제 기저의 정의에  의해 $W_{i} = span \{v_{m_{i-1}+1}, ... , v_{m_{i}}\}$이고, 따라서 $V = W_{1} + W_{2} + ... + W_{k}$이다. 한편 서로 다른 고유공간에 들어간 벡터들은 수직이므로, $V = W_{1} \oplus W_{2} \oplus ... \oplus W_{k}$이라는 사실이 도출된다. (뒷부분은 정리 5.11을 사용하여도 된다.)

 

2) 서로 다른 고유공간에 있는 벡터들끼리는 수직이고 내적은 첫 항에 대한 선형성과 둘째항에 대한 켤레선형성을 만족하므로, $\oplus_{j\neq i} W_{j} \leq W_{i}^{\perp}$임을 안다. 그런데 $V$가 유한차원 내적공간이고, $dim (\oplus_{j \neq i} W_{j}) = \Sigma_{j \neq i} dim(W_{j}) = dim(V) - dim(W_{i}) = dim(W_{i}^{\perp})$이고 따라서 두 공간은 같다.

 

3) $x = x_{1} + ... + x_{k}, \space x_{i} \in W_{i}$인 $x_{i}$가 유일하게 존재함을 안다.

한편 $T_{i}T_{j}(x) = T_{i}(x_{i}) = \begin{cases} 0 \space (i \neq j) \\ x_{i} \space (i = j) \end{cases} = \delta_{ij}T_{i}(x)$임을 안다. 모든 $x \in V$에 대해 이것이 성립하므로 두 선형변환은 같다.

 

4) $x = x_{1} + ... + x_{k}$로 나타냈다 하자.

이제 $\Sigma_{i=1}^{k} T_{i}(x) = \Sigma_{i=1}^{k} x_{i} = I(x)$이다.

모든 $x\in V$에 대해 이것이 성립하므로 두 선형변환은 같다.

 

5) $x = x_{1} + ... + x_{k}$로 나타냈다 하자.

이제 $\Sigma_{i=1}^{k} \lambda_{i}T_{i}(x) = \Sigma_{i=1}^{k} \lambda_{i}x_{i} = T(x)$이다.

모든 $x \in V$에 대해 이것이 성립하므로 두 선형변환은 같다. $\square$

 

 

이제 $T \in \mathcal{L}(V)$가 normal ($\mathbb{F} = \mathbb{C}$) / self-adjoint ($\mathbb{F} =\mathbb{R}$)이라 하고, $W_{i}$가 서로 다른 고유치 $\lambda_{i}$들에 대응하는 고유공간이라 하자. $\beta$는 이 공간들의 기저의 합집합이라 하면,

 

$[T]_{\beta} = \begin{bmatrix} \lambda_{1} I_{m_{1}} \space\space O \space\space ... \space\space O \\ O \space\space \lambda_{2} I_{m_{2}} \space\space ... \space\space O \\ \vdots \space\space \vdots \space\space \vdots \\ O \space\space O \space\space ... \space\space \lambda_{k}I_{m_{k}} \end{bmatrix}$

 

이다.

 

 

스펙트럴 정리에 의해 많은 따름정리들이 성립한다. 넓게 봐서는 이후 다룰 SVD, polar decomposition, pseudoinverse 모두 스펙트럴 정리의 따름정리이다. "그다지 제약적이지 않은 조건을 만족하는 많은 linear operator들을, 잘 행동하는 orthogonal projection들의 합으로 나타낼 수 있다"는 정리의 위력이라 할 수 있겠다.

 

따름정리 1.

유한차원 내적공간 $V$에 대해 $T \in \mathcal{L}(V), \mathbb{F} = \mathbb{C}$라 하자. 이제 $T \space normal \Leftrightarrow \exists g: poly., \space g(T) = T^{*}$이다.

증명.

$(\Leftarrow) T^{*} = g(T) = \Sigma_{i=0}^{m} a_{i}T^{i}$이다. 그런데 선형변환의 합성 시 스칼라곱은 순서와 무관하므로 $TT^{*} = \Sigma_{i=0}^{m} T(a_{i}T^{i}) = \Sigma_{i=0}^{m} a_{i} T^{i+1} = \Sigma_{i=0}^{m} (a_{i}T^{i})T = T^{*}T$이다.

 

$(\Rightarrow)$ $T$는 복소내적공간에서 normal하므로 ONB로 대각화 가능하다. $T$의 고유치들을 $\lambda_{1}, ... , \lambda_{k}$라 하자. 이제 스펙트럴 정리에 의해 정사영 $T_{1}, ... , T_{k}$가 존재하여 $T = \Sigma_{i=1}^{k} \lambda_{i} T_{i}$가 성립한다.

이제 Lagrange interpolation formula를 이용하여 $g(\lambda_{i}) = \overline{\lambda_{i}}$가 성립하는 다항식 $g$를 생각하자. $T_{i}T_{j} = \delta_{ij} T_{i}$를 이용하면, 임의의 다항식 $g$에 대해 $g(\Sigma_{i=1}^{k} \lambda_{i} T_{i}) = \Sigma_{i=1}^{k} g(\lambda_{i}) T_{i}$임을 안다.

그런데 위에서 구한 $g$를 생각하면,

 

$g(T) = \Sigma_{i=1}^{k} \overline{\lambda_{i}} T_{i} = \Sigma_{i=1}^{k} \overline{\lambda_{i}} T^{*}_{i} = (\Sigma_{i=1}^{k} \lambda_{i}T_{i})^{*} = T^{*}$이다. $\square$

 

 

따름정리 2.

$\mathbb{F} = \mathbb{C}$라 하고 $V$는 유한차원 내적공간이라 하자.

이제 $T \in \mathcal{L}(V)$라 할 때, 다음이 성립한다:

 

$T \space unitary \Leftrightarrow T \space normal, |\lambda_{i}|=1$

 

증명.

$(\Rightarrow)$ $T$가 유니터리하면 $T$가 normal하다. 따라서 $T$는 ONB로 대각화 가능하고, 스펙트럴 정리에 의해 정사영 $T_{1}, ... , T_{k}$가 존재하여,

$T = \lambda_{1}T_{1} + ... + \lambda_{k}T_{k}$이다.

 

이제 $T^{*} = \Sigma_{i=1}^{k} \overline{\lambda_{i}}T_{i}$이다. $T$가 유니터리이므로,

$I = TT^{*} = \Sigma_{i=1}^{k} |\lambda_{i}|^{2} T_{i} = \Sigma_{i=1}^{k} T_{i}$이다.

 

$x_{i} \in W_{i}$를 각각 대입하면 $|\lambda_{i}| = 1$임을 알 수 있다.

 

$(\Leftarrow)$ 이미 증명하였다.

 

 

따름정리 3.

$\mathbb{F} = \mathbb{C}$라 하고 $V$는 유한차원 내적공간이라 하자.

이제 $T \in \mathcal{L}(V)$가 normal하다 하자. $T$의 서로 다른 고윳값들을 $\lambda_{1},...,\lambda_{k}$라 할 때 다음이 성립한다:

$T \space self-adjoint \Leftrightarrow \lambda_{i} \in \mathbb{R}$

 

증명.

$(\Leftarrow)$ $T$가 normal하므로 스펙트럴 정리에 의해 정사영 $T_{1}, ..., T_{k}$가 존재하여 $T = \lambda_{1}T_{1} + ... + \lambda_{k}T_{k}$이다. 이제 $T$의 모든 고유치들이 실수라 하자. $T^{*} = \overline{\lambda_{1}}T_{1} + ... + \overline{\lambda_{k}}T_{k} = T$이다.

 

$(\Rightarrow)$ 이미 증명하였다.

 

따름정리 4.

$T$가 스펙트럴 정리를 적용할 요건들을 만족한다 하고, $T = \lambda_{1}T_{1} + ... + \lambda_{k}T_{k}$라 하자.

이제 각 $T_{i}$에 대해, 어떤 다항식 $g$가 존재하여 $T_{i} = g(T)$이다.

 

증명.

Lagrange interpolation formula를 쓰면 된다.

 

 

 

6.7 특이값 분해와 Pseudoinverse

1) 특이값 분해 (Singular Value Decomposition)

$V,W$는 유한차원 내적공간이고 $T \in \mathcal{L}(V,W)$라 하자. (아무런 제한이 없다!) 우리는 이전에 $T^{*}$를 $\mathcal{L}(V)$에 대해서만 정의했지만, 다음의 식을 만족하도록 $\mathcal{L}(V,W)$에 있는 $T^{*}$ 또한 (최소한 유한차원에서는) 유일하게 정의할 수 있다:

 

$$ v \in V, w \in W \Rightarrow (Tv \bullet w)_{V} = (v \bullet T^{*}w)_{W}$$

(아랫첨자는 각각의 벡터공간에서 정의된 내적을 사용한다는 의미이다.)

 

이제 이러한 사실을 염두에 두면, adjoint가 만족했던 많은 성질들 (eg. $(TU)^{*} = U^{*}T^{*}$)가 이 새로운 맥락에서도 성립함을 알 수 있다.

 

이제 $T^{*}T \in \mathcal{L}(V)$라는 새로운 linear operator을 고려하자. 다음의 사실들이 성립한다:

1) $(T^{*}T)^{*} = T^{*}T$이므로 이 새로운 linear operator은 self-adjoint하다.

2) $rank(T^{*}T) = rank(T)$이다.

3) $v \in V$에 대해 $(T^{*}Tv, v)_{V} = (Tv, Tv)_{W} \geq 0$이므로 $T^{*}T$는 positive semi-definite하다.

 

1)에 의해 체가 무엇인지에 상관없이 어떤 ONB $\beta = \{v_{1}, ... , v_{n}$로 대각화 가능하며, 6.6절의 따름정리 3에 의해 모든 고윳값들이 실수이다. 이제 $rank(T^{*}T) = rank(T) = r \leq n$이라 하고, $v_{i}$에 대응하는 고윳값들이 $\lambda_{1} \geq \lambda_{2} \geq ... \geq \lambda_{n} \geq 0$이라 하자 (모든 고윳값이 0보다 작지 않은 것은 3)에 의한 것이다). 특히 $r < n$이면, $\lambda_{r+1} = \lambda_{r+2} = ... = \lambda_{n} = 0$일 것이다. 

 

이제 $W$의 선형독립인 집합 $\{w_{1}, ... , w_{r} \}$을 다음과 같이 정의하자:

$$w_{i} := \frac{1}{\sqrt{\lambda_{i}} T(v_{i}),  \space 1 \leq i \leq r$$

 

이 집합이 정규직교집합이라는 것을 보이고자 한다.

a. 정규성의 증명.

$$(w_{i} \bullet w_{i})_{W} = \frac{1}{\lambda_{i}} (Tv_{i}, Tv_{i})_{W} \\ = \frac{1}{\lambda_{i}} (T^{*}Tv_{i}, v_{i})_{V} \\ = \frac{1}{\lambda_{i}} (\lambda_{i}v_{i}, v_{i}) = 1$$

 

b. 직교성의 증명.

$1 \leq i \neq j \leq r$이라 하자. 이제 $$(w_{i} \bullet w_{j})_{W} = \frac{1}{\sqrt{\lambda_{i}\lambda_{j}}}(Tv_{i}, Tv_{j})_{W} \\ = \frac{1}{\sqrt{\lambda_{i}\lambda_{j}}}(T^{*}Tv_{i}, v_{j})_{V} \\ = 0$$

 

 

이제 이 선형독립인 집합으로부터 그람-슈미트 과정에 의해 정규직교기저를 구성할 수 있다. 이 기저를 $\gamma = \{ w_{1}, w_{2}, ... , w_{m}\}$이라 하자.

 

이제 $$([T]_{\beta}^{\gamma})_{ij} = \begin{cases} \sigma_{i} = \sqrt{\lambda_{i}} \space (1 \leq i = j \leq r) \\ 0 \space (o.w.) \end{cases}$$

이다.

 

이러한 정보를 바탕으로 다음의 정리를 증명하자.

 

정리 6.26 (SVD)

$V,W$가 유한차원 내적공간이고 $T \in \mathcal{L}(V,W)$이고 $rank(T) = r$이라 하자. 이제 $V,W$의 정규직교기저 $\beta = \{v_{1},...,v_{n}\}, \gamma = \{w_{1},...,w_{m}\}$와 스칼라 $\sigma_{1} \geq \sigma_{2} \geq ... \geq \sigma_{r} > 0가 존재하여

$$T(v_{i}) = \begin{cases} \sigma_{i}w_{i} \space (1 \leq i \leq r) \\ 0 \space (i > r) \end{cases} ...(*)$$

가 성립한다.

 

역으로 $(*)$가 성립하는 정규직교기저들과 스칼라들이 주어졌다 하자. 이제 $v_{1}, ... , v_{n}$들은 $T^{*}T$의 고유벡터들이며, $v_{i}$에 대응하는 고유치는 $\sigma_{i}^{2} \space (1 \leq i \leq r), 0 \space (i > r)$이다. 따라서 위의 방법에 의해 도출되는 스칼라들은 유일하다.

 

증명.

첫 부분은 위의 논의에 의해서 모두 증명하였다.

따라서 유일성을 증명하는 것으로 족하다.

 

(*)를 만족하는 정규직교기저 $\beta = \{v_{1}, ... , v_{n}\}, \gamma = \{w_{1}, ... , w_{m}\}$이 주어졌다 하자. 

이제 $1 \leq i \leq r$을 고정하면, 모든 $j$에 대해 $(T^{*}Tv_{i}, v_{j})_{V} = (Tv_{i}, Tv_{j})_{W} = \sigma_{i}\sigma_{j} \delta_{ij} = (\sigma_{i}^{2}v_{i}, v_{j})_{V}$이므로 모든 $v \in V$에 대해서도 $(T^{*}Tv_{i}, v)_{V} = (\sigma_{i}^{2}v_{i}, v)_{V}$이다. 따라서 $T^{*}Tv_{i} = \sigma_{i}^{2}v_{i}$이다.

또한 $i > r$을 고정하면 모든 $j$에 대해 $(T^{*}Tv_{i}, v_{j})_{V} = (Tv_{i}, Tv_{j})_{W} = 0$이므로 마찬가지로 $T^{*}Tv_{i} = 0$이다. 따라서 증명이 완료된다. $\square$

 

이제 특이값의 존재성과 유일성이 정립되었으므로 이를 정의할 수 있게 되었다.

 

정의. (특이값)

정리 6.26에서 나오는 값 $\sigma_{1} \geq \sigma_{2} \geq ...\geq \sigma_{r} > 0$을 $T$의 특이값이라 부른다. 만약 $rank(T) < min(m,n)$이면, $\sigma_{r+1} = ... = \sigma_{min(m,n)} = 0$ 또한 $T$의 특이값이라 부른다.

 

이제 선형변환이 아닌 행렬에 대해서 특이값들을 구하고자 한다. 행렬의 경우 특히 행렬을 특수한 행렬들의 곱으로 분해할 수 있고 이 분해를 특이값 분해라 부른다.

 

$A \in \mathcal{M}_{m\times n}$이라 하자. 이제 이 행렬에 대응되는 선형변환 $L_{A}: \mathbb{F}^{n} \to \mathbb{F}^{m}$이 존재한다는 사실을 안다. 또한 $rank(A) = r$이라 하자.

 

이제 $L_{A}$은, 정리 6.26에 의해 $\mathbb{F}^{n}, \mathbb{F}^{m}$의 정규직교기저 $\beta, \gamma$와 특이값 $\sigma_{1} \geq \sigma_{2} \geq ... \geq \sigma_{r} > \sigma_{r+1} = ... = \sigma_{min(m,n)} =0$이 존재하여, 

 

$$([L_{A}]_{\beta}^{\gamma})_{ij} = \begin{cases} \sigma_{i} \space (1 \leq i = j \leq r) \\ 0 \space (o.w.) \end{cases}$$가 성립한다.

 

따라서, $\mathbb{F}^{n}, \mathbb{F}^{m}$의 표준기저들을 각각 $st_{n}, st_{m}$이라 표시하면,

 

$$ [L_{A}]_{st_{n}}^{st_{m}} = [I_{m}]_{\gamma}^{st_{m}} [L_{A}]_{\beta}^{\gamma} [I_{n}]_{st_{n}}^{\beta} $$이다.

 

이제 $[I_{m}]_{\gamma}^{st_{m}}$의 열벡터들은 $\gamma$의 벡터들로 정규직교기저를 이루므로, 이 행렬은 유니터리하다는 사실을 안다.

 

마찬가지로 $[I_{n}]_{st_{n}}^{\beta}$의 역행렬의 열벡터들은 $\beta$의 벡터들로 정규직교기저를 이루므로, 

이 행렬도 유니터리하다는 사실을 안다.

 

따라서 행렬 $A$에 대해, 유니터리 행렬 $U,V$와 $(\Sigma)_{ij} = \begin{cases} \sigma_{i} \space (1 \leq i = j \leq r) \\ 0 \space (o.w.) \end{cases}$를 만족하는 행렬 $\Sigma$가 존재하여,

$$ A = U\Sigma V^{*}$$가 성립한다.

 

이렇게 행렬을 분해한 결과를 특이값 분해라 한다. 특히, $\Sigma$의 주대각성분들은 $L_{A}$의 특이값들이고, 따라서 $AA^{*}$ 또는 $A^{*}A$의 고윳값들의 (양의) 제곱근임에 주목하라.

 

 

eg. Find the singular value decomposition for the matrix $A = \begin{bmatrix} 1 \space\space 1 \space\space -1 \\ 1 \space\space 1 \space\space -1 \end{bmatrix}$.

 

 

2) Polar Decomposition

우리의 목적은 복소수를 (양의 x축으로부터의 각)*(음이 아닌 실수)꼴로 나타냈듯, 정사각행렬 $A \in \mathcal{M}_{n\times n}$를 (유니터리 행렬)*(양의 준정부호 행렬)로 나타내는 것이다.

이것은 특이값 분해에 의해서 쉽게 이루어진다.

 

정리 6.28

$A \in \mathcal{M}_{n\times n}$이라 하자. 이제 유니터리 행렬 $W$와 양의 준정부호 행렬 $P$가 존재하여 $$A = WP$$가 성립한다.

또한, $A$가 가역이면 이 분해는 유일하다.

 

증명.

(존재성)

특이값 분해에 의해 

$$ A = U\Sigma V^{*}$$가 주어졌다 하자.

이제 $$ A = (UV^{*})(V\Sigma V^{*})$$이고, 유니터리 행렬의 곱은 유니터리이므로 첫 괄호로 묶은 행렬은 유니터리이며,

$$ (V \Sigma V^{*} x \bullet x) = (\Sigma V^{*}x \bullet V^{*}x) \geq 0$$이므로 둘째 괄호로 묶은 행렬은 양의 준정부호이다. 여기서 $\Sigma$는 대각행렬이며 모든 고유치가 음이 아니므로 양의 준정부호이다. 

 

(가역일 시 유일성)

$A$가 가역이라 하자. 이제 귀류법을 사용하여 $A = WP = ZQ$라 하고, $W,Z$는 유니터리, $P,Q$는 양의 준정부호라 하자.

 

그렇다면 $P,Q$는 가역행렬이여야 하므로 양의 정부호이며, $Z^{-1}W = QP^{-1}$은 유니터리 행렬이다.

그런데 $P,Q$는 양의 정부호 행렬이므로 $P,Q$는 self-adjoint하고, 따라서

$$ PQ^{-1} = (W^{-1}Z) = (Z^{-1}W)^{*} = (QP^{-1})^{*} = P^{-1}Q$$

이고, 따라서

$$ P^{2} = Q^{2}$$이다.

이제 $P,Q$가 양의 정부호이므로 $P = Q$여야 한다.

 

# 위의 주장에 대한 증명.

$P,Q$는 self-adjoint하므로 항상 ONB에 대해 대각화 가능하다. 대각화한 정규직교기저들을 각각 $\beta = \{v_{1}, ... , v_{n} \}, \gamma = \{w_{1}, ... , w_{n} \}$이라 하자.

또한 $P,Q$는 양의 정부호이므로 모든 고윳값이 0보다 크다.

이제 $P$의 고윳값을 $\lambda_{1} > \lambda_{2} > ... > \lambda_{s} > 0$, $Q$의 고윳값을 $\mu_{1} > \mu_{2} > ... > \mu_{t} > 0$이라 하자.

 

이제 다음을 보일 것이다:

a) $\lambda_{1} = \mu_{1}$

b) $Pv = \lambda_{1} v \Leftrightarrow Qv = \mu_{1} v$

c) s = t, $P=Q$

 

a)의 증명.

일반성을 잃지 않고 $\lambda_{1} > \mu_{1}$이라 하자.

이제 일반성을 잃지 않고 $Pv_{1} = \lambda_{1}v_{1}$를 만족한다 하자.

이제 $\gamma$는 $\mathbb{F}^{n}$의 기저이므로, $v_{1} = \Sigma_{i=1}^{n} a_{i} w_{i}$인 $a_{i} \in \mathbb{F}$가 존재하고, 특히 두 벡터의 노름이 동일해야 하므로 $\Sigma_{i=1}^{n} |a_{i}|^{2} = 1$이 성립한다.

 

그런데 $P^{2}v_{1} = \lambda_{1}^{2} v_{1} = \Sigma_{i=1}^{n} a_{i}\mu_{\psi(i)}^{2} w_{i}$이다. 여기서 $\psi(i)$는, $w_{i}$에 대응하는 고유치를 돌려주도록 설정된 함수이다. 노름을 재면 한편으로는 $\lambda_{1}^{2}$이고 다른 한편으로는 $\mu_{1}^{2}$보다 클 수 없으므로, 이는 모순이다.

 

b)의 증명.

이제 $Pv = \lambda_{1}v$라고 하자. 일반성을 잃지 않고 $||v|| = 1$이라 하자.

이제 $v = w + z, Qw = \mu_{1}w, z \in W_{1}^{\perp}$라고 하자.

두 부분공간은 수직이므로 $1 = ||w||^{2}+||z||^{2}$이다.

또한 $||Q^{2}v||^{2} = ||P^{2}v||^{2} = \lambda_{1}^{4} = \mu_{1}^{4} ||w||^{2} + ||Q^{2}z||^{2} \leq \mu_{1}^{4} ||w||^{2} + \mu_{2}^{4} ||z||^{2} \leq \mu_{1}^{4}$이다. 그런데 등호가 항상 성립해야 하므로 가능한 유일한 경우는 $||w|| = 1, ||z|| = 0$인 경우이다. 반대의 경우도 마찬가지로 증명할 수 있다.

 

c)의 증명.

이제 $P,Q$ 모두 가장 큰 고윳값 $\lambda_{1}$에 대응하는 고유공간이 같으므로 이 고유공간을 $E_{\lambda_{1}}$이라 표기하자. 이제 $L_{P}, L_{Q}$를 $E_{\lambda_{1}}^{\perp}$에 제한한 선형변환에 대해서 동일한 논의를 반복하면 두 행렬의 고윳값들이 모두 같고, 대응하는 고유공간이 모두 같아진다는 결론을 얻는다. 이는 어떤 유니터리 행렬 $W$가 존재하여, $P = W^{-1}DW = Q$임을 의미한다. 따라서 증명이 완료되었다.

$\square$

 

 

3) Pseudoinverse

$T \in \mathcal{L}(V,W)$라 하자. 일반적으로 $dim(V) = dim(W)$이고 $T$가 전단사이면 역변환 $T^{-1}$을 정의할 수 있었음을 상기하라. 그러나 이것이 성립하지 않는 경우에도 "역변환과 가장 가까운 변환" $T^{\dagger} \in \mathcal{L}(W,V)$를 정의할 수 있으면 좋을 것이다.

 

다음과 같이 pseudoinverse를 정의하자:

 

정의. (Pseudoinverse)

$V,W$가 유한차원 내적공간이고 $T: V \to W$가 선형변환이라 하자.

 

$L: N(T)^{\perp} \to R(T)$는 $x \in N(T)^{\perp} \Rightarrow L(x)= T(x)$로 주어진다고 하자.

이제 $N(L) = \{0\}$이므로, dimension theorem에 의해 $L$은 전단사라는 사실을 알고, 다음과 같이 Moore-Penrose Pseudoinverse를 정의할 수 있다:

 

$$ T^{\dagger}(x) = \begin{cases} L^{-1}(x) \space (x \in R(T)) \\ 0 \space (x \in R(T)^{\dagger}) \end{cases}$$

 

이제 특이값 분해를 이용하여 pseudoinverse를 명시적으로 구해 보자.

 

$T: V \to W$이고 $V,W$가 내적공간이어서 정리 6.26의 조건이 성립한다 하자. 또한 $rank(T) = r \leq min(m,n)$이라 하자. 이제 각각 $V,W$의 정규직교기저인 $\beta = \{v_{1}, ... , v_{n}\}, \gamma = \{w_{1}, ... , w_{m} \}$와 특이값 $\sigma_{1} \geq \sigma_{2} \geq ... \geq \sigma_{r} > 0$가 존재하여

$$T(v_{i}) = \begin{cases} \sigma_{i}w_{i} \space (1 \leq i \leq r) \\ 0 \space (i > r) \end{cases}$$

가 성립한다. 여기서 특히 $span\{v_{1}, ... , v_{r} \} = N(T)^{\perp},  span\{v_{r+1},...,v_{n}\} =N(T), span\{w_{1},...,w_{r}\} = R(T)$임에 주목하라.

 

 

따라서 $T$의 pseudoinverse는 다음과 같이 주어진다:

 

$$ T^{\dagger}(w_{i}) = \begin{cases} \frac{1}{\sigma_{i}} v_{i}} \space (1 \leq i \leq r) \\ 0 \space (i > r) \end{cases}$$

 

 

선형변환의 pseudoinverse를 보았으므로 이제 행렬의 pseudoinverse를 다루고자 한다.

$A \in \mathcal{M}_{m\times n}$이라 하자. 이제 관련된 선형변환 $L_{A}: \mathbb{F}^{n} \to \mathbb{F}^{m}$이 존재한다.

 

이제 $A^{\dagger} = [L_{A}^{\dagger}]_{st}^{st}$로 정의한다.

즉, $$ (L_{A})^{\dagger} = L_{A^{\dagger}}$$가 성립하도록 $A$의 pseudoinverse를 정의한다.

 

행렬의 경우 특이값 분해가 가능했으므로, 특이값 분해를 바탕으로 pseudoinverse를 분석해 보자.

 

$A = U\Sigma V^{*}$의 특이값 분해가 이루어졌다 하자.

특히 $U,V$는 유니터리 행렬이고 $\Sigma_{ij} = \begin{cases} \sigma_{i} \space (i=j \leq r) \\ 0 \space (o.w.) \end{cases}$라 하자.

 

 

이제 다음의 정리를 얻는다:

 

정리 6.29 $A \in \mathcal{M}_{m\times n}, rank(A) = r$이고 특이값들 $\sigma_{1} \geq \sigma_{2} \geq ... \geq \sigma_{r}$을 가지며 특이값 분해 $A = U\Sigma V^{*}$가 주어졌다 하자. 또한 $\Sigma^{\dagger}$은 다음과 같이 정의된다 하자:

 

$$ \Sigma_{ij}^{\dagger} = \begin{cases} \frac{1}{\sigma_{i}} \space (i=j \leq r) \\ 0 \space (o.w.) \end{cases}$$

 

이제 $A^{\dagger} = V \Sigma^{\dagger} U^{*}$은 $A^{\dagger}$의 특이값 분해이다.

 

증명.

$L_{V\Sigma^{\dagger}U^{*}} = L_{U\Sigma V^{*}}^{\dagger}$임을 보이면, $U, V$가 유니터리이고 $\Sigma^{\dagger}$는 정리 6.27의 형태를 띠므로 증명을 완료하는 데 충분하다.

 

 

$V$의 열벡터들이 이루는 기저를 $\beta = \{v_{1}, ... , v_{n} \}$, $U$의 열벡터들이 이루는 기저를 $\gamma = \{w_{1}, ... , w_{m}\}$이라 하자.

 

 

이제 $L_{A}(v_{i}) = \begin{cases} \sigma_{i}u_{i} \space (1 \leq i \leq r) \\ 0 \space (i > r) \end{cases}$이고, $R(T) = span\{w_{1}, ... , w_{r}\}, N(T)^{\perp} = span\{v_{1},...,v_{r}\}$이다.

 

또한 $L_{A^{\dagger}}(w_{i}) = V \Sigma^{\dagger} U^{*} (Ue_{i}) = V\Sigma^{\dagger}e_{i} = \begin{cases} \frac{1}{\sigma_{i}} v_{i} \space (1 \leq i \leq r) \\ 0 \space (i > r) \end{cases}$이므로, $L_{A^{\dagger}} = (L_{A})^{\dagger}$임을 보였다. $\square$

 

 

 

마지막으로 선형연립방정식 체계와 pseudoinverse의 관계를 살펴보자. 만약 $A \in \mathcal{M}_{n \times n}(\mathbb{F})$이 가역이면, 선형연립방정식 체계 $Ax = b$는 유일한 근 $x = A^{-1}b$를 가진다. 그러나 $A$가 가역이 아닐 때에 이 방법을 쓸 수 없다는 단점이 존재한다. 우리는 다음의 조건들을 만족하는 어떤 알고리즘을 원한다 하자:

 

(i) $Ax = b$에 해가 존재한다면, $||x||$가 가장 작은 해를 돌려준다.

(ii) $Ax = b$에 해가 존재하지 않는다면, $||Ax-b||$가 가장 작은 $x$를 돌려준다.

 

 

이제 다음의 정리는 pseudoinverse가 이 알고리즘과 밀접한 관련이 있음을 시사한다:

 

정리 6.30 

연립방정식 체계 $Ax = b, A \in \mathcal{M}_{m\times n}, b \in \mathbb{F}^{m}$이라 하자. $z = A^{\dagger}b$라 하면, $z$는 다음의 성질들을 가진다:

 

(i) $Ax = b$에 해가 존재한다면, $z$는 해이며 $||z||$는 해 중에서 가장 작다. 

(ii) $Ax = b$에 해가 존재하지 않는다면, $z$는 $||Az-b|| \leq ||Ax-b||$를 만족한다. 즉 $Az$는 $b$에 가장 가까운 $R(L_{A})$의 원소이다.

 

 

증명.

우선 다음의 사실을 확인하자:

$T: V \to W$가 내적공간 사이의 선형변환이고, $T^{\dagger}: W \to V$가 그 pseudoinverse라 하자.

이제 $T^{\dagger}T$는 $N(T)^{\perp}$에의 정사영이고, $TT^{\dagger}$은 $R(T)$에의 정사영이다.

증명은 $T^{\dagger}$의 정의로부터 바로 유도된다.

 

 

이제 행렬 $A$로 유도되는 선형변환 $L_{A}$를 고려한다. $b \in R(L_{A})$라 하자. 이 경우 $L_{AA^{\dagger}} = L_{A}L_{A^{\dagger}} = L_{A}(L_{A})^{\dagger}$은 $R(L_{A})$에의 정사영이므로 $AA^{\dagger}(b) = b$이다.

특히, $Aw = b = AA^{\dagger}b$가 성립하면, $w - z \in N(T)$이므로, $||w||^{2} = ||w-z||^{2} + ||z||^{2} \leq ||z||$이다.

 

이제 $b \notin R(L_{A})$라 하자.

이 경우 $b = w_{1} + w_{2}, w_{1} \in R(L_{A}), w_{2} \in R(L_{A})^{\perp}$이다.

따라서 $AA^{\dagger}b = w_{1} = Az$이고, 만약 $x \in \mathbb{F}^{n}$이면,

 

$$ ||Ax - b||^{2} = ||A(x-z)||^{2} + ||Az - b||^{2} \leq ||Az-b||^{2}$$이다. $\square$

 

 

 

다음 글에서는 연습문제를 몇 개 풀도록 하겠다.

+ Recent posts

cs