100만년 만에 지옥에서 돌아온 주인장이다!

결국 기말고사 기간이 겹치기 시작하면서 라텍스 연습과 블로그 글쓰기를 유기해버렸었다.

기말이 얼추 끝난 지금 블로그를 어떻게 운영해갈까 고민을 하다 보니, 그냥 내가 보는 책들의 연습문제 풀이를 하는 용도로 사용하는 것이 좋을 것 같다는 생각이 들었다. 

 

책 소개를 조금 하자면, 이 책은 행렬과 행렬곱으로 이루어진 각종 군들을 분석하는 책이다. 선대 수업에서 이 책을 5장까지 했었는데, 책이 뒤에 내용이 흥미로운 부분이 많은 것 같아서 독학으로 공부하기로 했다.

 

 

바로 들어가 보자!

 

** 다만, 이 책의 경우 표기법이 매우 비통상적인 경우가 많아서, 잘 감안하도록 하자. 예컨대 통상적으로 path-connected라고 표시하는 성질을 이 책은 connected라고 표시한다.

 

1. Show that the definition of continuity reduces to the usual $\epsilon-\delta$ definition for $f:(a,b) \to \mathbb{R}$.

proof.

Recall that a function defined on metric spaces $f: (M,d) \to (N,d')$ is continuous at $x \in M$ if

$$\forall \epsilon>0, \exists \delta > 0 \space\space s.t. \space\space z \in B(x,\delta) \Rightarrow f(z) \in B(f(x),\epsilon)$$

 

now if $M = (a,b), N= \mathbb{R}$ and the distance functions are given by the absolute value,

 

$$z \in B(x,\delta) \Leftrightarrow |z-x|<\delta, f(z) \in B(f(x),\delta) \Leftrightarrow |f(z)-f(x)|<\epsilon$$

 

which implies

 

$$\forall \epsilon > 0, \exists \delta >0 s.t. |z-x|<\delta \Rightarrow |f(z)-f(x)| < \epsilon$$

Which is what we wished to show.

 

 

2. Suppose we have $A\subset \mathbb{R}^{n}$ and have functions

$$ A \xrightarrow{f} \mathbb{R}^{m}, f(A) \xrightarrow{g} \mathbb{R}^{p}$$.

 

We have seen that f and g continuous implies that $g \circ f$ is continuous. Give examples to show:

 

i) f contiuous and $g \circ f$ continuous does not imply g is continuous.

ii) g continuous and $g \circ f$ continuous does not imply f is continuous.

 

Sol of i).

Consider the simplest cases, $m=p=1$

We may have $$f: \mathbb{R} \to \mathbb{R}, f(x)\mapsto sin(x)$$ 

and $$g: \mathbb{R} \to \mathbb{R}, g(x)\mapsto \begin{cases} 0 \space\space x \leq 0 \\ 2\pi \space\space x > 0 \end{cases}$$

 

Where clearly g is discontinuous at $x=0$, but $g\circ f$ is continuous.

 

 

Sol of ii).

We may have $$f: \mathbb{R} \to \mathbb{R}, f(x)\mapsto \begin{cases} 0 \space\space x \leq 0 \\ 2\pi \space\space x>0 \end{cases}$$, $$g: \mathbb{R} \to \mathbb{R}, g(x)\mapsto sin(x)$$

then f is discontinuous at $x=0$ but $f\circ g$ is continuous.

 

 

3. Show that for $A\subset \mathbb{R}^{n}, f: A \to \mathbb{R}^{m}$, if f is continuous for each open set $U \subset \mahtbb{R}^{m}$, then $f^{-1}(U)$ is an open set in A.

 

proof.

It suffices to show that $f$ is continuous at every point of $\mathbb{R}^{m}$. But since $\mathbb{R}^{m}$ is clearly an open set in $\mathbb{R}^{m}$, it follows that $f$ is continuous at every point, which proves the claim.

(제대로 푼 건지 잘 모르겠다.)

 

 

 

4. Show that if A,B are connected sets in $\mathbb{R}^{n}$ and $A\cap B \neq \emptyset$, then $A\cup B$ is connected.

proof.

As $A\cap B \neq \emptyset, \exists x \in A\cap B$.

Take two elements $y,z\in A\cup B$. Say that $y \in A, z \in B$ (however in all four cases the argument remains identical).

 

As $x \in A\cap B$, there exists a path $\gamma_{1} : [0,\frac{1}{2}] \to A, \gamma(0) = y, \gamma(\frac{1}{2}) = x$.

Further, there also exists a path $\gamma_{2}: [\frac{1}{2},1] \to B, \gamma(\frac{1}{2}) = x, \gamma(1) = z$

appending the two paths together by $$\gamma : [0,1] \to A\cup B, \gamma(t) = \begin{cases} \gamma_{1}(t) \space\space 0 \leq t \leq \frac{1}{2}, \gamma_{2}(t) \space\space \frac{1}{2} < t \leq 1 \end{cases}$$ results in a (continuous) path in $A\cup B$ connecting y and z, as desired. Since y and z are arbitrary this shows connectedness of $A\cup B$.

 

 

 

5. Let H be any connected subgroup of a matrix group G. Show that

$$ S = \cup_{x \in G} xHx^{-1}$$

is connected.

 

proof.

It suffices to show the following:

Claim.

If $z \in xHx^{-1}, \exists \gamma: [0,1] \to xHx^{-1}, \gamma(0) = z, \gamma(1) = I$

or that any element of $xHx^{-1}$ is connected to the identity matrix I.

 

proof of the claim.

If $z \in xHx^{-1}, \exists h\in H, z = xhx^{-1}$.

Since $I \in H, \exists \xi : [0,1] \to H, \xi(0) = h, \xi(1) = I$.

We now define $\gamma : [0,1] \to xHx^{-1}, \gamma(t) = x*\xi(t)*x^{-1}$.

Then clearly $\gamma(0) = xhx^{-1} = z, \gamma(1) = I, \gamma(t) \in xHx^{-1}$.

Continuity follows from the fact that the left product $L_{x}: G \to G, L_{x}(y) \mapsto xy$ and right product $R_{x}: G \to G, R_{x}(y) \mapsto yx$ is continuous in a matrix group G, and $H \leq G$. (this is shown in problem 6.)

 

Therefore $z \in xHx^{-1}$ and I are connected. Therefore if we have $y,z \in \cup_{x\in G} xHx^{-1}$, we first think of a curve from y to I, then append it with a curve from I to z.

 

 

 

6. Show that matrix multiplication is continuous (with one matrix fixed); that is, $A \in M_{n}(k), L_{A}: M_{n}(K) \to M_{n}(K)$ given by $L_{A}(B) = AB$ is continuous.

proof.

Since all matrices of size n are isomorphic to real vector spaces of dimension $n^{2} (K = \mathbb{R}), 2n^{2} (K=\mathbb{C}), 4n^{2} (K = \mathbb{H})$, it suffices to show that the function $L_{A,ij}: M_{n}(K) \to K, L_{A,ij}(B) = (AB)_{ij}$ is continuous.

 

But $(AB)_{ij} = \Sigma_{k=1}^{n} a_{ik}b_{kj}$; as the function taking the ij-th component of a matrix $ij : M_{n}(K) \to K, ij(A) \mapsto a_{ij}$ is continuous, multiplying a field (or division ring) element by another to the right is continuous, and adding continuous functions is continuous, it follows that $L_{A,ij}$ is also continuous for all i,j, implying $L_{A}$ is continuous.

 

 

7. Show that an arbitrary union of open sets is open. (with the usual toplogy in a metric space)

proof.

Consider $\{U_{\alpha}\}$, a collection of open sets in some metric space (M,d).

If $x\in \cup_{\alpha} U_{\alpha}$, $\exists U' \in \{U_{\alpha}\}, x\in U'$

Since $U'$ is open, $\exists \epsilon > 0, B(x,\epsilon) \subset U' \subset \cup_{\alpha} U_{\alpha}$

but this implies (since x was arbitrary) that $\cup_{\alpha} U_{\alpha}$ is open.

 

 

 

8. Let $A \subset \mathbb{R}^{n}, x\in \mathbb{R}^{n}$. We say that x is a limit point of A  if

$$B(x,r)\cap A$$

is an infinite set for all $r>0$.

Show that $C \subset \mathbb{R}^{n}$ is closed $\Leftrightarrow (x \space lp \space C \Rightarrow x \in C)$.

proof.

$(\Rightarrow)$

We will show that $\mathbb{R}^{n} - C$ is open.

Assume $x \notin C$; then x is not a limit point of C, so $\exists r>0, B(x,r) \cap C = \{x_{1},...,x_{n}\}$ is finite.

That means by taking $r < min\{d(x,x_{1}), ... , d(x,x_{n})\}$ we have $B(x,r) \cap C = \emptyset$ or $B(x,r) \subset \mathbb{R}^{n} - C$ implying that this set is open.

 

$(\Leftarrow)$

Suppose $C \subset \mathbb{R}^{n}$ is closed and $x \space lp \space C$.

We will show that $x \in C$. Suppose it is not the case and $x \notin C$. Then since $\mathbb{R}^{n} - C$ is open,

$\exists r>0, B(x,r) \subset \mathbb{R}^{n} - C$. But this implies $B(x,r)\cap C = \emptyset$ which is not infinite; this is a contradiction, which arises from our assumption that $x \notin C, x \space lp \space C$. This concludes the proof.

 

 

9. Let $D \subset \mathbb{R}^{n}$ be open and closed. Show that if D is not empty, then $D = \mathbb{R}^{n}$.

proof.

Suppose $D \neq \emptyset, D \neq \mathbb{R}^{n}$. Then $\exists x \in \mathbb{R}^{n} - D$. Take $x \notin D, y \in D$. Since $\mathbb{R}^{n}$ is connected, we can always have some continuous $\gamma : [0,1] \to \mathbb{R}^{n}, \gamma(0) = x, \gamma(1) = y$. Now $D \cap \gamma ([0,1])$ must be an open and closed set in $\gamma([0,1])$. Since it is bounded as well and has a smallest element. The smallest element must be zero, for it it were greater we can always take a ball around it that has a smaller element. But then this implies $\gamma(0) \in D$, a contradiction to $x \notin D$.

 

 

우리는 선형변환을 대각화함으로써 실용적으로는 계산을 크게 단순화할 수 있었으며, 이론적으로는 큰 차원에서 작동하는 선형변환을 일차원 선형변환들의 직합 (내적공간에서는 Spectral theorem에 의해 정사영들의 직합)으로 나타낼 수 있었다. 그러나 대각화에는 큰 약점이 있는데, 그것은

 

1) 모든 선형변환이 대각화 가능하지는 않다는 것이며,

2) 대각화 가능 여부를 알기 위해서는 algebraic multiplicity (특성다항식에 나타나는 $(t-\lambda_{i})$의 지수)와 geometric multiplicity ($N(T-\lambda_{i}I)$의 차원)가 일치하는지를 모든 고윳값에 대해 일일이 살펴보아야 한다는 것이다.

 

 

이 약점들을 극복하기 위해 고안된 분해가 있는데, 이 분해는 벡터공간에서 정의된 임의의 선형변환에 대해 항상 사용할 수 있다는 장점이 있다. 반면 일반적으로 대각화에 비해서 분해하는 공간의 개수가 적고, 분해의 결과 나타나는 불변공간들의 차원이 크다는 단점이 있다. 이 분해를 rational decomposition이라 하고, 선형변환의 대각화가 diagonal matrix를 유도했던 것처럼 선형변환의 rational decomposition은 rational canonical form이라는 특수한 행렬을 유도한다.

 

 

RCF와 diagonalization의 장단점을 절충(?)한 분해로는 Jordan decomposition이 있다. 이 분해의 경우 특성다항식이 일차식으로 분해될 때 사용할 수 있으며, 조르당 분해에 의해 유도된 Jordan canonical form은 주대각성분에 고윳값이, 그 바로 위 대각선에 1이 있고 나머지 성분들은 0으로 구성되는 특징이 있다.

 

 

우리의 목표는 벡터공간 $(V,\mathbb{F})$가 있고 선형변환 $T:V\to V$가 있을 때, $V$를 보다 작은 공간들로 분해하는 것이다. 이 때 분해된 공간들은 $T$-불변이라는 특징을 가져야 할 것이다. 가장 먼저 떠오르는 $T$-불변 부분공간들은, 벡터 $x\in V$를 고정했을 때 $C_{T}(x):=span(\{x,Tx,T^{2}x,...\})$이다. 이 때 $C_{T}(x)$의 차원은 아무리 크더라도 $V$의 차원을 넘지는 못한다는 사실을 안다.

 

 

이제 자연스러운 질문은, $T:V\to V$가 선형변환일 때 $C_{T}(x):=span(\{x,Tx,T^{2}x,...\})$들의 직합으로 나타낸 $V$의 기저가 있냐는 것이다. 이 질문에 대한 대답이 임의의 선형변환에 대해 '예'라면, 우리의 목표를 달성한 것이라 할 수 있겠다.

 

우리의 목표가 정해졌으므로 정의를 내린다:

 

정의. (Rational Canonical Form)

유한차원 벡터공간 $V$ 위에서 정의된 선형변환 $T:V\to V$가 있다고 하자. 이제 $V$의 어떤 기저 $\beta$가 존재하여, $[T]_{\beta} = M_{1} \oplus M_{2} \oplus ... \oplus M_{k}$가 성립한다 하자.

이 때, $$M_{i} = \begin{pmatrix} 0 \space 0 \space ... \space 0 \space -c_{0} \\ 1 \space 0 \space ... \space 0 \space -c_{1} \\ \vdots \space \vdots \space ... \space \vdots \space \vdots \\ 0 \space 0 \space ... \space 1 \space -c_{n} \end{pmatrix}$$

으로 주어진 행렬이다. (이는 곧 어떤 부분공간 $C_{T}(x)$를 기저 $\{x,Tx,...,T^{n-1}(x)\}$로 표현한 행렬이다.)

이때 $[T]_{\beta}$는 선형변환 T의 rational canonical form이라 한다.

 

 

정의. (Rational Canonical Basis)

위와 마찬가지로 선형변환 $T:V\to V$가 있다 하고, 기저 $\beta$가 존재하여 $[T]_{\beta}$가 RCF가 된다 하자.

이때 기저 $\beta$를 $T$의 rational canonical basis라 한다.

 

만약 우리가 RCB를 어떤 방식으로든지 얻었다면, 그 기저는 $\beta = \gamma_{1} \cup \gamma_{2} \cup ... \cup \gamma_{n}$의 꼴을 띨 것이고, 각 $\gamma_{i} = \{ x_{i}, Tx_{i}, ... , T^{n_{i}-1} x_{i}\}$의 형태를 띨 것이다.  그렇다면 당장 문제가 되는 것은 두 가지이다:

 

a. 과연 서로 다른 $x_{i}, x_{j}$로부터 구성한 $\gamma_{i}, \gamma_{j}$가 선형독립일까?

b. 만약 $\beta_{i} := \gamma_{1} \cup ... \cup \gamma_{i}$까지는 선형독립인 집합이라 할 때, $\gamma_{i+1}$을 어떻게 찾을 것인가? 예컨대 내적공간이라면 $W_{i} := span(\beta_{i})$을 정의한 후 $W_{i}^{\perp}$를 살펴보면 그만이겠지만, 문제는 우리가 내적공간에서 더 이상 노는 것이 아니라는 데에 있다.

 

 

이제 다음 글에서 a에 대한 답을 얻어보도록 하자.

오늘은 100만년 만에 정규연재글과 비슷한 무언가로 돌아온 필자이다.

최근 필자가 복습에 굉장히 게을렀는데, 이유는 첫째 진짜 게을러서(...)이고 둘째는 한 주 동안 아팠기 때문이다.

 

 

그래서 오늘 과제를 하면서 책도 찾아보고 필기도 뒤져가면서 나름 큰 그림부터 다져가는 작업을 하였고, 기말고사 범위의 내용들은 세부적인 증명이나 caveat들은 나중에 채우는 방식으로 공부하기로 했다. 물론 이러면 성적은 100% 타격을 받을 것이다. 그렇지만 장기적으로는 이 새로운 방식이 좋다고 생각할 뿐만 아니라, 큰 그림에 집중하면 보다 더 본질적인 고민 (이 과목을 도대체 왜 배우는가?)에 신경을 쓸 수 있게 되지 않을까 하는 것이 나의 바람이다.

 

 

따라서 오늘은 Rudin 11단원. Lebesgue Theory의 큰 그림을 소개하고자 한다.

 

 

우리는 리만-스틸체스 적분을 배우면서, $f: \mathbb{R} \to \mathbb{R}$ 꼴의 실함수들이 예컨대 연속이거나 유한 점에서만 불연속하고 $\alpha$가 $f$의 불연속점들에서 연속이라면 폐구간 $[a,b]$에서 $f$의 크기에 대한 정보를 함축하는 하나의 좋은 숫자를 스틸체스 적분, 즉 $\int_{a}^{b} fd\alpha$의 작업을 통해 얻을 수 있었다. 이 작업이 또한 선형성과 단조성을 만족한다는 사실은 결코 사소하지 않은 사실들이다.

 

 

그러나 이러한 방식은, 그 모든 장점에도 불구하고 결국 실함수에서만, 그것도 꽤나 제약적인 조건이 붙는 실함수에서만 사용할 수 있다는 치명적인 단점이 있다 (나중에 살펴보겠지만, 어떤 함수가 폐구간에서 리만적분가능할 필요충분조건은 거의 모든 곳에서 연속인 것이다). 따라서 르벡 이론의 제 1 목표는 더 일반적인 공간을 정의역으로 가지는 실함수들의 크기에 대한 정보를 잘 요약하는 적분을 정의하는 것이다.

 

 

그러나 실함수다 하더라도 정의역에 대해 아무것도 모르면 우리는 적분을 정의할 수 없다. 에컨대 집합 전체에서 1로 정의된 함수는 집합 절반에서는 1, 절반에서는 0으로 정의된 함수보다 '크다'고 직관적으로 말하고 싶다. '집합 전체', '집합 절반'에 대해 이야기하려면 집합의 크기를 재는 어떤 도구가 필요하고, 르벡 이론에서는 이를 측도가 맡는다. 이런 도구들이 아무렇게나 정의되어서는 곤란할 것이고, 예컨대 '크기는 음이 아니다'라는 직관과 일치하도록 양의 실수 또는 $+\infty$만을 가지도록 정의될 것이고, '크기는 가법적이다'라는 직관과도 일치하도록 정의될 것이다.

 

 

(의문: msble function이 어디서 나타나야 하는가??)

 

 

특히 $\mathbb{R}^{n}$에서는 우리가 이미 크기에 대해 가지고 있는 직관이 있다: n-box $\Pi_{i=1}^{n} (a_{i}, b_{i})$의 크기는 $\Pi_{i=1}^{n} (b_{i}-a_{i})$여야 한다는 직관이 그것이다. 따라서 특별히 $\mathbb{R}^{n}$에 대해서는, 이러한 직관과 일치하면서 위에서 살펴본 n-box보다 넓은 종류의 집합들에서 정의할 수 있는 측도가 존재하는지가 관심사일 것이다. 그런데 Vitali set와 같은 반례가 이야기하듯, 이런 직관들을 모두 유지하면서 $\mathbb{R}^{n}$의 모든 부분집합에 대해 크기를 잘 정의할 수 없다. 따라서 필연적으로 이런 성질들이 잘 유지되는 집합들 위에서만 측도를 정의하려고 하는데, 이런 노력의 결과가 $\sigma$-ring, $\sigma$-algebra라고 할 수 있다.

 

 

 

정리하자면, 르벡 이론의 목표는 보다 일반적인 함수들의 크기에 대해 이야기할 수 있는 적분을 정의하는 것이다. 이것을 하기 위해서는 정의역의 크기에 대해서도 이야기할 수 있어야 하므로 측도가 필요하다. 그런데 임의의 집합에 대해서 측도를 정의하려고 하면 크기에 대한 직관과 충돌하는 지점이 생기므로, 크기에 대한 직관 (음이 아닌 성질이나 가법성)을 유지할 수 있는 집합의 범위를 표현하기 위해서 $\sigma$-ring, $\sigma$-algebra의 언어가 필요하다.

 

 

수학에서 자주 나타나는 특징이지만, 이러한 이론적 필요성과 교재의 내용의 전개 방향은 정반대이다. 먼저 책에서는 $\sigma$-ring, $\sigma$-algebra를 정의한다. 이후 측도를 정의하기 위해 set function을 이야기하고, 특히 $\mathbb{R}^{n}$에서 n-box들에 대한 직관을 유지하는 측도인 Lebesgue measure가 elementary set들의 (어떤 의미에서의) closure, 나아가 그 closure의 집합들의 가산합집합들로 이루어진 어떤 $\sigma$-algebra서 잘 정의됨을 보이는 구성과정을 거친다. 이런 모든 과정을 거친 후에야 measure space에서 정의된 measurable function의 적분을 정의한다.

 

 

 

 

다음 연재에서는 따라서 첫 번째 파트인 set functions, $\sigma$-rings, $\sigma$-algebras와 관련된 이야기를 하도록 하겠다.

아직 걷는 법을 익히지 못해 기어가고 있는 블로그 주인장이다.

오늘은 선대 외전으로, 유투브에서 본 흥미로운 선형대수학 문제를 풀어보도록 하겠다.

 

 

 

문제. $A,B \in \mathcal{M}_{n\times n} (\mathbb{C})$라 하자. 이제 $AB = BA$가 성립하면, $A,B$는 고유벡터를 적어도 하나 공유함을 보이시오.

 

 

증명.

$A$의 특성다항식은 $\mathbb{C}$서 일차식으로 분해된다 (이는 대수학의 기본정리에 의해서 성립한다). 따라서 $A$는 적어도 고유벡터를 하나 가지는데, 이를 $x$라 하자. 

이제 $x$에 의해 생성되는 $B$-cyclic base를 생각해 보자. 그러니까 $x, Bx, B^{2}x,...$를 고려하는데, 원소를 더 추가하면 선형종속이 될 때까지 원소를 추가한다고 생각하면 된다. $B^{i}x$는 $\mathbb{C}^{n}$에 속하는 벡터이므로 많아봐야 $n$개의 원소를 추가하기 전에 이 과정은 반드시 종료된다. 일반성을 잃지 않고 그 집합이 $S=\{x,Bx,...,B^{j}x\}$로 주어졌다 하자.

 

주장 1. $span(S)$는 $A$-invariant하다.

주장 1의 증명.

$y \in S, y = b_{0}x + b_{1}Bx+...+b_{j}B^{j}x$로 표현된다고 하자. 이제 $Ay = A(b_{0}x+b_{1}Bx+...+b_{j}B^{j}x$가 성립한다. 그런데 $A(b_{i}B^{i}x) = b_{i} (AB^{i}x) = b_{i} B^{i}(Ax) = \lambda b_{i}B^{i}x$이다. 여기서 첫째 등호는 행렬 곱셈과 스칼라곱이 교환되므로 성립한다. 둘째 등호는 $AB = BA$이라는 사실을 i번 반복적용하면 얻게 된다. 셋째 등호는 $x$가 $A$의 고유벡터로 잡았기 때문에 성립한다.

 

따라서 $A(b_{0}x+...+b_{j}B^{j}x) = \lambda(b_{0}x + ...+b_{j}B^{j}x)$이므로, 주장이 성립한다.

 

 

주장 1에 의해, $span(S)$는 $A$-invariant 하면서 $B$-invariant subspace이다.

 

 

주장 2. $span(S)$는 $A$의 고유벡터들로만 이루어진 집합이며, 특히 $x$에 대응되는 고윳값 $\lambda$에 대응되는 고유공간의 부분공간이다.

주장 2의 증명.

임의의 음이 아닌 정수 i에 대해서, $(AB^{i})x = B^{i}(Ax) = \lambda B^{i}x$이다. 따라서 주장이 성립한다.

 

 

이제 $B$를 좌곱하는 선형변환 $L_{B}$를 $span(S)$에 대해 제한한 새로운 선형변환 $T$를 생각해 보자. $span(S)$는 $\mathbb{C}^{n}$의 $B$-invariant 부분공간이므로, $T$의 특성다항식은 $L_{B}$의 특성다항식을 나누어야 한다. 그런데 이 특성다항식 역시 일차식으로 분해되므로, $span(S)$에서 존재하는 $B$의 고유벡터가 적어도 하나 존재한다. 그런데 $span(S)$의 모든 벡터들은 $A$의 고유벡터였으므로, 정리가 증명된다. $\square$

흠...사실 글을 올린지 100만년이 된 것 같은 이 기분에 어떻게 다시 시작해야 할지 감이 오지 않는다.

내가 원했던 그림은 이전에 했던 것처럼 책을 그대로 베끼기보다, 증명에서 쓰인 아이디어들을 내가 일목요연하게 정리해서 올리는 것이었지만, 일단 걸을 수 있기 전에는 기어가는 법을 배워야 하기 때문에 글쓰기 재활(?)할 겸 무한대에서의 이상적분과 관련한 간단한 정리를 증명하고자 한다. (사실 말이 이상적분이지 결국 함수의 극한에 대한 "코시" 성질이다.)

 

 

우선 무한대로의 이상적분을 정의하자:

 

 

정의. 실함수 $f: \mathbb{R} \to \mathbb{R}$와 실수 $a$가 주어져 있다 하자. 또한 $M>a$인 모든 실수 $M$에 대해 $f$가 $[a,M]$서 리만적분 가능하다고 가정하자.

이제

$$\int_{a}^{\infty} f(t)dt = L \Leftrightarrow \\ \forall \epsilon > 0, \exists R \in \mathbb{R} s.t. M>R \Rightarrow |\int_{a}^{M} f(t)dt - L| < \epsilon$$

으로 정의한다. 축약해서 쓰자면

$$\int_{a}^{\infty} f(t)dt = L \Leftrightarrow \\ lim_{M\to\infty} \int_{a}^{M} f(t)dt$$

라고 할 수 있겠다.

 

 

이제 이렇게 정의한 이상적분에 대해서 수열과 유사한 "코시" 성질을 정의하자:

 

정의. $f$가 위에서 정의한 실함수라 하자. 이제 $h: [a,\infty) \to \mathbb{R}, h(x) = \int_{a}^{x} f(t)dt$가 무한대에서 코시라는 것은 다음을 의미한다:

$$ \forall \epsilon > 0, \exists K \space s.t. N_{1}, N_{2} \geq K \Rightarrow |\int_{N_{1}}^{N_{2}} f(t)dt| < \epsilon$$

 

 

질문은 과연 무한대에서의 이상적분이 존재하는 것과 적분이 무한대에서 코시인 성질이 동치이냐는 것이다.

우선 한 방향은 보이기 매우 쉽다:

 

$(\Rightarrow)$

$lim_{M \to \infty} \int_{a}^{M} f(t)dt = L$이라 하자.

$\epsilon > 0$을 고정하자. 그렇다면 실수 $K$가 존재하여, $N \geq K \Rightarrow |\int_{a}^{N} f(t)dt - L|< \frac{\epsilon}{2}$이다.

따라서 $N_{1}, N_{2} \geq K \Rightarrow |\int_{N_{1}}^{N_{2}} f(t)dt| \leq |\int_{a}^{N_{1}} f(t)dt - L| + |\int_{a}^{N_{2}} f(t)dt - L| \leq \frac{\epsilon}{2} *2 = \epsilon$이다.

 

이제 반대방향을 보이도록 하자:

 

$(\Leftarrow)$

적분이 무한대에서 코시라 하자. 그렇다면 $\epsilon > 0$이 고정되었을 때, 실수 $K$가 존재하여

$N_{1}, N_{2} \geq K \Rightarrow |\int_{N_{1}}^{N_{2}} f(t)dt| < \frac{\epsilon}{2}$가 성립한다.

이제 양의 무한대로 발산하는 아무 수열 $\{x_{n}\}$을 잡자.

그렇다면 어떤 양수 $N$이 존재하여, $n \geq N \Rightarrow x_{n} \geq K$가 성립하고, 따라서 $y_{n} := \int_{a}^{x_{n}} f(t)dt$는 코시 수열이 되어 어떤 값으로 수렴한다. 이 값을 $L$이라 하자. 따라서 위에서 잡은 $\epsilon > 0$에 대해, 또 어떤 양수 $N'$이 존재하여, $n \geq N' \Rightarrow |y_{n} - L|<\frac{\epsilon}{2}$가 성립한다.

 

이제 $x \geq K$라 하자. 아랫첨자가 $N'$보다 크면서 값이 $K$보다 큰 $\{x_{n}\}$의 어떤 항 $x_{m}$을 잡으면, 삼각부등식에 의해

$|\int_{a}^{x} f(t)dt - L| \leq |\int_{a}^{x_{n}} f(t)dt - L| + |\int_{x_{n}}^{x} f(t)dt| \leq \frac{\epsilon}{2} * 2 = \epsilon$이 성립하여 원하던 바를 증명하게 된다. $\square$

오...내일 해개연2 중간고사다...큰일났다...

 

큰일났지만 지금와서 할 수 있는 것은 복습밖에 없으므로 그리 하도록 하겠다.

 

과제 문제들은 내일 마지막으로 다시 풀어보는걸로 하고, 오늘은 정리들의 내용과 흐름을 일목요연하게 정리하는 과정을 거치도록 하겠다. 어차피 정리들이 뇌리에 잘 박혀 있어야 써먹을 생각을 하기 때문에...

 

 

 

<The Big Picture>

우리의 가장 큰 목표는 우리가 잘 아는 함수들로 잘 모르는 함수들을 설명하는 것이다.

이 문장을 잘 째려보면 세 가지 의문점이 들 것이다.

1) '잘 아는 함수'란 무엇인가?

2) '잘 모르는 함수'란 무엇인가?

3) '설명한다'는 것이 무엇인가?

 

1)에 대한 대답: 다항함수는 우리에게 가장 잘 알려져 있는 함수이다. 다항함수의 대표적인 특징으로는 무한히 미분가능하다는 것이 있고, 유한 개의 항으로 함수 전체가 설명된다는 특징이 있다. 

 

2)에 대한 대답: 예컨대 연속함수나 폐구간 [a,b]서 리만적분가능 함수는 너무 넓어서 우리가 시각화할 수 없는 것들이 많다. 대표적인 예시로 모든 곳에서 연속이나 어디에서도 미분가능하지 않은 바이어슈트라스 함수가 존재한다. 이런 함수는 우리의 직관에 굉장히 반하는 기이한 함수이다. 연속이라는 개념이 생각보다 약한 개념이기에, 우리가 당장 상상할 수 있는 것보다 다양한 함수가 존재하고 우리가 이것을 모두 설명하지 못하는 상황이다.

 

3)에 대한 대답: 일단, 다항함수만으로 모든 연속함수가 도출되지는 않음이 분명하다. 다항함수가 아닌 연속함수가 있기 때문이다. 그렇다면 차선책으로는 다항함수로 연속함수를 '근사'하는 것이다. 따라서 이는 거리의 개념을 내포한다. 또한, 하나의 다항함수만을 이용하기보다는 다항함수열을 이용하여 점점 연속함수에 가까워지도록 근사하는 것이 더 합당할 것이다. 이는 수열의 개념을 내포한다. 따라서 함수들의 특징이 잘 드러나는 어떤 거리공간을 구성했을 때, 그 거리공간상으로 수렴하는 다항함수열을 찾는 것이 우리의 과업일 것이다. 

 

 

중간고사 시험범위인 푸리에 급수까지를 끝내면 다음과 같은 대표적인 정리들이 도출된다:

1) 폐구간에서 연속인 임의의 함수를 다항함수열로 근사할 수 있다. 또한 다항함수만이 아니라 SP and VNP를 만족하는 임의의 함수들의 집합에서도 같은 정리가 성립한다. (Stone-Weierstrass)

2) 2-norm에 의해서는 임의의 리만적분가능 함수를 자신의 푸리에 급수 함수열로 근사할 수 있다. (Parseval)

 

 

<7. Sequences and Series of Functions>

예컨대 임의의 연속함수를 다항함수로 근사할 수 있는지 고민하고 있다 하자. 그런데 내가 근사하고 싶은 연속함수가 예컨대 실수 전체에서 Lipschitz continuous하다 하자. 이제 직관적으로 질문할 수 있는 것은, 내가 1차함수들만을 고려해야 하는가이다. 왜냐하면 2차 이상의 다항함수들은 실수 전체에서는 Lipschitz continuous 하지 않기 때문이다.

그러나 우리는 이러한 보장이 없다. 예컨대 2차함수들로 만든 어떤 다항함수열이 어떤 '극한' 함수에 '수렴'한다 하자. 함수열의 각 항은 Lipschitz continuous하지 않다. 하지만 극한 함수 또한 Lipschitz continuous 하지 말라는 보장은 현재 없는 실정이다.

역으로, 1차함수들은 전역적으로 Lipschitz continuous하지만, 그 극한 함수 또한 Lipschizt continuous하다는 보장이 없는 상황이다. 예컨대 첫째, 둘째 명제가 성립한다면 우리는 1차함수들만을 고려하여 극한 함수를 구성하면 될 것이다. 반면 둘째 명제가 성립하지 않는다면 1차함수들로 이루어진 어떤 수열이 있을 때 그 극한함수가 실제로 L.C하다는 사실을 일일이 또 보여야 할 것이다.

 

이처럼 함수열이 어떤 '극한'으로 '수렴'할 때 함수열의 원래 항들이 지니던 특성이 계승되는지가 쟁점이 된다. 그러나 가장 먼저 떠올릴 법한 극한과 수렴의 개념으로는 계승되는 것이 아예 없다고 봐도 무방하다:

 

정의. (점별수렴)

$E$가 거리공간이고 $\{f_{n}\}$이 $E$서 정의된 함수열이라 하자. 이제 $x\in E \Rightarrow \exists lim_{n\to\infty} f_{n}(x)$가 성립하면, $f_{n}$이 어떤 극한함수 $f$로 점별수렴한다 하고, 다음과 같이 $f$를 정의한다:

$f(x) := lim_{n\to\infty} f_{n}(x), x\in E$

 

 

점별수렴에서는 다음의 사실이 성립한다:

1) 연속함수로 이루어진 함수열은 불연속함수로 점별수렴할 수 있다.

<=> $f_{n}(x) \to f_{n}(a)$ 후 $n \to \infty$를 취하는 것과, $n \to \infty$를 취한 후 $f(x) \to f(a)$를 취하는 것이 교환되지 않는다. 

eg. $f_{n}: [0,1] \to \mathbb{R}, f_{n}(x) = (1-x^{2})^{n}$

이 때 $f(x) = \begin{cases} 0 \space (0 \leq x < 1) \\ 1 \space (x=1) \end{cases}$

 

2) 미분가능함수로 이루어진 함수열은 미분불가능한 함수로 점별수렴할 수 있다. 

<=>

$t \to x$ 이후 $n \to infty$를 취하는 연산과, $n \to \infty$ 이후 $t \to x$를 취하는 연산과 교환되지 않는다.

eg. 뒤에서 살펴보겠지만 Stone-Weierstrass 정리에 의해 $E = [0,1]$에서 $f(x) = |x|$로 점별수렴하는 다항함수열이 존재한다. 그런데 각 다항함수는 무한번 미분가능하지만, $|x|$는 명백히 $x=0$서 미분불가능하다.

다른 예시로 $E = \mathbb{R}, f_{n}(x) = \frac{sin(nx)}{\sqrt{n}}$가 있다. $x=0$서 미분계수가 무한대로 발산해 버린다.

 

3) 리만적분 가능함수로 이루어진 함수열의 극한함수는 리만적분 불가능할 수 있다. (또는 적분값이 다른 값이 될 수 있다)

<=>

$\int$ 이후 $n \to infty$를 취하는 연산과, $n \to \infty$ 이후 $\int$를 취하는 연산이 교환되지 않는다.

eg. $E = [0,1], f(x) = x^{2} (1-x^{2})^{n}$를 보면, 적분 후 극한을 보내면 무한대로 발산하고, 극한 후 적분하면 0이 나온다.

 

4) 단조증가하는 함수열의 극한함수는 여전히 단조증가한다.

proof.

$x < y$라 하자. 이제 각 $n$에 대해 $f_{n}(x) \leq f_{n}(y)$이다. 양변에 극한을 취하면 $f(x) \leq f(y)$도 성립한다.

 

 

5) 유계인 함수열의 극한함수는 유계가 아닐 수 있다.

eg. $E = (0,1), f_{n}(x) = \begin{cases} n \space (0/< x < \frac{1}{n}) \\ \frac{1}{x} \space (\frac{1}{n} < x < 1) \end{cases}$

극한함수는 $f(x) = \frac{1}{x}$으로 유계가 아니다. 그러나 함수열의 $n$번째 항은 분명히 $n$에 의해 유계이다.

 

 

특별히 1)~3)에서 보듯이, 점별수렴만으로는 극한 과정을 교환할 수 없다. 따라서 극한 과정을 교환할 수 있는 어떤 함수열의 조건이 주어진다면, 1)~3)에 대한 문제가 해결될 것이라 예측할 수 있다.

 

 

그렇다면 언제 극한 과정이 교환될 수 있을까 하는 문제가 생긴다.

 

 

정의. (균등수렴)

$E$가 거리공간이고 함수열 $\{f_{n}\}$이 극한함수 $f$로 점별수렴한다 하자. 이제 특히 다음이 성립한다 하자:

$\forall \epsilon > 0, \exists N s.t. n \geq N \Rightarrow |f_{n}(x) - f(x)| <\epsilon, \forall x\in E$

이제 $f_{n}$은 $f$에 균등수렴한다 하며, $f_{n} \rightarrow_{u} f $라 표시한다.

 

 

 

 

 

 

<8. Special functions>

 

 

 

-- 수정중 --

솔직히 프리드버그의 뒷부분에 주제들이 조금 마구잡이식으로 주어진다는 느낌을 지울 수가 없다. 물론 이건 내가 선대를 못해서 그런 거일 가능성이 더 높긴 하지만...

 

내적공간을 공부할 때, 우리는 adjoint operator에 대해서 배웠으며, 특히 실내적공간 $(V,\mathbb{R})$에서 정의된 linear operator $T: V \to V$의 경우 $T^{*}T = TT^{*} = I_{V}$가 성립하면 $T$가 orthogonal하다고 정의했음을 기억하라. 직관적으로, $T$는 내적을 보존하는 선형변환이라고 할 수 있고, 또 내적을 보존하는 성질에 의해 $\{v_{1},...,v_{n}\}$이 $V$의 정규직교기저라 할 때, $\{Tv_{1}, ... , Tv_{n}\}$ 역시 $V$의 정규직교기저를 이룬다.

 

 

이제 우리는 orthogonal operators, 즉 내적을 보존하는 선형변환으로부터 실내적공간에서 내적을 보존하는 임의의 변환을 분석할 준비가 되어 있다.

 

글의 순서는 다음과 같다:

 

<목차>

1. Rigid motions 

 1-1. 모든 고체운동은 orthogonal operator와 translation의 합성

 

2. $\mathbb{R}^{2}$에서의 Orthogonal operators

 2-1. 예시: 회전이동 (rotation) 과 대칭이동 (reflection)

 2-2. $\mathbb{R}^{2}$에서의 Orthogonal operator은 회전/대칭

 

3. 고차원 실내적공간에서의 Orthogonal operators

 3-1. 실내적공간에서 정의된 변환은 작은 invariant subspace를 가짐

 3-2. 고차원 실내적공간에서의 Orthogonal operator은 회전/대칭의 합성

 

 

 

1. Rigid motions

정의. (고체운동)

$(V,\mathbb{R})$이 유한차원 실내적공간이라 하자.

이제 다음을 만족하는 임의의 변환 $T: V\to V$를 rigid motion (고체운동)이라 한다:

$$ ||T(y)-T(x)|| = ||y-x||, \forall x,y \in V$$

 

직관적으로, 예컨대 $V = \mathbb{R}^{n}$이고 내적이 통상적인 실내적이라 한다면, $T$는 모양을 보존하는 변환이라 할 수 있겠다.

 

정의. (평행이동)

$(V, \mathbb{R})$가 유한차원 실내적공간이라 하자.

이제 $T : V \to V$에 대해 어떤 $v\in V$가 존재하여, $Tx = x + v, \forall x\in V$가 성립한다 하자.

이제 $T$는 $v$에 대한 평행이동이라 하고, 표기상으로 $P_{v}$라 표시한다.

 

$v\neq 0$이면 $T$가 선형변환은 되지 않음에 주목하라.

 

 1-1. 모든 고체운동은 orthogonal operator와 translation의 합성

정리. (고체운동의 정체)

$T : V \to V$가 고체운동이라 하자. 이제 어떤 벡터 $v \in V$와 orthogonal operator $\tilde{T}$가 존재하여,

$T(x) = P_{v} \circ \tilde{T}$이다.

 

증명.

$T: V \to V$가 선형변환이라는 보장은 없다. 이제 새로운 변환 $U: V \to V, U(x) = T(x) - T(0)$이라 정의하자.

우선 $U$도 고체운동임을 보이자. 이는 다음의 식으로 보일 수 있다:

$$ ||Ux - Uy|| = ||(Tx - T(0)) - (Ty - T(0))|| = ||Tx  - Ty|| = ||x-y||$$

또한

$$ ||Ux|| = ||Tx - T(0)|| = ||x-0|| = ||x|\$$이다.

따라서,

$$||U(x+y)||^{2} = ||Ux||^{2} + ||Uy||^{2} + 2(Ux \bullet Uy) = ||x+y||^{2} = ||x||^{2} + ||y||^{2} + 2(x\bullet y)$$이고 $U$는 내적을 보존한다.

 

이제 $U$가 선형임을 보이기 위해서,

$$ ||U(ax+y) - a U(x) - U(y)||^{2}$$

를 전개한 후 내적 보존성을 이용하면 된다.

 

따라서 $T(x) = (T(x)-T(0)) + T(0) = (P_{T(0)} \circ U)(x)$이고, 이는 정리가 주장하는 바를 증명한다. $\square$

 

이로부터, 고체운동을 잘 알기 위해서는 orthogonal operator들을 잘 분석할 수 있어야 함을 깨닫게 된다.

 

2. $\mathbb{R}^{2}$에서의 Orthogonal operators

복소내적공간에서 normal operator들은 spectral theorem에 의해 ONB로 고윳값 분해가 가능했다. 허나 우리는 실내적공간에서 놀고 있으며, orthogonal operator들은 self-adjoint하다는 보장은 없는 관계로 spectral theorem을 직접 적용할 수 없다. 다만 선형변환을 행렬로 표현했을 때 이 행렬이 $\mathbb{R}$에서 노는 놈인지 $\mathbb{C}$에서 노는 놈인지는 직접 구별할 수 없다는 사실을 알게 되는데, 이는 나중에 중요하게 사용할 사실이다.

 

우리는 비자명한 가장 간단한 케이스인 $\mathbb{R}^{2}$에서의 orthogonal operator들을 살펴보면서 전반적인 orthogonal operator에 대한 이해도를 높여나갈 수 있는 단서를 찾아갈 것이다. 

 2-1. 예시: 회전이동 (rotation) 과 대칭이동 (reflection)

(회전이동)

$\mathbb{R}^{2}$에서 양의 x축을 기준으로 $\theta$ 라디안 만큼 회전하는 변환 $T$를 생각해 보자. 이 경우 $e_{1} = (1,0)$은 $Te_{1} = (cos(\theta), sin(\theta)$로, $e_{2} = (0,1)$은 $Te_{2} = (- sin(\theta), cos(\theta))$로 이동한다.

또한 지루한 계산을 하면 회전변환은 선형변환이라는 사실을 알 수 있고, $T$를 ONB $\{e_{1}, e_{2}\}$로 표현한 행렬 $Q$가 $QQ^{t} = Q^{t}Q = I$를 만족하므로 $T$가 orthogonal operator임을 알 수 있다.

 

특히, $det(T) = 1$이라는 사실과 $T$의 특성다항식이 $\theta = 0, \theta = \pi$가 아닌 한 실근을 가지지 않는다는 사실에 주목하라.

 

(대칭이동)

대칭이동이라 했지만, 엄밀히 따지고자 하는 것은 원점을 지나는 직선 $y = ax$에 대한 대칭이동 $T$이다.

이제 $y = ax$가 양의 x축과 이루는 각을 $\theta$라 하자. 이 경우, $e_{1} = (1,0)$은 $Te_{1} = (cos(2\theta), sin(2\theta)$로, $e_{2} = (0,1)$은 $Te_{2} = (sin(2\theta), -cos(2\theta))$로 보내진다.

이 변환이 선형변환이며, ONB $\{e_{1}, e_{2}\}$가 새로운 ONB $\{Te_{1}, Te_{2}\}$로 보내지므로 $T$가 orthogonal operator임을 알 수 있다.

 

특히, $det(T) = -1$이라는 사실과 이 경우 특성다항식이 $\lambda = \pm 1$의 실근을 가지므로 고윳값 분해가 사실 된다는 사실에 주목하라.

 

 2-2. $\mathbb{R}^{2}$에서의 Orthogonal operator은 회전/대칭

앞서 2-1에서는 $\mathbb{R}^{2}$에서 원점에 대한 회전변환과 원점을 지나는 직선에 대한 대칭변환이 orthogonal operator임을 확인하였고 몇 가지 성질들을 살펴보았다. 그렇다면 역이 성립하는가?

이는 다음과 같은 간단한 추론을 통해 알아낼 수 있다. $T: \mathbb{R}^{2} \to \mathbb{R}^{2}$가 orthogonal operator이라 하자. 그렇다면 $\{Te_{1}, Te_{2} \}$는 정규직교기저를 이루어야 한다. 따라서 $Te_{1}$은 크기가 1인 $\mathbb{R}^{2}$의 원소이므로, 어떤 실수 $0 \leq \theta < 2\pi$가 존재하여 $Te_{1} = (cos(\theta), sin(\theta))$이다.

이제 역시 어떤 실수 $0 \leq \mu < 2\pi$가 존재하여 $Te_{2} = (cos(\mu), sin(\mu))$가 성립하는데, 특히 $cos(\theta)cos(\mu) + sin(\theta)sin(\mu) = cos(\theta - \mu) = 0$이 성립해야 한다.

따라서 가능한 경우는 두 가지이다:

 

Case 1. $\theta - \mu = \frac{\pi}{2}$

이 경우 $T$는 행렬표현이 회전변환과 같아짐을 확인할 수 있다.

 

Case 2. $\theta - \mu = \frac{3\pi}{2}$

이 경우 $T$는 행렬표현이 대칭변환과 같아짐을 확인할 수 있다.

 

따라서 데카르트 평면에서는 모든 고체운동이 평행이동과 대칭이동의 합성이거나 평행이동과 화전이동의 합성이다!

 

3. 고차원 실내적공간에서의 Orthogonal operators

앞서 $\mathbb{R}^{2}$에 대해 탐구한 바를 더 높은 차원으로, 그리고 실내적공간이 $\mathbb{R}^{n}$이 아닌 경우로도 확장할 수 있을까? 이 탐구에서 핵심적인 바는, 높은 차원의 내적공간을 여러 낮은 차원의 상호독립적인 내적공간으로 쪼개는 작업이다. 여기서 "상호독립적"이라는 것은, 변환 $T$를 가할 때 다른 부분공간으로 침입하는 일이 없음을 의미한다:

 

정의. (invariant subspace)

$(V,\mathbb{R})$가 유한차원 내적공간이고 $T: V \to V$가 선형변환이라 하자.

이제 $W \leq V$가 T-invariant subspace라는 것은,

$$T(W) \leq W$$임을 의미한다.

 

 

또한, $\mathbb{R}^{2}$가 아닌 전반적인 실내적공간에서 회전변환과 대칭변환을 정의해야 한다는 점도 잊으면 안된다:

 

정의. (회전변환, 대칭변환)

$(V, \mathbb{R})$는 유한차원 내적공간이라 하고 $T:V\to V$가 선형변환이라 하자.

이제 $T$가 대칭변환이라는 것은, 1차원 부분공간 $W$가 존재하여,

$x \in W \Rightarrow Tx = -x, x\in W^{\perp} \Rightarrow Tx =x$임을 의미한다.

 

$T$가 회전변환이라는 것은 둘 중 하나를 의미한다:

i) $Tx =x$이다.

ii) 2차원 부분공간과 정규직교기저 $W = span\{v_{1}, v_{2}\}$가 존재하고 실수 $\theta$가 존재하여,

$ Tv_{1} = cos(\theta) v_{1} + sin(\theta) v_{2}, Tv_{2} = -sin(\theta)v_{1} + cos(\theta)v_{2}, x \in W^{\perp} \Rightarrow Tx= x $

임을 의미한다.

 

 3-1. 실내적공간에서 정의된 변환은 작은 invariant subspace를 가짐

우리는 $\mathbb{R}^{2}$에서 정의된 실내적공간의 모든 orthogonal operator은 회전이거나 대칭임을 배웠다. 따라서 임의의 실내적공간 $V$에서 정의된 orthogonal operator $T$가 있을 때, $V$를 2차원 이하의 T-invariant subspace들로 분해할 수 있다면, 그렇게 분해한 각각의 공간에서 $T$는 회전이거나 대칭이어야 할 것이다 (임의의 $n$차원 실내적공간은 $\mathbb{R}^{n}$에 유클리드 내적을 가진 공간과 내적보존 동형사상을 가지기 때문이다).

이를 위해서는 다음의 조금 더 일반적인 정리를 증명하고자 한다:

 

보조정리. (실내적공간에서 정의된 변환은 2차원 이하의 invariant subspace를 가짐)

$(V,\mathbb{R})$가 non-trivial 유한차원 실내적공간이라 하자. 이제 $T:V\to V$가 선형변환일 때, 2차원 이하의 T-invariant subspace $W$가 존재한다.

 

증명.

$n$차원 실내적공간 $V$의 정규직교기저 $\beta$를 고르자. 이제 $A = [T]_{\beta}$라 하면, $A \in \mathcal{M}_{n\times n}(\mathbb{R})$이다. 그런데 동시에 $A \in \mathcal{M}_{n\times n}(\mathbb{C})$이기도 하다. 따라서 $A$의 어떤 고윳값 $\lambda \in \mathbb{C}$가 존재하고 대응되는 고유벡터 $x_{1} \in \mathbb{C}$이 있다. 그런데 $A$는 실행렬이므로 특성다항식의 계수들이 실수이므로, $\overline{\lambda}$ 역시 고윳값이여야 하고, 더군다나 $\overline{x_{1}} \in \mathbb{C}$는 여기에 대응되는 고유벡터이다. ($\overline{Ax_{1}} = \overline{(a+bi)x_{1}} = (a-bi) \overline{x_{1}} = A\overline{x_{1}}$)

 

이제 $\lambda = a+bi$라 하면 다음이 성립한다:

 

$$ Ax_{1} = (a+bi)x_{1}, A(\overline{x_{1}}) = (a-bi) \overline{x_{1}} \\ A(x_{1} + \overline{x_{1}}) = a(x_{1} + \overline{x_{1}}) - b (\frac{x_{1} - \overline{x_{1}}}{i}) \\ A(\frac{x_{1} - \overline{x_{1}}}{i}) = a(\frac{x_{1} - \overline{x_{1}}}{i}) + b (x_{1} + \overline{x_{1}})$$

 

이다. 이제 $W = span \{x_{1} + \overline{x_{1}}, \frac{x_{1} - \overline{x_{1}}}{i}\}$이라 하면 원하는 바를 얻는다. $\square$

 

 3-2. 고차원 실내적공간에서의 Orthogonal operator은 회전/대칭의 합성

이제 문제가 되는 것은, $T: V\to V$가 orthogonal operator일 때, $V$를 서로 직교이면서 T-invariant 한 2차원 이하의 부분공간들로 나눌 수 있느냐는 것이다. 이것이 성립한다 하여, 예컨대 $V = \oplus_{i=1}^{k} W_{i}$라 하고, $i\neq j$에 대해 W_{i}, W_{j}$가 서로 직교하며 $1 \leq dim(W_{i}) \leq  2$라 하자.

 

그렇다면 $T$를 각 $W_{i}$에 제한한 $T_{i}$를 정의하는 것이 가능해진다. 이제 다시 $\tilde{T}_{i} = \begin{cases} T_{i}(x) \space\space x \in W_{i} \\ x \space\space x \in W_{i}^{\perp}$로 정의하면 $\tilde{T}_{i}$는 회전변환이거나 대칭변환일 것이다.

따라서 $T$ 전체가 회전변환이나 대칭변환들의 합성으로 정의된다 할 수 있겠다.

 

 

정리 6.46 (고차원 실내적공간을 잘 분해하는 것이 가능)

$V$가 유한차원 실내적공간이라 하자. 이제 $T:V\to V$가 orthogonal한 선형변환일 때 다음을 만족하는 부분공간들 $W_{1}, ... , W_{k}$을 잡을 수 있다:

 

i) $1 \leq dim(W_{i}) \leq 2, V = W_{1} \oplus W_{2} \oplus ... \oplus W_{k}$

ii) $i \neq j \Rightarrow W_{i}, W_{j}$는 직교

iii) 각 $W_{i}$는 T-invariant 부분공간

 

증명.

$V$의 차원에 대한 귀납법을 사용한다. $dim(V) = 1$이면 정리가 자명하다.

이제 $dim(V) < n$인 모든 자연수에 대해 정리가 성립한다 하고 $dim(V) = n$이라 하자.

보조정리에 의해 차원이 많아야 2인 T-invariant 부분공간 $W_{1}$을 잡을 수 있다.

이제 $T$가 orthogonal하므로, $W_{1}^{\perp}$ 역시 T-invariant 부분공간이라는 사실을 알 수 있고 그 차원은 $n-1$이거나 $n-2$이므로 차원에 대한 귀납법 가정을 쓸 수 있다 (만약 $n-2 =0$이면 귀납법 가정을 쓸 필요 없이 증명이 종료된다.)

 

따라서 $W_{1}^{\perp} = W_{2} \oplus W_{3} \oplus ... \oplus W_{k}$가 되면서 i)~iii)가 성립하도록 $W_{2},...,W_{k}$를 잡을 수 있다. 이제 $V = W_{1} \oplus W_{1}^{\perp}$이므로 i)은 증명되며, iii)은 구성에 의해 자명하다.

ii)만을 보이면 되는데, 이는 $W_{1}, W_{j} (j \neq 1)$이 모두 서로 직교집합이라는 사실만 보이면 되는데 이 역시 구성에 의해 성립한다. $\square$

 

 

그런데 이 분해가 유일한가는 질문에 대해서 정리 6.46은 해줄 수 있는 말이 없다. 예컨대 $k$가 유일하지 않다는 사실을 생각해볼 수 있다. 

 

좀 "근본 있는" 분해는 어떤 것일까 라고 생각을 하다 보면, 축이 수직인 대칭변환이 둘 있을 때 둘을 합성하면 회전변환을 만들 수 있다는 사실에 주목하면 다음 정리가 도출된다:

 

 

정리 6.47 (모든 orthogonal operator은 회전/대칭의 합성)

$V,T$가 정리 6.46의 조건들을 만족한다 하자. 이제 다음이 성립한다:

i) 우리가 정리 6.46를 이용한 $V$의 분해 $W_{1},...,W_{m}$을 구했다 하자. $det(T) = 1$이면 대칭변환에 해당하는 부분공간 $W_{i}$의 개수가 짝수이고, $det(T) = -1$이면 대칭변환에 해당하는 부분공간 $W_{i}$의 개수가 홀수이다.

 

ii) 정리 6.46의 조건들을 만족하면서, a) $det(T) = 1$이면 대칭변환에 해당하는 부분공간 $W_{i}$의 개수가 없고, $det(T) = -1$이면 대칭변환에 해당하는 부분공간 $W_{i}$가 하나 있으며, b) $W_{i}$가 대칭변환에 해당하는 부분공간이면 $dim(W_{i}) =1$이 되도록 $W_{1},...,W_{m}$을 구할 수 있다.

 

 

i)의 증명.

$V = W_{1} \oplus W_{2} \oplus ... \oplus W_{m}$이며 각 $W_{i}$가 T-invariant하므로,

$T = T_{W_{1}} \circ ... \circ T_{W_{m}}$이고, 따라서 $det(T) = det(T_{W_{1}}) \times ...\times det(T_{W_{m}})$이다.

그런데 2차원 실내적공간에서 orthogonal 변환이 대칭이면 det가 -1, 회전이면 det가 1이므로 정리가 성립한다.

 

 

ii)의 증명.

$E = \{x \in V | Tx =-x\}$이라 하자. $E$는 T-invariant 부분공간이다. 이제 $W = E^{\perp}$이라 하자. $W$에 대해 정리 6.46의 조건들을 만족하는 분해 $W_{1},...,W_{k}$를 찾았다 하자. 이제 각 $T_{W_{i}}$는 회전변환이어야 한다.

귀류법을 사용하여 그렇지 않다 하면, 어떤 0이 아닌 벡터 $x$가 존재하여 $Tx = -x$인데 그럼 $x$는 $E^{\perp} \cap E$의 원소이므로 이는 모순이다.

 

이제 다시 $E$를 분해하고자 한다, $E$의 정규직교기저 $\beta = \{v_{1},...,v_{r}\}$이라 하자. 이제 $det(T) = det(T_{W}) det(T_{E})$이므로 $\beta$의 원소의 개수가 홀수이면 $det(T) = -1$, 짝수이면 $det(T) = 1$임을 안다.

만약 $\beta$의 원소의 개수가 짝수이면, $W_{r+1} = span \{v_{1}, v_{2}\} , W_{r+2} = span \{v_{3}, v_{4}\}, ...$의 식으로 정의할 수 있다. 이 경우 $T_{W_{r+i}} = \begin{pmatrix} -1 \space 0 \\ 0 \space -1 \end{pmatrix}$이므로 회전변환이 됨을 알 수 있다. 따라서 대칭변환에 대응하는 부분공간이 없다.

만약 $\beta$의 원소의 개수가 홀수이면 마찬가지로 하나를 제외하고 모든 기저의 원소들을 둘씩 짝지어서 분해할 수 있으므로, 대칭변환에 대응되는 부분공간은 하나이고, 그 부분공간의 차원이 1이 되도록 분해를 할 수 있음을 알 수 있다. 따라서 증명이 완료된다. $\square$

 

 

이로써 모든 orthogonal operator은 적절한 회전과 대칭의 합성이며, 대칭이 많아야 하나가 되도록 만들 수 있음을 알아내었다!

 

 

다음 글에서는 임의의 행렬을 "유사 대각화"시킬 수 있는지를 탐구해보도록 하겠다. 이것은 곧 Jordan canonical form의 논의로 이어진다.

지난 시간에는 Sylvester 정리를 살펴보았다. 대칭 쌍선형 형식이 어떤 대각행렬과 합동관계에 있을 때, 그 대각행렬의 주대각성분 중 양수 성분의 개수와 음수 성분의 개수는 불변량임을 살펴보았다 (이를 위해서는 $L_{x}$ 선형변환을 이용하여 $\mathbb{R}^{n+p-q}$를 공역으로 가지는 선형변환을 만들었었다). 또한 구체적으로 어떤 대칭행렬을 합동인 대각행렬로 변환하기 위해서는, elementary operation matrices를 여러 번 합성하면 된다는 사실도 살펴보았다,.

 

 

오늘 다루고자 하는 주제는 지난 번에 다룬 주제와는 큰 상관이 없는 Rayleigh quotient이다. 이 주제의 경우 수치적인 응용이 많을 것 같은데, 기본적인 문제의식은 다음과 같다:

 

 

Q. $Ax=b$의 꼴로 주어진 선형 연립방정식의 체계가 있다 하자. 이제 A,b를 완벽하게 관찰할 수 없고 관측오차가 존재한다고 하자. 그렇다면, 이 오차의 크기가 해에 영향을 얼마나 미칠 것인가?

 

허나 일반적으로 $A$의 오차는 가역이던 행렬이 가역이 아니게 변할 수 있다는 문제 때문에 더 복잡하다. 따라서 우리의 수준에서는 $b$의 오차에 집중을 하는 것이 일반적이다.

 

<목차>

1. 문제의 소개

 1-1. Well-conditioned 문제와 Ill-conditioned 문제의 예

 

2. Rayleigh quotient를 이용한 Conditioning 판별

 2-1. Rayleigh quotient

 2-2. 행렬의 Euclidean norm

 2-2. Condition number

 

 

 

 

 

1. 문제의 소개

앞서 소개한 대로, 선형 연립방정식 체계 $Ax = b$에 대해서, $A,b$가 완벽하게 알려져 있지 않고 어떤 오차를 가질 때 그 오차가 해에 미치는 영향을 알고 싶다. 

 

특히 우리는 $b$의 오차에 대해서 집중하는데, 문제를 조금 더 단순화하고 정식화하면 다음과 같다:

 

선형연립방정식 체계 $Ax = b$에 대해 $A$가 가역이어서 $x^{*} = A^{-1}b$로 해가 주어진다 하자.

이제 $b$에 오차 $\delta b$가 들어가서, 새로운 선형연립방정식 체계 $Ax = (b+\delta b)$의 해가 $x^{*} + \delta x$라 하자.

이제 우리가 알고 싶은 것은 $\frac{||\delta x||}{||\delta b||}$인 것이다. 

 1-1. Well-conditioned 문제와 Ill-conditioned 문제의 예

다음의 연립방정식 체계

$$ \begin{cases} x_{1} + x_{2} = 5 \\ x_{1} - x_{2} = 1 \end{cases}$$를 고려해 보자. 이는 $A = \begin{pmatrix} 1 \space\space 1  \\ 1 \space\space -1 \end{pmatrix}, b = \begin{pmatrix} 5 \\ 1 \end{pmatrix}, x = \begin{pmatrix} x_{1} \\ x_{2} \end{pmatrix}$로 표현하면 $Ax = b$로 나타내지고, $A$가 가역이며, $x^{*} = \begin{pmatrix} 3 \\ 2 \end{pmatrix}$임을 알 수 있다.

 

이제 $b$에 오차 $\delta b = \begin{pmatrix} 0 \\ \delta \end{pmatrix}$가 개입한다 하자. 이 경우 새로운 선형연립방정식 체계 $Ax = (b + \delta b)$의 해는 $\tilde{x} = \begin{pmatrix} 3 + \frac{\delta}{2} \\ 2 - \frac{\delta}{2} \end{pmatrix} = x^{*} + \delta x$이다. 특히 둘의 크기를 비교하여 보면,

 

$||\delta x|| = \frac{|\delta|}{\sqrt{2}}, ||\delta b|| = |\delta|$이다. 흠...하지만 조금 더 생각을 해 보면 우리가 관심 있는 것은 절대적 변동분의 크기가 아니라 원래 벡터의 크기에 비한 변동분의 상대적 크기임을 알 수 있다.

 

따라서 이렇게 생각하면 조금 더 적절한 비교는 $\frac{||\delta  x||}{||x^{*}||}, \frac{||\delta b||}{||b||}$이고 이 두 값은 $\frac{|\delta|}{\sqrt{26}}$으로 같다는 사실을 확인할 수 있다.

 

 

이제 ill-conditioned 문제의 예로 다음의 문제를 살펴보자:

$$ \begin{cases} x_{1} + x_{2} = 3 \\ x_{1} + 1.00001x_{2} = 3.00001 \end{cases} $$

 

이 경우 $A = \begin{pmatrix} 1 \space\space 1 \\ 1 \space\space 1.00001 \end{pmatrix}, b = \begin{pmatrix} 3 \\ 3.00001 \end{pmatrix}, x = \begin{pmatrix} x_{1} \\ x_{2} \end{pmatrix}$로 나타내면 마찬가지로 $Ax = b$로 나타낼 수 있고, $A$가 가역임을 확인할 수 있다.

 

이제 $x^{*} = \begin{pmatrix} 2 \\ 1 \end{pmatrix}$이다. 그런데 $\delta b = \begin{pmatrix} 0 \\ \delta \end{pmatrix}$라 하면, $Ax = b + \delta b$의 새로운 해는 $\tilde{x} = x^{*} + \begin{pmatrix} -10^{5}\delta \\ 10^{5} \delta \end{pmatrix}$이다. 이 경우 딱 보더라도, 이전의 경우와 대비해서 $b$의 작은 변화가 $x$의 비교적 큰 변화를 일으켰음을 알 수 있다.

 

2. Rayleigh quotient를 이용한 Conditioning 판별

이제 이러한 직관을 수치화할 방법에 대해서 탐구를 해 보자. 우선, ill-conditioned 했던 둘째 선형연립방정식 체계를 살펴보면, 두 행의 계수들이 아주 비슷했다는 사실을 알 수 있다. 이는 직관적으로 행렬식이 0에 가깝다는 말이기도 하며, 또는 고윳값 분해를 했을 때 0과 아주 가까운 고윳값이 있음을 시사하겠다. 그런데 모든 고윳값들이 0에 가깝다면, 이는 그냥 행렬 자체의 "크기"가 작다는 말이지 행들끼리 비슷하다는 말과는 거리가 멀어진다. 따라서 우리는 "0에 먼 고윳값이 있으면서 0에 가까운 고윳값도 있는" 행렬이 ill-conditioned 식을 정의할 것이라는 직관을 가질 수 있다.

 

그렇다면 역으로, 어떤 행렬을 고윳값 분해 했을 때 0과 아주 가까운 고윳값과 그렇지 않은 고윳값이 동시에 있다면 이 행렬이 정의하는 연립방정식 체계가 ill-conditioned 하다고 말할 수 있겠다. 이것이 Condition number의 기본적인 직관이고, 이제부터 하는 작업은 이 직관을 체계화하는 과정이라 할 수 있겠다.

 2-1. Rayleigh quotient

$n\times n$ (실/복소)행렬 $A$가 self-adjoint하게 주어질 때, 다음과 같이 Rayleigh quotient를 정의할 수 있다:

$$R_{A}(x) := \frac{(Ax \bullet x)}{||x||^{2}}$$

 

Self-adjoint 행렬은 모든 고윳값이 실수로 주어지며 스펙트럴 정리에 의해 ONB로 분해된다는 사실에 주목하라. 따라서 $R_{A}(x)$는 모든 $x \in \mathbb{F}^{n}$에 대해 항상 실수로 주어진다. 

 

이제 다음의 정리는 Rayleigh quotient의 최대와 최소가 고윳값으로부터 얻어짐을 의미한다:

정리 6.43 (Rayleigh quotient와 고윳값)

$A$는 $n\times n$ self-adjoint 행렬이라 하자. 이제 $R_{A}(x)$의 최댓값은 $A$의 가장 큰 고윳값이고, $R_{A}(x)$의 최솟값은 $A$의 가장 작은 고윳값이다.

 

증명. 

스펙트럴 정리에 의해 $\mathbb{F}^{n}$의 ONB $\beta = \{v_{1} ,... , v_{n}\}$와 각각 대응되는 고윳값 $\lambda_{1} \geq \lambda_{2} \geq ... \geq \lambda_{n}$이 존재하여, $Av_{i} = \lambda_{i} v_{i}$가 성립한다.

 

이제 $x = \Sigma_{i=1}^{n} a_{i}v_{i}$라 하면,

$$R_{A}(x) = \frac{(Ax\bullet x)}{||x||^{2}} = \frac{\Sigma_{i=1}^{n} \lambda_{i} |a_{i}|^{2}}{\Sigma_{j=1}^{n} |a_{j}|^{2}}$$

이다. 따라서,

$$ \lambda_{n} \leq R_{A}(x) \leq \lambda_{1}$$이고, 증명이 완료된다. $\square$

 

Rayleigh quotient는 self-adjoint 행렬에 대해서만 정의된다는 점에 유의하라.

 2-2. 행렬의 Euclidean norm

이제 더 나아가서 행렬의 크기에 대해 논의를 해보도록 하자.

정의. (행렬의 Euclidean norm)

$A$는 $n\times n$ 행렬이라 하자. 이제 다음과 같이 행렬의 Euclidean norm을 정의한다:

$$ ||A|| := max_{x\neq 0} \frac{||Ax||}{||x||}$$

 

이렇게 정의하는 것이 과연 합당한지 의문이 들 수 있다. 즉, 모든 행렬이 유한한 Euclidean norm을 가지는가? 이는 앞서 정의한 Rayleigh quotient로부터 답을 얻을 수 있는 질문이다:

 

정리 6.44 (Euclidean norm은 well-defined)

$A \in \mathcal{M}_{n\times n}$이라 하자 ($A$는 실 /복소행렬). 이제 $||A||$는 $A^{*}A$의 가장 큰 고윳값의 제곱근이다.

 

증명.

모든 $x$에 대해, $$\frac{||Ax||^{2}}{||x||^{2}} = \frac{(Ax \bullet Ax)}{(x\bullet x} = R_{A^{*}A}(x)$$이다.

우리는 이미 self-adjoint matrix에 대해 Rayleigh quotient의 최댓값과 최솟값이 가장 큰 / 작은 고윳값으로 주어진다는 사실을 아므로, $\lambda_{1}$을 $A^{*}A$의 가장 큰 고윳값이라 할 때, $\frac{||Ax||^{2}}{||x||^{2}} \leq \lambda_{1}$이다. 또한, $\frac{||Ax||}{||x||} \geq 0$이 항상 성립하므로, $\frac{||Ax||}{||x||} \leq \sqrt{\lambda_{1}}$이다.

 

마지막으로 행렬 $A^{*}A$에 대해, $\lambda_{1}$에 대응되는 고유벡터 $v_{1}$을 고려하면, $\frac{||Ax||}{||x||} = \sqrt{\lambda_{1}}$이므로 이 값이 실제로 달성된다. $\square$

 

 

이제 이를 바탕으로 $A$가 가역행렬일 때, $A^{-1}$의 노름을 살펴보도록 한다. 이를 위해서는 다음의 보조정리가 필요하다:

 

보조정리. (AB의 고윳값은 BA의 고윳값)

$A,B \in \mathcal{M}_{n\times n}$이라 하자. 이제 $AB$의 고윳값은 $BA$의 고윳값이다.

 

증명.

이하에서는 $AB$의 고윳값이 $BA$의 고윳값임을 보일 것이다.

Case 1. $\lambda = 0$ 

이 경우 $det(AB) = 0 = det(BA)$이므로 $BA$ 역시 고윳값 $\lambda = 0$을 가진다.

 

Case 2. $\lambda \neq 0$

이 경우 어떤 벡터 $v$가 존재, $ABv = \lambda v$이다.

따라서, $BABv = (BA)(Bv) = B(ABv) = \lambda Bv$이고, $\lambda \neq 0$이므로 $ABv \neq 0$이고, 따라서 $Bv \neq 0$이다.

따라서 $\lambda$ 역시 $BA$의 고윳값이다. $\square$

 

 

따름정리.

$A$가 가역행렬일 때, $||A^{-1}||$은 $A^{*}A$의 가장 작은 고윳값의 역수의 제곱근이다.

 

증명.

노름의 정의에 의해 $||A^{-1}||^{2}$은 $(A^{-1})^{*}(A^{-1}) = (AA^{*})^{-1}$의 가장 큰 고윳값이다. 그런데 임의의 가역행렬 $M$에 대해 $M^{-1}$의 고윳값은 $M$의 고윳값의 역수이다. 또한 $AA^{*}$의 모든 고윳값은 $A^{*}A$의 모든 고윳값과 같으며 모두 양수이므로, $(AA^{*})^{-1}$의 가장 큰 고윳값은 $AA^{*}$의 가장 작은 고윳값의 역수이며 이는 또 $A^{*}A$의 가장 작은 고윳값의 역수이다. 따라서 $||A^{-1}||$은 $A^{*}A$의 가장 작은 고윳값의 역수의 제곱근이다. $\square$

 

 2-3. Condition number

이제 이러한 논의를 바탕으로 실제 Condition number을 정의하여, 선형 연립방정식 체계가 well-conditioned된 정도를 표현해 보자.

 

$Ax = b$에서 어떤 오차 $\delta b$가 주어진다 하자. 이 경우, 새로운 연립방정식 체계는 $A(x+\delta x) = (b + \delta b)$ 또는 $A (\delta x) = \delta b$와 $A^{-1} (\delta b) = \delta x$를 만족할 것이다.

 

이제 $\frac{||\delta x||}{||x||} \leq \frac{||A||*||A^{-1}||*||\delta b||}{||b||}$이고, 마찬가지로 $\frac{||\delta b||}{||b||} \leq \frac{||A||*||A^{-1}||*||\delta x||}{||x||}$이다.

 

따라서 $cond(A) := ||A||*||A^{-1}||$라 정의하면,

 

$$ \frac{1}{cond(A)} \frac{||\delta x||}{||x||} \leq \frac{||\delta b||}{||b||} \leq cond(A) \frac{||\delta x||}{||x||}$$

이다. 특히, 노름이 앞서 정의한 Euclidean norm이면, $cond(A)$는 $A^{*}A$의 가장 큰 고윳값을 가장 작은 고윳값으로 나눈 후 제곱근한 값이고, 이 값은 항상 1보다 크거나 같다.

$cond(A)$가 작다면, $b$의 상대적 오차가 $x$의 상대적 오차와 유사하다는 보장이 있다. 반면, $cond(A)$가 크다면, $b$의 상대적 오차가 $x$의 상대적 오차에 대해 말하는 바가 적다고 할 수 있다. 따라서 앞서 살펴본 직관과는 다르게, $cond(A)$가 크다고 해서 무조건 작은 $b$의 상대적 오차가 큰 $x$의 상대적 오차로 이어지지는 않음을 알 수 있다.

 

 

conditioning은 이 정도로 마무리하고, 다음 글에서는 self-adjoint operators들이 스펙트럴 정리에 의해 잘 분해되었던 것처럼, orthogonal operators들이 '거의 잘' 분해된다는 사실을 살펴볼 것이다.

+ Recent posts

cs