전 연재글에서는 $f:\mathbb{R}^{n} \rightarrow \mathbb{R}$에 대한 제약이 없고 f가 $C^{3}$급 함수일 때 f가 어떤 점 x에서 극소점/ 극대점을 가지기 위한 필요조건과 충분조건을 살펴보았다. (애석하게도 필요충분조건 하나로 정리되지는 않는다는 것 역시 살펴보았다.)
이제는 $f: \mathbb{R}^{n} \rightarrow \mathbb{R}$를 최소화 하되, $g_{1}(x) = 0 , g_{2}(x) = 0 , ... , g_{K}(x) = 0$을 만족하는 $x \in \mathbb{R}^{n}$에 대해서만 고려하는 경우를 살펴보자. 이 경우 새로운 벡터함수 g를 정의하여
$$ g = (g_{1}, ... , g_{K})^{T} $$
로 표현할 수 있다. $g: \mathbb{R}^{n} \rightarrow \mathbb{R}^{K}$인 다변수 벡터함수이다. 단, $1 \leq K < n$라 하고, 각 스칼라 함수는 $C^{1}$급 이상이라 하자.
이제 최적화 문제를 다르게 표현하면
$$ \min{f(x)} \\ s.t. g(x) = 0, x \in \mathbb{R}^{n} \\ ...(1.3) $$
로 표현할 수 있다.
제약을 만족하는 x의 집합을 S라 정의하면
$$ S = \{x \in \mathbb{R}^{n} | g(x) = 0\} ...(1.4) $$
일반적으로 이 문제는 선택할 수 있는 x가 너무 많기 때문에, 극소점을 먼저 살펴보는 방식으로 진행된다.
그 전에 우리가 $\mathbb{R}^{n}$에서 알고 있는 극소점의 정의를 S에 대해서 확장시킬 필요가 존재한다.
정의.
S에서 정의된 함수 f가 점 $x_{0} \in S$에서 극소점을 가진다는 것은,
$$\exists \epsilon > 0 s.t. y \in S, ||x_{0}-y|| < \epsilon \Rightarrow f(y) \geq f(x_{0}) $$
을 의미한다.
즉 일반적으로 생각하는 $\mathbb{R}^{n}$의 열린 근방이 존재하여, 그 근방 안에 있으면서 S에 있으면 항상 $f(x_{0})$보다 작지 않은 함숫값을 가진다는 의미이다.
이제 다음 정리는 함수 f가 제약 g = 0에 직면할 때, f가 점 $x_{0}$에서 극소점을 가지기 위한 필요조건을 명시한다:
정리 1.3
함수 f가 제약 g=0에 직면한 최소화 문제 (1.3)에 대하여, f가 $x_{0}$에서 극소점을 가지기 위한 필요조건은, $\lambda \in \mathbb{R}, \lambda \in \mathbb{R}^{K}$가 존재하여 다음을 만족한다는 것이다:
$(i) (\lambda_{0}, \lambda) \neq 0$
$(ii)$ 만약 $F(x,\lambda) = \lambda_{0} f(x) + \lambda^{T}g(x)$라 하면 $\nabla F(x_{0}, \lambda) = 0$
이 정리의 증명을 위해서는 다음의 음함수 정리를 알아둘 필요가 있다:
보조정리. (음함수 정리)
실수 $x_{1}, ... x_{n}, y_{1}, ..., y_{m}$에 대하여 $x = (x_{1},...,x_{n}) \in \mathbb{R}^{n}, y = (y_{1},...,y_{m}) \in \mathbb{R}^{m}$이라 하자.
또한 $C^{p}$급 함수 (p는 1보다 크거나 같은 양의 정수) $F: \mathbb{R}^{n+m} \rightarrow \mathbb{R}^{m}$가 정의되어 있고, 집합 S를
$S = \{(x_{1},...,x_{n},y_{1},...,y_{m})\in \mathbb{R}^{n+m} | F(x,y) = 0 \}$로 정의하자.
x를 $x^{0} = (x_{1}^{0}, x_{2}^{0}, ..., x_{n}^{0})$로 고정하였다 할 때, $G(y) = F(x^{0},y)$라 정의하자.
이제 어떤 점 $y^{0} =(y_{1}^{0}, y_{2}^{0}, ..., y_{m}^{0})$에 대하여 $F(x^{0}, y^{0}) =0$이고
G의 야코비안 행렬
$$ M_{ij} = \begin{bmatrix} \frac{\partial G_i}{\partial y_{j}} (y^{0}) \end{bmatrix} $$
이 가역이면, 다음이 성립한다:
$$ \exists \epsilon > 0 s.t. \phi_i : N(\epsilon, x^{0}) \rightarrow \mathbb{R}, \\ (i) \phi_i \in C^{p} \\ (ii) \phi_i(x^{0}) = y_{i}^{0}, i=1,...,m \\ (iii) F((x), \phi(x)) = 0 $$
이 때 $\phi (x) = (\phi_{1} (x), ... , \phi_{n} (x))$인 벡터함수이고 $N(\epsilon, x^{0})$은 점 $x^{0}$으로부터 거리가 $\epsilon$보다 작은 $\mathbb{R}^{n}$의 집합이다.
보조정리만 10 줄 넘게 달한다! 이 정리를 처음 보면 두려움에 몸을 벌벌 떨 가능성이 크다 (필자는 그랬다. 진성 수학 변태들은 두려움이 아니라 환희에 몸을 벌벌 떨지 모르겠다. 하여튼 어느 쪽이더라도 몸은 벌벌 떨 것이라고 생각한다.)
이 일반적인 형태의 정리의 증명은 필자도 아직 모른다. 다만 직관은 어느 정도 설명해 줄 수 있으리라 생각하여, 이를 전달하고자 한다.
#주석 (음함수 정리의 직관) - 이 부분은 위키피디아의 관련 문서, https://web.stanford.edu/class/msande310/310trialtext.pdf, https://sites.math.washington.edu/~morrow/334_15/IFT.pdf를 참고하여 작성하였다.
최대한의 단순화를 위하여, 원의 방정식
$$ x^{2} + y^{2} = 1 $$
을 고려하여 보자.
이 집합은 x에 대한 함수를 정의하지 않는데, 예컨대 $x = \frac{1}{2}$이 주어지더라도 $y = \frac{\sqrt{3}}{2}, y = - \frac{\sqrt{3}}{2}$ 모두 해가 되기 때문에 주어진 x에 대해 y가 유일하게 결정되어야 한다는 함수의 정의에 어긋나는 것이다.
그러나 우리는 원의 윗부분과 아랫부분은 함수로 나타낼 수 있음을 아는데, 원의 윗부분은 함수 $ y = \sqrt{1-x^{2}}, y \geq 0 $으로 나타내고 원의 아랫부분은 함수 $ y = - \sqrt{1-x^{2}}, y \leq 0$으로 나타내는 것이다.
이제 $ y \neq 0$이 되는 어떤 점 $(x_{0}, y_{0})$을 잡는 경우, 예컨대 $ y > 0$이면 $x_{0}$의 주변에서 함수 $ y = \sqrt{1-x^{2}}$은 실제로 국소적으로 원과 일치할 것이고, $y < 0$이면 그 $x_{0}$의 주변에서 함수 $ y = - \sqrt{1-x^{2}} $ 은 국소적으로 원과 일치할 것이다. 이 경우에는 함수가 식으로 주어지며 구하기 어렵지 않지만, 이 정리의 핵심은 이러한 함수를 식으로 직접 구할 수 없더라도 어떤 조건 하에서는 그런 함수가 존재는 한다는 사실을 안다는 것이다.
그렇다면 그 조건이란 어떤 것인가? 원의 방정식은 어떤 이변수함수 F(x,y)에 대하여 F(x,y)=0인 점의 집합임을 상기하자. 어떤 점 $x_{0}$의 근방에서 원을 따라하는 함수가 정의되려면, 그 점 근처에서 y가 변할 때 F가 변해야 한다. 만약 그렇지 않다면, 예컨대 x=-1, y=0이나 x=1, y=0을 살펴보면 그 점에서 실제 원이 그러하듯 '안으로 꺾여' 버려서 정의가 안 되어 버릴 수 있고, 정의는 된다 하더라도 그 함수는 그 점에서 미분가능하지 않아 버릴 것이다. 이는 y가 변할 때 F가 변하지 않아버리면, F의 등위면이 국소적으로 수직선이 되어버려, 어떤 x 근방에서 등위면에 일치하는 함수를 정의하려 해도 그 점에서 수직선이 되는 함수는 미분가능할 수 없기 때문이다.
음함수 정리는 이를 여러 변수로 일반화한 것에 불과하다. 등위면이 수직선이 되지 않는다는 조건은, 앞서 살펴본 경우에는 F의 y에 대한 편미분계수가 0이 아닌 것이었고, 이를 다변수함수로 일반화한 것이 야코비안 행렬의 행렬식이 0이 아니라는 것이다. 특히 우리는 y가 변할 때 등위면이 수직선이 되는 경우에 함수를 정의할 수 없게 되므로 (x는 어차피 우리가 정하는 것이다), 야코비안 행렬은 x를 고정한 F에 대해서 $y_{1}, ..., y_{m}$의 편미분계수들을 성분으로 가지는 것이다.
또한 원의 예시에서 우리의 목적은 y를 x의 함수로 국소적으로 나타내는 것이었다면, 일반적인 조건에서의 목적은 $y_{1},...,y_{m}$을 $x_{1},...,x_{n}$의 함수로 나타내는 것이라는 점을 주의하자.
이제 음함수 정리를 이용하여 등호 제약 최소화 문제의 극소점 필요조건 정리를 증명하고자 한다.
(정리 1.3의) 증명.
$\nabla F(x_{0}, \lambda) = 0$은 다음을 의미한다:
$\lambda_{0} \nabla f(x_{0}) + \Sigma_{i=1}^{K} \lambda_{i} g_i(x_{0}) = 0$
또한 $(\lambda, \lambda_{i}) \neq 0$이므로 이는 벡터들의 집합 $S= \{\nabla f(x_{0}), \nabla g_1(x_{0}) , ... , \nabla g_K(x_{0})\}$가 선형종속임을 의미한다.
따라서 우리는 귀류법을 사용하여, S의 벡터들이 선형독립이면 g=0에 직면한 f가 $x_{0}$에서 극소점을 가질 수 없음을 보일 것이다.
S의 벡터들이 선형독립이라 가정하자.
다음의 함수 $F: \mathbb{R}^{n+1} \rightarrow \mathbb{R}^{K+1}$를 정의하자:
$$ F_{i} (x,u) = g_{i} (x), i=1,...,K, F_{K+1} (x,u) = f(x) - f(x_{0}) - u $$
이제 우리는 집합 $ D = \{(x,u)| F(x,u) = 0\} $에서 u<0인 해가 존재한다는 것을 보이면 그만이다.
만약 S의 벡터들이 선형독립이라면, 행렬
$$ M = \begin{bmatrix} \frac{\partial f}{\partial x_{1}} & ... & \frac{\partial g_{K}}{\partial x_{1}} \\ \vdots & \ddots & \vdots \\ \frac{\partial f}{\partial x_{n}} & ... & \frac{\partial g_{K}}{\partial x_{n}} \end{bmatrix} $$의 위수가 K+1이고, 따라서 K+1 x K+1 부분행렬을 골라 그 행렬이 가역이도록 만들 수 있다. 고른 행 중 하나의 행은 모두 $\frac{\partial ...}{\partial x_{i}}$의 꼴을 가질 것이다. 이제 변수들의 재명명하여 그렇게 고른 행들이 $\frac{\partial ...}{\partial x_{i}}, i=1,...,K+1$이 되도록 하였다 하자.
그렇다면 이제 우리가 함수로 나타내고자 하는 변수들이 $x_{i}, i=1,...,K+1$이고 고정시킬 변수들이 $x_{K+2},...,x_{n}, u$라 할 때, 새로 정의한 함수 G의 $x_{1},...,x_{K+1}$의 야코비안이 앞서 구한 부분행렬과 일치하게 되어 가역이 되고, 음함수 정리를 사용할 수 있다.
따라서 함수들 $\phi_{i}, i=1,...,K+1$가 $(x^{0}_{K+2}, ..., x^{0}_{n}, 0) 의 근방에 정의되어
$$ \phi_{i}(x^{0}_{K+2}, ..., x^{0}_{n}, 0) = x^{0}_{i}, i=1,...,K+1; \\ F(\phi(x_{K+2}, ..., x_{n}, u), x_{K+2}, ..., x_{n}, u) = 0; \\ \phi_{i} \in C^{1} $$
가 성립하게 된다.
그런데 함수가 u = 0을 가지는 $\mathbb{R}^{n-K}$ 어떤 점의 근방에 정의되므로 u<0인 해가 존재해야 하며, 이는 제약 g=0을 만족하면서 $f(x) < f(x_{0})$을 만족하는 해가 $x_{0}$와의 임의의 가까운 근방에 존재한다는 의미로, g=0에 직면한 f가 $x_{0}$에서 극소점을 가진다는 가정에 모순이다.
이상에 의하여 S는 선형종속이어야 함을 보였고, 이것이 정리 1.3에서 주장하는 바임은 선형종속의 정의에 의해 쉽게 확인할 수 있다. $\square$
이번 연재는 여기서 끊고, 다음 연재글에서는 예시를 통해 라그랑주 승수법의 실제 활용을 살펴볼 예정이고 가능하다면 최소점에 대한 필요/충분 조건들을 다룰 것이다.
'수학 (2022-2) > 최적화' 카테고리의 다른 글
번외 2편 - 다변수함수의 미분 복습 2 (0) | 2022.07.23 |
---|---|
번외 1편 - 다변수함수의 미분 복습 (0) | 2022.07.23 |
최적화 - 1.2.2 등호 제약 최적화의 이계조건과 유테 헤시안 (0) | 2022.07.22 |
최적화 - 1.1.2 다변수함수의 비제약 최적화 (0) | 2022.07.16 |
최적화 - 1.1.1 일변수 함수의 비제약 최적화 (0) | 2022.07.14 |