[통계적 기계학습] 2-1. Probability
24.03.12
1. 확률의 4가지 정의
1.고전적 정의 : 라플라스의 정의라고도 한다.
$$ P(A)=\frac{n}{N} $$
2.상대도수적 정의 : 수학적 혹은 통계적 정의라고도 한다. 극한의 개념, n을 무한히 증가시켰을 때, 즉 확률의 실험을 무한히 반복하여, 무한한 set을 만들 수 있음. 그리고 무한히 많은 모든 원소에 확률값을 부여할 수 있다.
$$ P(A)=\displaystyle \lim_{n \to 0}\frac{f_{n}}{n}$$
3. 주관적 정의 : 믿음의 정도
4. 공리적 정의 : 공리(axiom)란 이유없이 있는 그대로 받아들여야하는 것을 의미.
2. 확률의 뜻과 성질
확률의 공리(axiom)
1. 확률의 범위: 어떤 이벤트가 가질 수 있는 확률은 0 이상이다. 즉, 음의 확률을 가질 수 없다.
2. 전체의 확률: 표본공간 S 안에는 가능한 모~든 사건이 들어있기 때문에 확률의 합은 1이어야한다.
3. 가산가법성: 함수 간의 덧셈이 가능하다. 이때 확률함수 P(A)도 함수임을 인지해야한다. 그렇기 때문에 배반인 사건들에 대해 각각의 확률을 더한 값과 합집합의 확률은 같다. 사건이 무한히 있을때에도 각 사건의 확률은 무한히 더할 수 있다.
- $$P(\displaystyle \lim_{n \to \infty}A_{n})=\displaystyle \lim_{n \to \infty}P(A_{n})$$
- 몸무게나 길이와 같이 어떤 것에 값을 부여할 수 있는다는건 measureable하다는 의미이다. 이때 확률함수 P도 사건 A를 넣었을 때 0~1 사이의 실수값을 뱉는 함수이다. 결국 확률도 measureable(측도가능)하다는 개념에서 확률론이 시작되었다.
- 결론: 확률의 학문적 정의는 다양하다. 즉 연구자들마다 생각하는 확률의 의미가 다르다. 이 강의에서는 주관적 정의를 기준으로 진행된다.
Probability Space(확률공간)을 정의하는 세가지 요소
1. $$\Omega$$ → 전체집합, 표본공간(Sample space). random experiment의 가능한 모든 output을 모아놓은 곳이다. 그렇기 때문에 무한한 공간일 수 있다.
2. $$\sigma -field, \sigma -algebra$$
(LaTex 왼쪽 정렬 할 줄 아시는 분 ㅠㅠ)→ 가능한 모든 부분집합(subset)을 모아놓은 공간. 이때 시그마는 "무한"을 의미함. 가능한 모든 사건들의 조합을 의미한다. 다시말해, 확률함수의 정의역이라고 할 수 있다. (ex. {1},{1,2},{1,2,3},..., 그래서 P({1,2})=0.3와 같이 확률함수 p에 하나를 넣으면 그에 대한 확률값이 나옴.)
- sigma-field 의 두가지 조건
- $$A\in \sigma, B \in \sigma \rightarrow A\cup B\in\sigma$$
- $$A\in \sigma\to A^{c}\in \sigma$$
3. p → 확률"함수"
확률의 기본성질
- 각 사건 A에 대해 $$0\leq P(A)\leq 1$$, $$P(\varnothing)=0$$. 즉, 아무것도 존재하지 않는 집합에 대해서는 0의 확률을 부여다.
- $$P(A)=1-P(A^{c})$$
- $$A\subseteq B \to P(A)\leq P(B)$$
합사건의 확률
가산 반가법성에 의해 서로 독립이 아닌 집합들의 확률의 합은 다음과 같다.
$$P(A_{1}\cup A_{2}\cup ... \cup A_{n}) = P(A_{1})+...+P(A_{n})-P(A_{1}\cap A_{2})-...-P(A_{n-1}\cap A_{n})+...+(-1)^{n-1}P(A_{1}\cap A_{2}\cap ... \cap A_{n})$$
→ $$P(A_{1}\cup A_{2}\cup ...) \leq P(A_{1})+P(A_{2})+...$$
확률 측도의 연속성
- $$A_{1} \subseteq A_{2} \subseteq ... \subseteq A_{n}\subseteq ...\to P(\bigcup_{n=1}^{\infty }A_{n})=\displaystyle \lim_{n \to 0}P(A_{n})$$
- $$B_{1} \supseteq B_{2} \supseteq ... \supseteq B_{n}\supseteq ...\to P(\bigcap_{n=1}^{\infty }B_{n})=\displaystyle \lim_{n \to 0}P(B_{n})$$
3. 조건부 확률과 독립성
모수란 우리가 알고 싶은 값을 의미한다. 이때 theta를 모수, x를 관측된 데이터라 하자.
- $$P(X\mid \theta )$$
- $$P(\theta \mid X)$$
1번 식은 가능도함수(likelihood function)이라 한다. "고정된 값인" theta에 대한 관측값의 확률 즉, 가능도함수의 값이 높다면 theta를 잘 추정했다고 볼 수 있다. 다시말해 가능도함수를 최대화시키는 theta를 찾아야한다.
2번 식은 반대로 관측값들이 주어졌을 때 세타를 추정할 수 있다는 의미이다. 세타가 정규 분포의 평균과 분산(mu와 sigma)이라 가정해보자. 모형에 데이터셋 X를 입력하면, 실제 분포와 정규 분포가 같을 확률이 계산된다.
=>이 두가지 관점이 바로 기계학습을 접근하는 본질적인 관점이라 할 수 있다. 우리 강의는 1번 관점과 유사하게 접근하고자 한다.
추가적으로 최대 가능도를 추정하는 MLE(Maximum Likelihood Estimation)는 지금까지도 많이 사용되고 있다.
베이즈 정리는 아래와 같이 전개할 수 있다.
$$P(\theta\mid X)\propto P(\theta )P(X\mid \theta)$$
위 식에서 가장 좌변에 있는 확률값은 사후분포(posterior)라고 한다. 이 사후분포는 주관적인 믿음의 정도를 의미하는 theta의 확률(prior)과 가능도함수와 비례한 값을 가진다.
이때 prior에 대해 의문을 가질 수 있다. 주관적인 믿음의 정도라... 말그대로 자신이 데이터가 theta의 분포를 가질 것이라는 믿음의 정도를 의미한다. 그래서 prior를 나쁘게 준다고해서 큰 영향을 받지 않는다는 단점이 있다. 하지만 prior를 줄 경우 더 효율적으로 좋은 추정량을 찾는다는 장점이 있다.
4. 확률변수와 확률분포
확률변수는 sample space 안에서 정의되는 실수값과 매칭되는 하나의 실함수(real valuble function)이다.
sigma-field에 있는 값들에 확률값(실수값)을 하나씩 매칭시켜줄 수 있는 함수를 확률변수라 한다.
쉽게 말하면, sigma-field에 모든 경우의 수 및 사건들이 적혀있다면 확률변수는 이런 사건들을 실수로 변환해주는 역할을 한다고 볼 수 있다.
이때 확률변수 X가 가질 수 있는 각각의 값의 확률값을 전부 알고 있다면 정확한 확률 분포를 알 수 있다고 할 수 있다.
기계 학습의 핵심은 random한 값을 상수로 바꿔주는 것이다. 확률 분포를 적분하여 하나의 확률값을 갖던지 기댓값을 취하는 것을 예로 들 수 있다.
그럼 확률변수 X의 pdf(확률밀도함수)는 다음과 같이 수식할 수 있다. (이때 확률변수는 대문자 X이다! 그래서 2,4,6과 같은 각 원소는 소문자 x에 들어간다.)
$$f_{X}(x)$$
위와 같은 확률변수 X의 PDF를 이용하여 X의 기댓값을 구할 수 있다.
<추가로 알아둘 점>
- 추가로 기댓값이 무한일 때, 기댓값이 없다고 표현한다. 즉, 기댓값은 항상 유한하다.
- 어떤 변수에 대한 기댓값인지 잘 확인하자. 아래 두항은 계산 방식만 같고 서로 다른 항이다.
$$E_{X},E_{Y}$$
- 확률변수를 잘 transformation 시키면(ex. Y=g(X)) 어려운 계산이 쉬워진다. 자세한건 추후에 or 대학원에서...
24.03.14
5. 확률분포의 특성치
(1) 기댓값
E(X)은 결국 기댓값이라는 아주 flexible한 함수이다. 때문에 X 대신 확률함수 g(X)가 들어갈 수도 있다! 사실 어떤 함수는 인쉥 따라서 바뀌거나 그러기도 하는데, 기댓값 즉 함수 E(X)는 그렇지 않다.
- 기댓값으 ㅣ성질 중 선형성은 모두 가산가법성에 의해 나온 것.
- 그래서 이런 가법성 덕분에, 두 사건이 독립인 순간 복잡한 수식이 분해가 됨. ex e(xy) = e(x)e(y)
선형회귀의 loss function은 왜 제곱할까? (그 이유는 기댓값과 연결됨)
- 일단 loss function이란 기본적으로 볼록해야한다. 그래야 찾기 쉽다. 지수함수는 볼록하지 않고 복잡해서 초월돼있다. 그래서 지접을 찾기 힘듦.
- loss fuction은 더할 수(가법할 수) 있어야한다. 왜냐하면 convex한 함수 두개를 곱해버리면 없어진다. 하지만 convex한 두 함수를 더하면 convex한 성질이 그대로 남는다.
- 우리가 궁극적으로 얻고 싶은 것은 y given x의 기댓값을 구하고 싶다. 다시 말해 분포의 평균, 조건부 평균을 구하고 싶다.
(2) 분산
Var(X)를 X의 분산으로 보지 말고, 새로운 확률변수((X-mu)의 제곱)를 하나 정의해보자.
추가(참고만하기}:
y=ax+b에서 기댓값은 a, b모두 영향을 받았었음. 하지만 분산은 a만 관심있음. 아래 전개식 첨부하기