확률 변수의 정의와 이와 관련된 함수
어떠한 무작위성을 가진 사건에서의 변수를 정의하여 보자
확률 변수의 정의
확률 변수란 어떤 무작위성이 존재하는 사건에서 이에 대한 결과 값을 표현하기 위해 도입된 변수이다. 그렇기 때문에 우리는 표본공간 $S$ 에 대해 함수 $X : S \rightarrow \mathbb{R} $로 생각할 수 있다. 즉 어떤 사건과 변수의 값이 대응되도록 정의하는 변수로 생각할 수 있다.
이산 확률 변수와 연속 확률 변수
이러한 확률 변수가 가산 집합에서 정의된다면 이산 확률 변수, 비가산 집합에서 정의된다면 연속 확률 변수로 칭한다. 두 변수를 다르게 정의하는 이유는 뭘까? 그것은 두 확률 변수에서 확률을 정의하는 방법이 다르기 때문이다. 다음을 살펴보자.
이산 확률 변수와 확률 질량 함수
이산 확률 변수는 다음과 같이 확률 질량 함수를 이용하여 확률을 정의한다.
\[P(X = x) = p_X (x)\]여기서 $p_X (x)$는 확률 변수 $X$가 $x$의 값을 가질 때의 확률을 의미한다. 즉, 이산 확률 변수에서의 확률을 확률 질량 함수 값 자체가 확률 값을 가진다.
한편, 확률 질량 함수는 확률의 정의에 따라 다음과 같은 성질을 만족한다.
연속 확률 변수와 확률 밀도 함수
반면, 연속 확률 변수의 경우 다음과 같이 확률을 정의한다.
연속 확률 변수 $X$와 함수 $f_X : \mathbb{R} \rightarrow \mathbb{R}$, 그리고 집합 $ A \subset R $에 대하여 확률 $P[X \in A]$는 다음과 같이 정의한다.
또한 확률의 성질에 따라 다음과 같은 성질을 갖는다.
\[\begin{align} 1. & ~f_{X}(x) \geq 0 \nonumber \\ 2. & ~\int_{-\infty}^{\infty}f_{X}(x)dx = 1 \nonumber \\ 3. & ~P[a \le X \le b] = \int_{a}^{b}f_{X}(x)dx \nonumber \\ \Rightarrow & ~P[X=a] = \int_{a}^{a}f_{X}(x)dx = 0 \nonumber \end{align}\]누적 분포 함수의 정의
누적 분포 함수는 다음과 같이 정의한다.
\[F_X(x)=P[X \le x]\]이와 같은 정의를 통해 계산을 쉽게 할 수 있다. 누적 분포 함수도 이산 확률 변수일 때와 연속 확률 변수일 때를 나누어 살펴보자.
이산 확률 변수일 때에는 다음과 같이 정의된다.
반면 연속 확률 변수일 때에는 다음과 같이 정의된다.
\[F_X(x) = \int_{-\infty}^x f_X(x)dx\]또한, 정적분으로 누적 밀도 함수가 정의되므로, 누적 분포 함수의 미분을 통해 확률 밀도 함수를 알 수 있다. 이를 수식으로 정리하면 다음과 같다.
\[\frac{d}{dx}F_X(x)=f_X(x)\]이산 확률 변수는 함수값으로서 확률이 정의되고, 연속 확률 변수는 확률 밀도 함수의 적분으로 확률이 정의된다는 사실을 이해하면 이해하기 쉽다.
누적 분포 함수의 성질
누적 분포 함수는 다음과 같은 성질을 갖는다. 증명은 생략한다.
\[\begin{align} 1. & \forall x_1 \le x_2,~F_X (x_1 ) \le F_X (x_2 ) \nonumber \\ 2. & 0 \le F_X (x) \le 1 \nonumber \\ 3. & \lim _ {x \rightarrow \infty} F_X (x) = 1 \nonumber \\ 4. & \lim _ {x \rightarrow -\infty} F_X (x) = 0 \nonumber \\ 5. & P[a < X \le b] = F_X (b) - F_X(a) \nonumber \\ 6. & P[X > a] = 1 - P[X \le a] = 1 - F_X (a) \nonumber \end{align}\]