확률 변수의 정의

확률 변수란 어떤 무작위성이 존재하는 사건에서 이에 대한 결과 값을 표현하기 위해 도입된 변수이다. 그렇기 때문에 우리는 표본공간 $S$ 에 대해 함수 $X : S \rightarrow \mathbb{R} $로 생각할 수 있다. 즉 어떤 사건과 변수의 값이 대응되도록 정의하는 변수로 생각할 수 있다.

이산 확률 변수와 연속 확률 변수

이러한 확률 변수가 가산 집합에서 정의된다면 이산 확률 변수, 비가산 집합에서 정의된다면 연속 확률 변수로 칭한다. 두 변수를 다르게 정의하는 이유는 뭘까? 그것은 두 확률 변수에서 확률을 정의하는 방법이 다르기 때문이다. 다음을 살펴보자.

이산 확률 변수와 확률 질량 함수

이산 확률 변수는 다음과 같이 확률 질량 함수를 이용하여 확률을 정의한다.

\[P(X = x) = p_X (x)\]

여기서 $p_X (x)$는 확률 변수 $X$가 $x$의 값을 가질 때의 확률을 의미한다. 즉, 이산 확률 변수에서의 확률을 확률 질량 함수 값 자체가 확률 값을 가진다.
한편, 확률 질량 함수는 확률의 정의에 따라 다음과 같은 성질을 만족한다.

\[\sum_{x=-\infty}^{\infty}p_{X}(x)=1 \\ \forall_{x \in S}~{p_X (x) \geq 0}\]

연속 확률 변수와 확률 밀도 함수

반면, 연속 확률 변수의 경우 다음과 같이 확률을 정의한다.
연속 확률 변수 $X$와 함수 $f_X : \mathbb{R} \rightarrow \mathbb{R}$, 그리고 집합 $ A \subset R $에 대하여 확률 $P[X \in A]$는 다음과 같이 정의한다.

\[P[X \in A] = \int_{A} f_X(x)dx\]

또한 확률의 성질에 따라 다음과 같은 성질을 갖는다.

\[\begin{align} 1. & ~f_{X}(x) \geq 0 \nonumber \\ 2. & ~\int_{-\infty}^{\infty}f_{X}(x)dx = 1 \nonumber \\ 3. & ~P[a \le X \le b] = \int_{a}^{b}f_{X}(x)dx \nonumber \\ \Rightarrow & ~P[X=a] = \int_{a}^{a}f_{X}(x)dx = 0 \nonumber \end{align}\]

누적 분포 함수의 정의

누적 분포 함수는 다음과 같이 정의한다.

\[F_X(x)=P[X \le x]\]

이와 같은 정의를 통해 계산을 쉽게 할 수 있다. 누적 분포 함수도 이산 확률 변수일 때와 연속 확률 변수일 때를 나누어 살펴보자.
이산 확률 변수일 때에는 다음과 같이 정의된다.

\[F_X(x)=\sum_{k \le x}f_X(k)\]

반면 연속 확률 변수일 때에는 다음과 같이 정의된다.

\[F_X(x) = \int_{-\infty}^x f_X(x)dx\]

또한, 정적분으로 누적 밀도 함수가 정의되므로, 누적 분포 함수의 미분을 통해 확률 밀도 함수를 알 수 있다. 이를 수식으로 정리하면 다음과 같다.

\[\frac{d}{dx}F_X(x)=f_X(x)\]

이산 확률 변수는 함수값으로서 확률이 정의되고, 연속 확률 변수는 확률 밀도 함수의 적분으로 확률이 정의된다는 사실을 이해하면 이해하기 쉽다.

누적 분포 함수의 성질

누적 분포 함수는 다음과 같은 성질을 갖는다. 증명은 생략한다.

\[\begin{align} 1. & \forall x_1 \le x_2,~F_X (x_1 ) \le F_X (x_2 ) \nonumber \\ 2. & 0 \le F_X (x) \le 1 \nonumber \\ 3. & \lim _ {x \rightarrow \infty} F_X (x) = 1 \nonumber \\ 4. & \lim _ {x \rightarrow -\infty} F_X (x) = 0 \nonumber \\ 5. & P[a < X \le b] = F_X (b) - F_X(a) \nonumber \\ 6. & P[X > a] = 1 - P[X \le a] = 1 - F_X (a) \nonumber \end{align}\]