[확률] 확률변수와 확률함수 개념 정리

확률에 대한 기본 개념을 계속해서 정리 하고 있습니다. 이번에는 확률변수와 확률함수에 대한 개념을 정리 합니다.

확률변수

특정 표본공간의 원소를 X 로 표현하며, 이를 확률 변수라고 부릅니다. 즉, 이 X 는 표본공간의 모든 원소가 될 수 있음을 의미합니다.

X 가 특정 원소인 x 가 될 수 있는 확률을 우리는 다음과 같이 표현합니다.

P(X = x)

당연히 표본공간 안에는 여러개의 원소(x)가 있을 수 있겠죠? 이 원소를 하나 둘 셋 넷 셀 수 있느냐 없느냐에 따라 우리는 확률변수 X 를 이산확률변수 혹은 연속확률변수라고 구분해 부릅니다.

이산확률변수

표본공간의 원소를 셀 수 있을 때 우리는 확률변수 X 를 이산확률변수라고 부릅니다.

귤 박스에 담긴 귤의 개수라든가, 각 분기별로 수출한 자동차의 대수 등은 모두 이산확률변수입니다.

연속확률변수

표본공간의 원소를 셀 수 없다면 우리는 확률변수 X 를 연속확률변수라고 부릅니다.

1리터의 기름으로 이동할 수 있는 자동차의 주행거리, 벌크선에 선적될 밀의 양, 한 개의 컵에 담기는 물의 양 등이 모두 연속확률변수입니다.

확률함수

확률함수란 확률변수 X 가 특정 원소에 대응할 때의 확률을 함수로 표현 한 것으로 수식으로는 아래와 같이 사용합니다.

f(x_{0}) = P(X = x_{0})

이러한 방식의 확률함수는 이산확률변수와 연속확률변수에 모두 사용할 수 있지만, 연속확률변수의 경우 확률함수로 표현되는 확률이 0 이기 때문에 사실상 의미가 없어 이산확률변수에 대해서만 사용합니다.

확률밀도함수

연속확률변수는 확률밀도함수(Probability density function)를 이용해 확률함수를 나타냅니다. 연속확률변수의 경우 특정 변수 값에 대한 확률이 0 이기 때문에(정확히는 0에 수렴하기 때문에) 아래와 같이 구간에 대한 확률밀도함수로 표현 할 있습니다.

확률밀도함수는 다음의 조건을 만족해야 합니다.

  1. f(x) \geq \text{for all } x
  2. P(a \leq X \leq b) = \int_{a}^{b} f(x)dx
  3.  \int_{-\infty}^{\infty} f(x)dx = 1

하나씩 해석을 하자면 아래와 같습니다.

  1. 모든 x 에 대한 확률은 0과 같거나 큼
  2. 연속확률변수 X 가 a 와 b 사이에 존재하는 확률은 연속확률함수에서 a 와 b 사이의 면적과 같음
  3.  연속확률변수 X 의 확률 총합은 1과 같음

사용하는 데이터에 따라 어떤 확률변수를 사용해야 하는지는 굉장히 중요한 부분입니다. 간단한 것이지만, 글로 표현하려니 여간 어려운게 아니네요.