[수리통계학] 8. 이항분포의 기댓값과 분산 계산

2025. 2. 20. 00:25수리통계학

안녕하세요. 머리가 지끈거리는 상태입니다. 아주 반가워요.

 

요즘 들어 뼈져리게 느끼는 한 가지가, 

하루에 사용할 수 있는 에너지는 한정적이라는 것입니다.

쓸모없는 곳에 에너지를 많이 소비하면 그만큼 중요한 순간에 사용할 힘이 없어지게 되는 것 같아요. 

 

예를 들면 약속시간에 늦을까 스트레스 받으며 지하철을 기다린다던지,

쉬는 시간을 두지 않고 몇시간에 걸쳐 어떤 활동들을 한다던지 등등

 

우선순위를 명확히 파악하고, 그에 따라 나머지 자극들을 포기할 수 있는 용기와 결단력이 필요합니다. 

쉬운 일이 아니죠.

 

오늘은 다행히 어젯밤에 정리해둔 필기가 있어서, 따로 필기를 하진 않아도 될 것 같아요. 

바로 시작해볼까요?

 


 

이항분포의 기댓값과 분산을 구해보도록 하겠습니다. 

전체적인 전략은 이전 초기하 분포에서 다뤘던 것과 같습니다. 

 

(이산변수이니 합의 기호를 사용해)

기댓값 정의를 따라 E(X)를 먼저 구합니다.

그 다음, E[X(X-1)]을 구해 분산 공식을 만들 겁니다. 

 

기본적으로 식을 전개하는 아이디어도 초기하 분포 때와 많이 닮아,

이전 포스팅을 다시 한번 참고하시는 것도 좋은 생각일 것 같습니다!

 

이미 한번 경험한 과정이기 때문에, 두 이미지를 한 번에 배치하도록 할께요!

 

왼쪽 그림부터 보시죠.

 

(별표1)

: 시작하기에 앞서 가장 중요한 작업이 바로 sum(시그마)에서 x=0를 x=1로 바꾸는 것입니다. 

기댓값은 앞에 변수 'X'가 곱해져 있으므로, x=0인 상황에서는 0이 됩니다.

 

따라서 ∑ 를 x=0부터 시작하던, x=1부터 시작하던 전체 값에는 변함이 없습니다.

 

어떻게 두어도 상관이 없다는 말이지만, 일단 우리는 뒤에 의도하는 바가 있으니 x=1부터 시작하는 것으로 바꾸어 둘께요.

 

 

이외에 combination에서 1/x를 빌려와 변수 X를 없애주는 것은 초기하 분포 때와 같은 아이디어입니다.

 

(별표2)

: X를 지우느라, n/x를 combination으로부터 꺼내게 되어, (n-1)C(x-1)이 되었습니다.  

 

마치 애초에 n개가 아닌, n-1개를 뽑으려 했다고 거짓말을 하고 싶은 욕구가 생기는군요. 

 

거짓말을 해봅시다.

 

지금 뒤에 p^{x}*(1-p)^{n-x}는 앞에 X를 지우느라 한개를 까먹은 걸 반영 못해서 둘이 아직 n개입니다.

그래서 p^{x}에서 p 하나를 빼봅니다. 

 

그림을 보면 뒤에 P 하나가 나온 것을 확인할 수 있죠. 이렇게 하나를 빼돌렸더니, 이제 앞 combination과 같이 p와 (1-p)의 갯수가 합쳐서 n-1개가 됩니다.

 

완벽 범죄를 할 수 있을 것 같습니다. 

 

 

이때 우리가 앞서 (별표1)에서 ∑를 x=0부터가 아닌 x=1부터 시작한 것이 신의 한 수가 되네요!

 

X는 하나도 1이 뽑히지 않은 0부터, n개 모두 뽑힌 n까지( 0 ≤ X ≤ n )

총 n+1개의 가능성이 있습니다.

 

그럼 지금 애초에 n-1개만 뽑고 있다고 뻥을 치고 있으니까, 

X의 가능성도 한 개 적은 n개만 되어야 합니다.

 

그래서 아까 굳이 x=0부터 시작하지 않고, x=1부터 시작한 것이 빛을 바라죠.

x=1부터 시작하면, X는 1부터 n까지로, 딱 n개의 가능성만 가지게 되니까요.

 

아다리가 잘 들어맞습니다~

 

그래서 결국은 확률의 모든 경우를 다 더한 것이니, 

확률의 합은 1이 된다는 확률의 공리에 따라

뒷부분은 1이 됩니다. 

 

이 설명이 만족스럽지 않은 분들은 이항정리 공식을 떠올려서 이해하시면 좋을 것 같아요.

 

 

 

(오른쪽 E[X(X-1)]을 구하는 과정은 같은 논리가 적용되니, 설명은 생략하도록 할께요)


 

(애초에 n-1개 뽑았다고 사기(?)치는 부분을 수식으로 이해하고 싶으신 분들을 위해 설명 그림 첨부해놓겠습니다.)

마지막 식을 보면, 그냥 n개 뽑았을 때와 같은 형태임을 확인하게 됩니다. 마음이 편해지죠.

 


이렇게 위에서 구한 결과들을 가지고 마지막 분산을 완성해봅니다.

 

 

사실 이항분포의 평균과 분산을 정의를 사용해 수식으로 유도해보았지만,

np, np(1-p)를 보면 알 수 있듯, 

그냥 베르누이 시행의 평균과 분산(p, p(1-p))를 n번씩 중첩해놓은 것입니다. 

 

이는 이항분포가 '독립적인' 베르누이 시행의 반복으로 만들어졌기 때문이죠. 

서로 영향을 주지 않으니 첫 시행, 두 번째 시행, ... , 마지막 시행까지 모두 기댓값이 p이고

 

앞서 미시 기댓값들을 합쳐 거시 기댓값을 구성했던 것처럼

 

이들이 n번 반복되니, np가 된 것입니다. 


 

좋습니다. 다음 시간에는

 

① 이항분포의 구성물이었던

베르누이 시행으로 초기하 분포를 유도할 수 있다는 것을 확인해보고,

 

② 초기하 분포는 비복원 추출이고, 이항분포는 복원추출인데,

왜 n값이 커지면, 두 추출 방법 사이에 차이가 무시해도 될 정도로 작아지는지 이야기해보도록 하겠습니다.

 

 

최선이었던 하루가 되었길 바랍니다.

 

.

.

.

아름다운 느낌이 머물기를...