2025. 2. 17. 01:24ㆍ수리통계학
안녕하세요~ 무려 9일 만에 티스토리를 쓰게 되었네요.
지난 주는 자격증 시험 준비하고, 기념일도 있고 하여 글을 쓰지 않았네요.
(공부를 안 했다는 소리입니다^^)
사실 어젯밤에 글을 써보려고 했는데, 초기하 분포 E[X(X-1)] 해석 부분이 매끄럽지가 않아서
어제 오늘 고민 좀 하느라 더 늦어졌네요.
잘 지내셨는지요? (현재 구독자 1명. 박** 군)
그럼 오늘은 초기하 분포의 분산을 구해보도록 하겠습니다!
사실 분산을 구하는 과정에서 제 나름대로는 길었던 고민의 결과가 있었으니, 그것이 글로 잘 전달이 되면 좋겠어요.
시작해볼까요? (색다르죠?)
먼저 지난 포스팅이 오래된 만큼, 초기하 분포가 뭐였는지부터 다시 확인해보도록 해요.
그림으로 보니 더 어지럽나요? (ㅋㅋ)
쉽게 말해,
D개의 '1'이 적힌 공, N-D개의 '0'이 적힌 공,
두 종류의 공으로 이루어진 N개의 공이 있습니다.
이 N개의 공에서 임의로 n개를 뽑았을 때,
n개 중 '1' 공의 갯수를 X라고 하면,
X는 초기하 분포를 따른다고 합니다.
아, 좋습니다. 이게 초기하 분포였던 것 같아요. 우리가 비교적 익숙한 이항분포는 각 시행이 복원추출이라면, 초기하 분포는 비복원추출이라는 점에서 달랐다는 것도 기억해보면 좋을 것 같아요. (이항분포와의 관계는 이후에 다룰 예정입니다.)
그럼 이제 분산을 구해보도록 하죠. (빠르게 빠르게 갑시다)
분산은 정의를 약간 변형하면, 아래와 같은 식을 얻을 수 있습니다.
우리가 앞에서 E(X)를 이미 구해봤으니(포스팅 (5) 참고)
E[X(X-1)]을 구하면 아래와 같은 흐름에 따라 분산을 구할 수 있게 됩니다.
그래서 이제 저희에겐 '분산을 구한다'는 'E[X(X-1)]을 구한다'와 같은 말이 됩니다.
E[X(X-1)]를 구하면 오늘의 분량은 끝난다는 말이기도 하죠.
그럼 먼저 기댓값 정의에 따라, x(x-1)을 변수로 두고 기댓값을 구해보도록 할께요.
결과를 얻긴 얻었는데, 기분이 썩 좋진 않습니다.
이 결과식이 어떤 의미를 내포하고 있는지 알지 못하기 때문이죠. 그냥 단순 문자들의 나열처럼도 보입니다.
앞선 포스팅에서 E(X)의 결과를 직관적으로 보고자 노력했던 기억이 나시는지요?
참을 수 없습니다.
이번에도 그 시도를 안 해볼 수가 없군요.
(이것 때문에 사실 고생 좀 했습니다.)
먼저 E(X)를 어떤 아이디어로 이해했었는지 리마인드 해보죠.
핵심 아이디어는 D개의 '1' 공을
그냥 '1'로 똑같이 보는 것이 아니라, '각 공을 구별해주자'는 것이었습니다.
사과를 예시로 들었었는데요,
우리가 사과 한 박스를 사면 10개가 들어있다고 해볼께요.
얘네는 다 그냥 '사과'입니다. 어머니가 '색깔이 네 번째로 진한 사과 하나 가져와봐라' 이렇게 말씀하시진 않는다는 말이죠.
그런데 우리는 기댓값을 계산하는 과정에서 '사과1', '사과2', ...
이렇게 각 사과의 개인성을 존중해줬습니다. 그냥 '사과'라고 부르는 것이 아니라, 각각의 사과를 하나의 주체성을 가지도록 해줬습니다.
(말이 쓸데없이 철학적으로 흘러가네요)
똑같이 같은 아이디어로,
1을 가진 각 공을 뽑을 확률을 구한 뒤
(n개를 뽑을 때, 해당 공을 미리 뽑아놓고, 나머지 n-1개 채우는 방식으로 확률을 구했죠)
최종적으로 이들이 모두 1의 범주에 속하니, '1'의 기댓값은 각 1 공들 기댓값들의 합으로 표현했던 것이죠.
한 마디로 정리하면,
"상위 개념의 기댓값"을 구할 때,
('사과', 여기서는 '1')
"각 요소의 기댓값"들을 구한 다음
('사과1', '사과2', '1_1', '1_2', ...)
이들의 합으로 전체를 표현해주었던 것이죠.
논의의 편의를 위해,
"상위 개념"(사과, 1)에 대해 말할 때는 '거시'
"하위 개념"(개인들)에 대해 말할 때는 '미시'
이렇게 부르도록 할께요.
말이 길어지는 것은 좋지 않습니다. 복습은 이정도까지만 하도록 할께요.
.
.
그럼 위에서 구한 E[X(X-1)]의 결과식을 E(X) 결과식과 비교해보면서 아이디어를 얻어봅시다.
E(X)에서 각 개인들의 확률(1_1이 뽑힐 확률 등)은
그 해당 개인을 먼저 뽑아두고, 나머지 n-1 자리를 채우는 방식으로 분자의 경우의 수를 구했어요.
이 렌즈를 끼고 바로 밑에 E[X(X-1)]의 경우를 보면 어떤가요?
뭔가 '2개의 개인'을 미리 뽑아두고, 나머지를 채운 것 같지 않나요.
이정도가 우리가 가질 수 있는 직관입니다.
그럼 진짜 X(X-1) 기댓값을 구하기 위해서는, 개인을 2개를 뽑아 놓는 것이 맞는지 논리적인 해석을 찾아보면 좋겠어요.
고민의 결론부터 말하자면,
X(X-1)은 n개 중 뽑힌 1의 갯수(X개가 되겠죠?)
이 X개 안에서 만들어질 수 있는 1의 "쌍의 갯수"를 의미해요.
이건 제가 봐도 용서해줄 수 없는 설명이에요. 정말 이해하기 복잡하기 그지 없군요.
하지만 계속 시도해보자구요.
지금 기댓값을 구하고자 하는 변수가 단순 X가 아닌, X(X-1)입니다.
문제는 도대체 X(X-1)이 뭘 의미하냐는 거에요.
X(X-1)을 어떻게 해석해야 할까요?
왜 1을 두 개를 뽑는 것과 관련이 있어 보이는 걸까요?
여러 고민 끝에 X(X-1)는
두 개의 1 개인으로 이루어진 "쌍"의 갯수
이 해석이 가장 논리적이라고 결론 내렸습니다.
어떤가요?
초기하 분포의 분산을 구하는 거와 관련이 있어 보이나요?
제게는 딱히 그렇게 보이지는 않습니다.
저희는 단순히 기술적으로 분산을 구하기 위해서 E[X(X-1)]의 결과만 알면 되기에,
사실 목적 달성을 위해서 필수적인 내용은 아닐 겁니다.
따라서 큰 흥미를 느끼시지 못하셨다면, 패스 하셔도 큰 원망은 하지 않겠습니다.
그래도 X(X-1)이 "쌍의 갯수"가 된다는 것이 자연스러운 것임을 보도록 하죠. ^^ (제 블로그이니 이건 뭐 거의 폭군입니다.)
가장 좋은 설명은 X(X-1)이 조합의 경우의 수를 구하는 형태라는 것일 겁니다.
직관적이지 않을 수 있으니, 간단한 사례로 살펴보도록 합시다.
0들은 어차피 기댓값 계산에서 없어질 테니까, 1들과만 작업을 하도록 해요.
5개의 1이 있습니다.
우리는 미시 차원에서 각 공에 대한 기댓값을 구하고,
이들을 이용해 거시 차원의 기댓값을 표현해오고 있습니다.
지금 n개를 뽑았더니, 1이 5개 왔군요.
그럼 X=5입니다.
X=5라면,
X(X-1)은 당연히 5×4로 20이 되겠죠.
이는 5개의 1들 중에서 두 개의 조합을 고려하는 것과 같습니다. (순서 있는 쌍)
하나의 예시일 뿐이지만, 직접 써보니 X(X-1)이 쌍의 갯수라는 말이 조금은 친숙해지는 것 같습니다.
따라서 결론을 정리해보면,
거시 변수 1에 대하여
모집단에서 총 D(D-1)개의 쌍이 가능하고
이들 중 발생확률을 곱하여 살아남은 부분들이 기댓값이 되겠습니다.
휴, 됐습니다.
이제 결과와 해석은 다 봤으니
마지막으로 결과들을 조금 더 우리에게 친숙한 형태로 다듬고, 바로 분산을 구해보도록 할께요.
결과를 이렇게 정리하면, 조금 더 직관적인가요?
이렇게 분산을 구합니다.
분산이 주제긴 했지만, 사실 오늘 포스팅의 포커스는 E[X(X-1)]를 설명하는 거였다는 것을 느끼셨을 겁니다.
이런 과정. 의미 있다고 생각합니다.
좋은 토론의 장이 될 수도 있겠어요. (그건 제 바람사항)
일요일 밤입니다.
모두 에너지 충전 잘 하시며 좋은 한주 준비하시길 바랄께요.
아름다운 느낌이 머물기를...
'수리통계학' 카테고리의 다른 글
[수리통계학] 8. 이항분포의 기댓값과 분산 계산 (0) | 2025.02.20 |
---|---|
[수리통계학] 7. 이항분포란 무엇인가 (1) | 2025.02.19 |
[수리통계학] 5. 초기하 분포와 기댓값에 대한 생각 (0) | 2025.02.08 |
[수리통계학] 4. 회귀분석의 기초, CEF(조건부 기댓값 함수) 2 (0) | 2025.02.06 |
[수리통계학] 3. 회귀분석의 기초, CEF(조건부 기댓값 함수) 1 (0) | 2025.02.03 |