[회귀모형] 21. (상수항을 포함한) 사영 행렬

2025. 4. 10. 18:33회귀분석

■ 왜 또 사영행렬이냐?

=> 사영행렬의 일부분인 "지레값(Leverage Value)"은 데이터 중에서 이상치(outlier)를 판단하는 데 사용됨.

 

=> 회귀모형의 가정 4가지 중 3가지는 오차항에 대한 것임. (우리가 손에 들고 있는 데이터에선 '잔차'에 해당함)

사영행렬을 사용하면 잔차를 깔끔하게 표현해낼 수 있음. 


■ 사영행렬 개념 돌아보기


■ 단순선형회귀에서 사영행렬 직접 행렬 계산해보기


■ 지레값(Leverage Value)

사영행렬은 '서로 다른 두 데이터 포인트를 다루는 경우', '한 데이터 포인트를 다루는 경우'로 나눌 수 있음.

이때 후자인 요소들을 '지레값'이라고 함. 

 

지레값은 분모가 모든 데이터 포인트들이 각각 중심으로부터 떨어진 거리 제곱을 합해놓은 것으로,

분자에 올라가는 해당 데이터가 중심으로 떨어진 거리 제곱의 '비중'을 알 수 있게 해줌.