Study Normality Test Theory
1. 정규성 검정이란?
정규성 검정이란 데이터 셋의 분포가 정규분포를 따르는지 검정하는 것입니다.
다른 통계 검정에서 가정으로 사용되기 때문에 중요하다고 할 수 있습니다.
정규성 검정 종류에는 Shapiro-Wilk Test, Kolomogorov-Smirnov Test, Q-Q Plot이 있습니다.
2. 정규성 검정의 종류
1) Shapiro-Wilk Test
Shapiro-Wilk Test는 정규성 검정 중 하나로, 특정 데이터 집합이 정규분포를 따르는지 검정하는 방법입니다.
크기가 작은 경우에도 정확한 검정 결과를 제공하며 샘플 데이터를 표준화한 후 표준화된 데이터가 정규분포에서 어느 정도 위치를 차지하는지 검정합니다.
검정 결과는 샘플이 정규분포를 따르는 정도를 나타내는 p-value를 계산하여 제공합니다.
이 검정의 귀무가설은 “데이터가 정규분포를 따른다”입니다. 만약 검정 결과 p-value가 유의수준보다 작다면 귀무가설을 기각하고 대립가설을 채택합니다. 이 경우 정규분포를 따르지 않는다는 결론을 내릴 수 있습니다.
Shapiro-Wilk Test는 다른 정규성 검정 방법에 비해 정확하고 신뢰도 높은 검정 방법이나 샘플 데이터가 크거나 특정한 분포를 따르는 경우엔 다른 검정 방법을 고려해보는 것도 좋습니다.
2) Kolomogorov-Smirnov Test
Kolomogorov-Smirnov Test는 두 분포가 같은 분포인지 검정하는 비모수 검정 방법 중 하나입니다. 이 검정은 샘플 데이터로부터 누적 분포 함수를 추출한 후 두 분포의 차이를 검정합니다.
누적 분포 함수의 최대값으로 나타내는 D 값을 계산하여 검정을 수행합니다. 이 때 D 값은 두 분포의 차이를 나타내며 값이 작을 수록 두 분포가 유사하다는 것을 나타냅니다. 이렇게 계산한 D 값은 검정 통계량으로 사용합니다.
귀무가설은 “두 분포가 같은 분포이다”입니다. 만약 검정 결과 p-value가 유의수준보다 작다면 귀무가설을 기각하고 대립가설을 채택합니다. 이 경우 해당 두 분포가 서로 다른 분포를 따른다는 결론을 내릴 수 있습니다.
Kolomogorov-Smirnov Test는 다른 비모수적 검정에 비해 더욱 강력한 검정력을 가집니다. 샘플 크기가 작은 경우에도 적용할 수 있습니다.
하지만 두 분포가 연속형 확률에서 추출된 것으로 가정하는 등 제한이 있습니다.
3) Q-Q plot
Q-Q plot은 정규분포 등의 이론적인 분포와 주어진 데이터의 분포를 비교하는 시각적인 도구입니다. Q-Q plot은 Quantile-Quantile plot의 약어로 분위수를 사용하여 데이터 분포의 형태를 확인할 수 있습니다.
Q-Q plot은 먼저 정규분포와 같은 이론적인 분포를 따르는 샘플 데이터를 생성한 후, 이론적인 분포와 주어진 데이터를 비교합니다. 이 때 두 분포의 분위수를 기준으로 하여 그래프를 그립니다. 그래프는 x축과 y축으로 주어진 데이터의 분위수 값을 나타내며, 이론적인 분포와 주어진 데이터의 분위수가 얼마나 일치하는지 확인할 수 있습니다.
주어진 데이터가 정규분포를 따르면 Q-Q plot에선 데이터가 직선 형태로 나타납니다. 이는 이론적인 분포와 주어진 데이터의 분위수가 거의 일치하기 때문입니다. 반면 정규분포를 따르지 않으면 그래프는 곡선 형태를 띄게 됩니다. 이러한 곡선 형태는 데이터 분포의 비대칭성과 같은 특징을 보여줍니다.
Q-Q plot은 정규성 검정을 수행하기 위한 방법 중 하나로 많이 사용합니다. 정규분포를 따르는지 확인할 수 있으며 이론적인 분포와 비교하여 데이터 분포의 특징을 확인할 수 있습니다.
3. 각 검정 방법 비교
- Shapiro-Wilk Test
작은 샘플 크기의 데이터 분포가 정규분포를 따르는지 여부를 검정하는데 사용됩니다. 정확도가 높으며 다른 분포와 비교하여 정규성 검정 성능이 가장 우수합니다. - Kolmogorov-Smirnov Test
대부분의 분포에 적용이 가능하며, 큰 샘플 크기의 데이터 분포를 검정하는 데 사용됩니다. 간단한 방법으로 정규성 검정 외에도 다른 분포와 비교하여 분포의 유사성을 검정하는 데에도 사용됩니다. - Q-Q plot
작은 샘플 크기부터 대규모 샘플까지 어떤 분포든 검정이 가능합니다. 이 방법은 분포의 대칭과 비대칭성, 극단값 등을 시각적으로 확인하는 데 사용됩니다. 또한 데이터의 분포를 이론적인 분포와 비교하여 검정하는 데 사용됩니다.
이 글은 공부하기 위해 적어놓은 이론입니다.
댓글남기기