(source : http://myventurepad.com/10-objectives-six-sigma-green-belt-training-certification/)
Previously
와우..무려 22일만에 쓰는 글입니다. 사실 처음에는 매일마다 써서 100일이 되는 날 책을 낼려고 했던 것인데요...역시 쉽지만은 않은 일인 것 같습니다.
"1화 : 숫자를 맞추어 보세요"
"2화 : 어느 반의 성적이 더 좋은가요?"
"3화 : 교회가 많으면 범죄가 늘어난다?"
"4화 : 내가 개선한 성능은?"
"5화 : 전보다 좋아졌나요?"
처음에 간단한 실험계획의 원리로 시작해서, 5화에서는 2개의 집단을 비교하는 2 sample t-test에 대해서 알아보았습니다.
오늘은 이와 유사하지만, 주의해서 사용해야 하는 paired t-test에 대해서 알아보겠습니다.
오른발이 더 큰가요?
만약 이게 사실이라면, 우리는 왼쪽은 275, 오른쪽은 280이나 285를 신어야 할지도 모르겠습니다. 정말 그런지 한번 볼까요?
데이터는 예제 데이터 입니다. 정말 그런일이 벌어지는지는 좀 더 정확한 측정을 해야 겠지만요..
10명의 사람들의 왼발과 오른발의 크기를 측정한 데이터 입니다.
대충 눈의로 보기에 오른발이 더 커 보입니다. 정말 그런지..통계적으로 분석을 해 볼까요?
2 sample t-test
역시나..신발의 크기가 다른 일은 발생하지 않았습니다. P값이 0.05보다 크니 귀무가설을 채택하면, 왼발과 오른발의 크기가 같다라고 통계적으로 말할수 있는 상황이 되겠습니다.
그런데 좀 이상하지 않나요? 분명 표를 눈으로 보기에는 오른발이 더 큰데 말이죠..
잘 생각해 보자
잘 생각해 보면, 무언가 오류가 있습니다.
왼발과 오른발의 크기를 비교하는 것에는 사람이라는 변수가 있습니다. 즉 왼발과 오른발은 조금 더 정확히 쓰면, 사람 A의 왼발과 사람 A의 오른발입니다.
여기에 2 sample t-test를 쓰는 것은.....조금 무서운 상황입니다. 누구의 발인지는 궁금하지 않고, 오른발 10개와 왼발 10개를 비교한 것이 됩니다. 그것도 발을 섞어서 말이죠....
왜냐하면 2 sample t-test는 두개의 집단을 비교하는 것이기 때문에 그렇습니다.
이와 같이 비교하는 2개의 값이 서로 연관되는 경우에는 2 sample t-test가 paired t-test를 써야 합니다. 즉 왼발과 오른발을 10명의 사람에 대해서 각각 비교하는 것이지요. 이렇게 해야 이치에 맞습니다.
paired t-test
한국말로는 쌍체검정이라고 번역되는 paired t-test입니다. 즉 하나의 쌍으로 된 서로 다른 군집을 비교하는 것이고, t검정 통계량을 이용하기 때문에 t-test입니다.
결과를 보면 아까와는 달리 왼발과 오른발의 크기가 다르다고, 그리고 오른발이 더 크다라고 판단을 내리고 있습니다.
같은 데이터 이지만, 데이터의 성격에 따라서 사용해야 하는 test가 달라지고, 이에 따라서 결과의 해석도 달라지게 됩니다.
쉬운 다른 예를 들면 신발의 마모도가 그 예중의 하나입니다. 사람별로 마모도가 다르기때문에 이를 단순히 비교하면 원하지 않는 결과가 나올수 있고, 이 경우에도 paired t-test를 써야 합니다.
마치며
오늘은 paired t-test라는 재미있는 검정 방법에 대해서 알아보았습니다. 즉 전,후의 데이터가 다른 무언가에 의해서 서로 연관되는 경우에 사용하는 방법입니다. 하지만 이를 잘 인지하지 않으면 전혀 다른 혹은 원하지 않는 결과가 나올수 있으니 주의해서 사용해야 합니다.
데이터가 잘 취득되었다고 가정을 하면, 결국 우리는 왼발과 오른발, 서로 다른 크기의 신발을 신어야 하는 상황이 발생을 한 것입니다. T.T
여기서 볼 수 있는 또 하나의 중요한 것은 데이터의 수집니다. 결국 통계분석은 데이터에 기반하니, 아무리 통계분석을 잘하는 사람이어도, 데이터가 잘못되면 제대로 해석할 방법이 없습니다.
- 본문의 결과는 모두 미니탭에서 얻어진 것이고, 혹시라도 이 결과를 얻는 미니탭의 사용법이 궁금하신 분이 계시면 다음 화부터는 같이 올릴수 있도록 고려해 보겠습니다.