비율을 비교해 보자 - SixSigma Chapter8

in sixsigma •  7 years ago 

(source : http://myventurepad.com/10-objectives-six-sigma-green-belt-training-certification/)



Previously


["DMAIC란?"]
["오른발이 더 큰가요?"]

지난 시간에는 DMAIC의 전체적인 절차에 대해서 보았고, 그 저번 시간에는 서로 관계가 있는 것의 평균을 비교하기 위한 paired t-test에 대해서 살펴 보았습니다.

이번 시간에는 일반적인 평균검정이 아닌 비율에 대한 검정 이야기를 하려고 합니다. 요즘 비율에 민감해지는 시기가 되기도 했구요..



비율 이야기...


평균 만큼 많이 쓰는 것이 비율입니다. 사실 비율도 약간은 다른 데이터 타입에 대한 평균이라고 할수 있죠. 예를 들어 10개의 제품 중에 불량품이 4개가 있을때,

불량품이 4개에요..

라고 이야기 할수도 있지만,

불량률이 40%에요 라고 이야기 하는 것이 좀 더 와 닿습니다.

자 그렇다면...여기에는 함정?이 없을까요? 물론 있습니다. 2가지 함정에 대해서 조금 더 자세히 보겠습니다.
일단 오늘은 한가지 관심있는 값에 대해서 비율을 비교하는 것에 대해서 이야기 하겠습니다.

통계 tool에서는 1 proportion test라고 이야기 하고 있습니다.



예제로 보는 1 proportion


다음과 같은 예제를 보겠습니다.

모두 11개의 데이터가 있습니다. 편의상 "1"을 정상, "3"을 비정상이라고 하겠습니다. 여기서 궁금한 것은 비정상의 비율입니다. 그 비율은..?

4/11* 100 = 약 36% 입니다.

그럼 이번에 이 데이터를 4배로 늘리면 어떻게 될까요?? 즉 11개의 데이터 셋이 4개가 있는, 총 44개가 있는 경우 입니다. 그럼 당연히..

16/44 * 100 = 약 36% 입니다.

오..둘이 똑같네요?



똑같지 않다...


를 통계적으로 보여 드리려고 합니다. 샘플이 11개일때와 44개일때, 대표값은 36%로 동일합니다. 그런데 그 값의 정확도는 어떨까요?

많이 들어보신 표본 오차와도 그 맥락을 같이 합니다.

첫번째는 11개일때, 두번쨰는 44개일때 입니다.

모두 36%이지만, 첫번째는 그 범위가 10~69%. 두번째는 그 범위가 22%~52%입니다.
즉 불량률이라고 한다면, 다시말해서 3이 나올 가능성이 모두 다 같은 36%가 아니라, 최악의 경우 첫번째는 69%, 두번째는 52%가 됩니다.

여기서 얻을수 있는 힌트는 샘플의 수를 늘리면 더 정확해 질 거라는 것입니다. 그렇다고 무한정 늘릴 필요는 없겠지요?

나중에 이를 응용하면 원하는 오차 범위를 얻이 위한 샘플의 수도 계산할수가 있게 됩니다.



또 다른 함정


비율이 아주 좋은 대표값 임에는 분명하지만, 원본 데이터를 흐리는 성격이 있습니다. 그래서 아주 안좋게 악용되기도 하지만, 우리는그 본질을 볼 필요가 있습니다.

예를 들어, 취업율이 감소했다는 기사가 있다고 가정하겠습니다.

취업율이 2015년 대비 10% 하락했음. 우와...이 기사만 보면 정말 큰일 났습니다.

실제 예를 들어 보겠습니다.
2015년에는 10만명중에 9만명이 취업을 했습니다. 그럼 취업률은 90%죠.
2018년에는 30만명중에 24만명이 취업을 했습니다. 그럼 취업률은 80%죠.

따라서 2015년 대비 10% 포인트가 떨어졌다고 이야기할수 있습니다. 그런데..막상 큰일이 난 것도 맞습니다만..
반대로 보면 2015년 9만명 밖에 취업을 못했는데, 2018년에는 24만명이 취업을 해서, 절대 숫자로는 15만명이 더취업을 한 것입니다. 그럼에도 취업률이 떨어진 것은 모수가 증가했기 때문이죠.

그런데, 단순히 취업률만 보고 무언가 판단한다면, 안 좋은 혹은 잘못된 일들이 벌어지기 시작합니다.

그래서 꼭 꼭 비율에 대해서는 그 비교의 모수와 원본 데이터를 볼 필요가 있습니다.

왜냐하면 반대의 일도 벌어질수 있죠.

2018년에는 취업률 100%달성..우와~~

그런데 실상은

5만명중에 5만명 취업. 모수 자체를 취업이 된 사람만 잡은 것이죠. 샘플링에서 조작?의 묘를 보인 것입니다.

이 경우에도 원본 데이터를 보아야 제대로 된 것인지 판단할 수 있습니다.

반대로, 의사결정 또는 데이터를 분석하는 입장에서는 꼭 모수와 원본을 어떻게 샘플링 했는지를 보아야 합니다.



마치며


위에서 보신 것 처럼, 실제 조사의 결과 비율값 보다는 오차의 범위가 더 중요하다는 것을 보았습니다. 또한 비율 데이터의 왜곡이 쉬우니, 원본 데이터를 잘 관찰할 필요가 있다는 말씀도 드렸습니다.

다음 시간에는 2 집단의 비율 검정에 대해서 보도록 하겠습니다.

Authors get paid when people like you upvote their post.
If you enjoyed what you read here, create your account today and start earning FREE STEEM!