어느 반의 성적이 더 좋은가요?-SixSigma Chapter2

in sixsigma •  7 years ago 


(source : http://myventurepad.com/10-objectives-six-sigma-green-belt-training-certification/)



Prologue

이전 시간에는 ["숫자를 맞추어 보세요"]라는 식스 시그마의 효율적인 측면에 대해서 이야기를 했었습니다.

오늘은, 효율이 아니라 공정성? 혹은 공평성에 대한 이야기를 해보고자 합니다.

우리가 정말 일상 생활에서 너무나 흔하게 범하고 있는 오류가 여기에 포함되고, 그냥 그렇게 살아가고 있지만, 다행스럽게도 식스시그마에서는 이에 대한 것을 아주 자세히, 그리고 정교하게 다루고 있습니다.



두 반의 평균 비교


자 이렇게 A, B반이 있습니다. 요즘도 하는지 모르겠지만, 제가 고등학교에 다닐때에는 반 전체 평균이 그 학년에서 1등이면 아이스크림을, 반대로 꼴등이면 매를 선사하는 그런 일들이 종종 있었습니다.

매는 지금 정서에 맞지 않으니, 오직 A, B 2개의 반만 있다고 가정하고, 1등한 반에는 아이스크림을 사주는 내기를 했다고 가정하겠습니다.

그리고 누가 더 잘했는지는 점수의 평균으로 비교하는 것으로요...

그래서 평균을 내어 보았습니다.

A반은 평균 68, B반은 평균 68.1 그래서 B반이 더 잘했고, 그래서 B반의 아이들이 아이스크림을 먹었습니다.



Graph 비교

그래프를 음미해 보면, A반은 성적이 양극화 되어 있고, B반은 평균에 잘 몰려 있는 것이 보입니다. 또한 B반은 8번 학생을 제외하면 전반적으로 평균 성적이 매우 유사 합니다.

반면에 A반은 고득점자도 많지만, 저득점자도 많습니다.

만약에 정규분포 곡선을 두 반에 대해서 그려본다면 극명하게 갈리는 그래프가 나올것입니다. 다만 여기에서1 , 2, 3과 같은 학생의 번호는 임의로 할당한 것이니 번호간의 비교는 큰 의미가 없겠습니다.



공평한가?


다시 이 글 처음에 이야기 했던 문제로 돌아가 보겠습니다. B반이 이겨서 아이스크림을 먹었는데요?
과연 공평할까요?

다시 말해서 "A반과 B반의 평균으로 우열을 가리는 것이 적절한가?"라는 질문으로 귀결될 것 같습니다.

예를 들어 경기의 규칙을 1~5번 학생의 평균으로 하자 또는 6~10번 학생의 평균으로 하자 또는 임으로 5명만 뽑아서 하자와 같이 규칙을 조금만 바꾸어도 결과가 뒤집에 지게 되고,

더욱이 A반에 있는 고득점 학생들은 이 결과가 매우 불공평하다고 느낄수도 있습니다.



왜 이런 문제가?


애초에 서로 다른 분포를 가지는 집단을 평균으로 비교하려고 했기 때문입니다. 우리가 흔하게 범하는 실수 중에 하나가, 특정 집단을 대표하는 대표값으로 평균이 제일 좋거나 혹은 평균만 있다고 생각하는 것입니다. 사실 대표값에는 평균, 최빈값, Median등 다양한 지표가 있고, 이들 이외에도 임으로 지표를 만들어서 쓸수도 있습니다.

그리고 만약 꼭 평균을 써야 한다면, 평균이 사용가능한 조건으로 미리 데이터에 대해서 전처리를 해주어야 합니다. 여기에선 적절한 transform을 통해서 좌우대칭 종모양의 정규분포로 만드는 작업이 필요합니다. 물론 분산에 대한 확인도 필요하구요..

정리하면 마구잡이로 평균을 적용한데에서 문제가 기인한 것입니다.



그렇다면 우리 사회에선..


끔찍할정도 많은 상황에서 이런 오류가 벌어집니다.

예를 들어,

  1. 두 회사의 인터넷 전송 속도의 평균비교
  2. 두 회사 카메라의 화질 점수 비교
  3. 지역별 집값 상승 금액의 비교
  4. 통신사간 통신비의 비교
  5. 개선 전/후의 성능 비교
  6. 시약 처리 전/후의 개선정도 비교
  7. 알고리즘 적용 전/후의 속도 비교
  8. 알고리즘 적용 전/후의 인식 개수 비교



또 다른 관점


문제를 살짝 바꾸어 보겠습니다.

A반, B반은 A사, B사로..그리고 학생번호는 각 동의 번호로...그리고 1,2,3,4,5는 금천구에 속한 동이고, 6,7,8,9,10은 강남구에 속한 동이라고 해보겠습니다. 그리고 각 칸에 쓰여 있는 숫자는 인터넷 속도라고 해보면..

B사의 인터넷 속도가 좋다는 것에 동의가 되시는지요? 그보다는 구별도 인터넷 제공 회사별로 속도의 차이가 있다 또는 금천구는 A사가, 강남구는 B사가 빠름. 이렇게 분석하는 것이 더 적절해 보입니다.

이에 따라서 문제의 인식도 바뀌게 됩니다. 옳지 않은 비교로 평균만 보았다면 A사의 인터넷 속도 개선이라는 문제점을 도출할수 있겠지만, 잘 구분해서 비교했다면 A, B사의 지역별 차이 개선 이렇게 할수 있었을 것입니다.

여기에서 중요한 것이 꼭 개별의 데이터를 그래프 분석을 통해서 보아야 한다는 것입니다.

더욱이 두 회사간에는 단순히 아이스크림을 먹고 안먹고의 문제가 아니라 사활이 걸린 문제일 수도 있습니다.



Eplilogue


오늘은 무엇을 비교하기 위한 기준이 제대로 되어야 공정 혹은 공평하다는 이야기를 해보았습니다. 사실 식스 시그마가 아니었다면 혹은 통계적으로 박식하지 않다면, 두 반의 평균만 보고 그냥 넘어갈 일일지도 모르겠습니다.

  1. 두 집단의 비교시 평균이 항상 대표값은 아니다.
  2. 적절한 대표값을 찾아야 비교가 된다.
  3. 그래프를 그려서, 측정한 데이터에 대해서 음미해 보아야 한다.
  4. 평균은 좌우대칭 종모양일때 의미가 있을수도 있다.

뒤에 연재되는 글에서는 이를 Measure단계에서 더 자세히 다루어 보도록 하겠습니다.

통계적인 tool에 대한 이야기보다는 실제 상황에서 벌어지는 예를 들어 말씀드리고자 했고, 비유가 적절치 않거나 혹혹은 궁금하신 부분들은 댓글을 달아주시면 많은 도움이 될 것 같습니다.

감사합니다.

Authors get paid when people like you upvote their post.
If you enjoyed what you read here, create your account today and start earning FREE STEEM!
Sort Order:  

왠지 Kullback–Leibler divergence 같은 것이 등장할지도 모른다는 생각을 해봅니다. 아니면 non-parametric 한 방법을 생각해볼 수도 있을 것 같고요. 6 -sigma 까지 보기 위해서는, 과연 어떠한 관점이 좋을지 고민해보게 되는 글입니다.

@홍보해

헛..비모수통계까지..@qrwerq 님의 박학다식함에 놀라울 따름입니다.

"홍보해"의 효과가 정말 놀랍습니다! 감사합니다.

와 뭔가 배움이 있는 글이네요. 좋은 글 감사합니다. 질문이 있는데, 에필로그에 있는 2번 항목요...

예제로 든 데이타에서 적절한 대표값을 찾는다는 부분은 본문을 봤을 때 평가 항목과 대표값 선정 기준에 따라 그 값들을 달리 할 수 있는건가요?

감사합니다.
질문하신 것에 대한 답은.."네 맞습니다." 예를 들어 최상위 학생들의 성적을 기준으로 비교한다면 상위 n%의 평균을 취할수도 있고, 혹은 점수간의 편차 자체를 대표값으로 선정할수도 있습니다.

저희가, 그리고 설명을 듣는 분들이 평균에 익숙해서 많이 사용하고 있지만, 어떻게 평가하는 것이 적절하냐에 따라서 충분히 바뀔수 있는 부분입니다. (그렇다고 데이터를 조작하는 건 아니구요.)

@jeaimetu님 안녕하세요. 하니 입니다. @qrwerq님이 이 글을 너무 좋아하셔서, 저에게 홍보를 부탁 하셨습니다. 이 글은 @krguidedog에 의하여 리스팀 되었으며, 가이드독 서포터들로부터 보팅을 받으셨습니다. 축하드립니다!

@krguidedog님께서 이 포스팅에 많은 관심을 가지고 있어요. 리스팀을 해주셨군요~!