[수학] 직관적 비교에서의 오류 - 심슨의 패러독스

in kr •  7 years ago  (edited)

안녕하세요! ryanhan입니다.
오늘은 통계수치를 직관적으로 비교할 때 생길 수 있는 오류중 하나인
심슨의 패러독스를 소개해보겠습니다.
dagadgq.png

심슨의 패러독스

A학교와 B학교가 있습니다.
남학생들의 수능 평균점수를 비교했을 때, A학교가 B학교보다 10점 높습니다.
여학생들의 수능 평균점수를 비교했을 때, A학교가 B학교보다 10점 높습니다.
두 학교에서 전체학생의 수능 평균점수는 어디가 더 높을까요?
또, 10점 더 높을까요 ?
WWWW.png

남학생과 여학생의 비율

위 문제를 아무 의심없이 보신 분은 전체학생의 평균점수도
A학교가 B학교보다 10점 높을 것이라고 생각하셨을 겁니다.
이것은 남학생 : 여학생 비율이 두 학교에서 같을 때의 계산입니다.

남학생: 여학생 비율이 다를 수 있다는 걸 생각해봤을 때도
언뜻 보면 전체 평균을 봤을 때 여전히 A학교가 B학교보다 높을 것 같습니다.
하지만, 그렇지 않습니다. 남학생 여학생 비율이 극단적이라면
B학교가 A학교보다 평균점수가 높을 수 있습니다.
AADG.png

극단적인 예시

위의 표와 같이 남학생 : 여학생의 비율이
A학교에서는 1 : 1 , B학교에서는 10 : 1 이라고 가정해보면,
남학생의 평균점수는 A학교가 10점 높고
여학생의 평균점수도 A학교가 10점 높지만,
A학교의 전체평균 점수는 65점이고
B학교의 전체평균 점수는 67점으로
B학교의 평균점수가 A학교보다 높아질 수 있는 것입니다.
QWWW.png

고찰

심슨의 패러독스는 요약하자면,
부분끼리의 비교에서는 항상 큰 값을 가져도
전체에서의 비교는 더 작은 값을 갖을 수 있다는 것입니다.
심슨의 패러독스는 언제 발생할까요?
극단적인 비율을 가지고 있을 때 발생할 것입니다.

실생활에서 예를 들면, A지역과 B지역의 땅값을 비교할 때
A지역의 빌라가 B지역의 빌라보다 비싸고
A지역의 아파트가 B지역의 아파트보다 비싸다고 해서
A지역의 땅값을 B지역의 땅값보다 비싸다고 결론 지을 수 없습니다.

이처럼 심슨의 패러독스는 문제로써 접할 때는
'당연히 비율을 고려해야지!'라고 생각을 하더라도
실생활에서는 자연스럽게 잘못된 논리를 펼칠 수 있습니다.
그래서 우리는 항상 통계를 다룰 때 주의하여야 합니다!

오늘은 심슨의 패러독스를 다뤄봤습니다.
재미있으셨나요??
읽어주셔서 감사합니다.
ryanhan이었습니다!

@clarkgold 님의 이벤트에 당첨되어서
1일1포스팅을 또 기분좋게 하게되네요 ㅎㅎㅎ
감사합니다.

Authors get paid when people like you upvote their post.
If you enjoyed what you read here, create your account today and start earning FREE STEEM!
Sort Order:  

스스로 홍보하는 프로젝트에서 나왔습니다.
오늘도 좋은글 잘 읽었습니다.
오늘도 여러분들의 꾸준한 포스팅을 응원합니다.

부분끼리의 비교에서는 항상 큰 값을 가져도
전체에서의 비교는 더 작은 값을 갖을 수 있다는 것입니다.
심슨의 패러독스는 언제 발생할까요?
극단적인 비율을 가지고 있을 때 발생할 것입니다.

앞으로는 무언가를 판단할 떄 라이한님의 글을 보고

다시 한번 생각해서 오류를 예방해 봐야겠습니다 ㅎㅎ

좋은 글 감사합니다!

hanter kim님 안녕하세요!
이 오류는 항상 생각하고 있지않으면
자연스럽게 틀린 결론을 내게 되서
정말 주의해야합니다!!
감사합니다.

역시 통계는 어렵네요ㅠ ㅋㅋㅋ 아무 생각없이 그냥 지나치는 것들이 참 많은 것 같아요. 그런 함정에 속으면 결과적으로 선동당하게 되는 경우도 생길 것 같습니다. 좋은 글 잘봤습니다~~

Coldbeec님 안녕하세요!
맞습니다. 이 경우는 특히 부분을 모아서
전체를 봤을때 결과가 뒤집힐수도 있기때문에 관심을 갖고 봐야합니다!!
찾아주셔서 감사합니다

헐.... 이건 당연히 A 학교가 평균이 높아야 할 것 같은데... 정말 신기하네요. @ryanhan 님의 하시는 일이 궁금한 대목이네요. ㅎ

그쵸ㅎㅎㅎ. . 당연히 A학교가 높을것같다고 저도 생각했습니다. 저는 그냥 대학생이예욤ㅎㅎㅎ.....

10점이 높다만 알려졌을뿐 절대점수가 나오지 않아서 생기는 오류인거 같습니다. ^^ 통계는 정확하지는 않은 수학이나... 그래도 대체적인 경향을 알 수 있다는 점에서 재미난 학문이죠

ㅎㅎㅎ사실 극단적인 절대점수 차이가 있었기에 가능한 예시입니다! 통계가 정확하지 않다는점때문에 많은 머리에서 많은 오류가 생기는것같습니다ㅋㅋㅋ. 그런점들이 재밌어서 한 번 소개해봤습니다. 감사합니다!

아이러니하네요~ 왜그런거지 계속 생각했어요

안녕하세요! 이런결과가나올수있었던 이유는
남학생점수가 여학생점수보다 높고
두 학교에서 남, 여 비율이 극단적으로 차이나기때문입니다!! 실제로 이런경우는 잘 없죠ㅎㅎㅎ

이래서 확률과 통계가 어려운거군요...

ㅋㅋㅋ 확률과 통계과목은 약간 실수하기가 쉬운 것 같아요. ㅎㅎㅎ
이렇게 혼동하기가 쉬우니까요~~~
그래서 더 재미있지 않나요???ㅎㅎㅎ

통계가 일상에서 흔히 접하는 학문이라는 것을 오늘 또 느끼고 갑니다 ㅎㅎ

kimlab님도 연구원 이시니 많이 사용하실 것 같아요 ㅎㅎㅎ
바쁘실텐데 항상 찾아주셔서 감사합니다~~!

맞아요. 비교변수들의 공통기준부터 잘 셋팅을 해놔야 제대로 통계가 돌아가겠죵ㅠ 다만 문제는 실생활에서 같은 비율의 변수들을 찾기란 너무 어려운것..!!! 표본집단부터 추출하고 비교대상들을 선정하는 과정들, 자료찾기가 가장 어렵다고들 하는데 오늘 @ryanhan님의 글을 읽고 생각났어요