모든 통계 책의 공통점을 말하라고 한다면 아마도 모든 책이 평균과 표준편차로 시작한다는 것일 겁니다.
왜 그럴까요? 이런 질문이 어쩌면 낯설지도 모릅니다. 너무 당연해 보이고 심지어 무의식적으로 받아들이던 것들일 지도 모르니까요. 통계를 잘 하려면, 특히 기초수준에서는 이런 당연해 보이는 것들에 대한 질문을 해야합니다. 그게 바로 통계를 잘 이해하는 지름길이지요.
자, 그럼 여기서 문제를 하나 내겠습니다.
여러분의 가까운 친구나 동료를 머릿속에 한 명 떠올려 봅시다. 그리고 그 사람을 설명해봅시다. 아마도 우리는 그 사람을 설명하기 위해 그 사람의 특징적인 부분들을 잘 설명할 단어들을 끄집어 낼 것입니다. 예를 들면 키가 작은/얼굴이 긴/눈이 큰/코가 긴/입술이 두툼한… 이런 것들이겠지요.
그렇다면, 여러분들이 가진 자료(데이터)를 어떻게 생겼는지 설명해야 한다면 어떨까요?
당연한 이야기이지만, 우리는 데이터의 특징을 잘 설명할 수 있는 대표적인 값을 가지고 우리가 가진 데이터를 설명해야 할 것입니다. 여기서 말하는 자료의 대표적 특징을 설명해주는 값이 바로 대표값입니다. 대표값에는 많은 예가 있습니다. 평균, 중간값, 최빈값, 표준편차(분산), 구간, 최소값, 최대값… 바로 여기에 평균과 표준편차가 등장합니다.
그런데, 왜? 저 많은 대표값들 중 평균과 표준편차(분산)만 자꾸 이야기 할까요?
일단 평균과 분산(표준편차)에 대해서 먼저 알아봅시다.
평균은 이렇습니다. 예를 들면 우리가 가진 자료가 {1 2 3 4 5} 이렇게 되어 있다면, 평균 = (1 + 2 + 3 + 4 + 5) ÷ 5 = 3이 됩니다. 그렇다면 평균에는 어떤 의미와 특징이 있을까요?
평균은 자료의 중심값으로서 자료의 특성을 대표하는 값입니다. 특징으로는 1) 수학적 연산이 가능하다. 2) 모든 자료로부터 영향을 받는다. 쉽게말해서 이상한 값의 영향을 심각하게 받는다 (아웃라이어에 취약하다) 3) 분산(표준편차)의 계산 등 통계 분석의 대표적인 값으로 사용된다는 점입니다.
분산은 그럼 무엇일까요?
아마도, 초등학교나 중학교 때 외웠던 공식이 저렇게 생겼을 겁니다. 복잡해 보이고 갑자기 외우려니 잘 생각이 안난다고요? 아마 그럴겁니다. 우리가 학교를 다닐때 우리는 왜 분산이라는 공식이 저렇게 생겼는지 배우기보다는 그저 외워서 문제를 풀기에 바빴으니까요. 일단 앞의 예를 가지고 분산을 계산해 봅시다.
우리가 가진 자료가 {1 2 3 4 5} 이렇게 되어 있다면, 평균은 3이고
그렇다면 분산은 어떤 의미일까요?
분산이란 내가 가진 자료(데이터)가 평균값을 중심으로 퍼져 있는 평균적인 거리를 의미 합니다.
그렇다면 위의 계산식을 다시 한 번 들여다 봅시다.
수식의 분자부분은 각 값에서 평균을 뺀 것입니다. 빼다보니 + 와 - 가 섞여 나오죠? 이것을 그냥 더하면 값이 뭉개질 것입니다. 이 문제를 해결하기 위해 제곱을 하여 강제로 모든 값을 플러스로 만들어 줍니다. 그러나, 수식의 분모부분은 다소 어렵습니다. n(자료의 개수)가 아닌 n-1(자료의 개수 -1)로 나눕니다. 이유는 이미 분자에서 평균값으로 한번씩 다 빼 주었기 때문입니다. 따라서 분자에서 사용된 자료의 개수는 n-1개라고 이해하면 됩니다.
왜냐하면 앞의 계산에서 보았듯이, 분자부분은 자료의 값이 평균값으로부터 얼마나 먼 거리에 있는지의 합입니다. 이 거리의 합을 자료의 개수로 나누었으니, 분산이 의미하는 것은 자료의 값들이 평균값으로부터 평균적으로 얼마나 멀어져 있는가 입니다. 여기서 앞의 계산의 분자부분은 제곱합이라고 표현하고, 분모부분은 자유도라고 표현합니다. 제곱합은 이해가 되는데, 자유도는 어렵지요? 다음에 기회가 있을 겁니다.
그럼 정리해 봅시다!!!
분산이란 내가 가진 자료(데이터)가 평균값을 중심으로 퍼져 있는 평균적인 거리이고,
이 됩니다.