분산(variance)
분산은 평균에 대한 편차 제곱의 평균을 구한 값이다.
분산은 편차 제곱의 평균이라고 적혀있습니다. 여기서 편차란 평균과의 차이인데요. 이 편차는 모두 합하면 0이 됩니다. 따라서 분산을 구하기 위해서는 편차 자체를 그냥 더하지 않고 제곱해서 더하는 과정을 거칩니다. 즉, 데이터가 평균에 가까울수록 편차는 작아지므로 분산은 작아지고, 평균과 멀리 떨어져있을수록 편차는 커지고 분산 또한 증가하게 되는 것입니다.
표준편차(standard deviation)
표준편차는 분산의 양의 제곱근으로 정의 된다.
위에서 분산은 데이터의 퍼짐정도를 나타낸다고 했습니다. 그럼 분산이 있는데 표준편차는 왜 필요할까요? 사실 분산에는 단점이 있습니다. 그것은 바로 편차를 ‘제곱’하면서 값이 크게 증가하는데요. 이렇게구한 분산은 값 자체의 의미를 파악하기 어려운 경향이 있습니다. 예를들어 시험점수 데이터라고 했을 때, 편차가 3이라면 우리는 3점차이 나는구나라고 직관적으로 이해할수있는데요. 이 값을 제곱하면 9가 되는데, 이 숫자가 무엇을 의미하는지 혼란스러울 수 있습니다. 따라서 표준편차는 분산에 루트를 씌우는 것은, 제곱하면서 증가했었던 값을 다시 원래 단위로 맞추는 과정이라고 이해하시면 되겠습니다. 만약 분산이 25라면 표준편차는 5가 되고, 우리는 5가 5점을 의미한다는 것을 알 수 있습니다.