1-2 통계 책 첫 페이지부터 평균과 표준편차가 나오는 이유(왜 그럴까 ?)
많은 통계책의 첫 페이지는 항상 평균과 표준편차로 시작하는데, 왜그럴까 ?
세상엔 당연한 것이 없는데 여기에도 중요한 이유가 있다.
통계의 본질은 "분산의 마법" 이다
누군가에게 내 친구를 설명해야 할때, 내친구를 설명하기 위해 필요한 단어들을 나열해보자
- 키가 큰/작은
- 얼굴이 긴/동그란
- 코가 큰/작은
- 입술이 얇은/두꺼운
등등
자연스럽게 그 사람의 대표적인 특징을 설명하는데 어려움을 크게 느끼지 않는다.
그렇다면, 내가 가진 데이터를 설명해보라면 어떻게 할까.
내가 가진 데이터의 모습 중 대표적인 특징을 잡아서 설명을 해야 할 것이다.(중요한 단어로, 대표적인 단어로)
여기서의 '대표적인 특징'이라는게 자료의 대표값이라는 개념이다. 내 친구를 설명하듯
- 대표값 : 평균, 중앙값, 최빈값, 표준편차(분산), 구간, 최소값, 최대값 ....
여기서 평균과 표준편차(분산)이 등장한다.
그런데, 왜 다른 대표값들보다 평균과 표준편차를 더 많이 중요하게 여길까 ?
평균(Mean) = 전체의 합(sum) / 자료의 개수(n)
* 평균의 의미와 특징
- 평균의 의미 : 자료의 중심값으로서 자료의 특성을 대표하는 값
- 수학적 연산이 가능하다. 심지어 쉽다
- 모든 자료로부터 영향을 받는다. 다른 뜻으로 이상한 값의 영향을 심각하게 받는다(아웃라이어에 취약하다.)
- 분산(표준편차)의 계산 등 통계분석의 대표적인 값으로 사용된다.
* 분산
n = 자료의 수
Xi = 개별 자료
-
X = 평균
분산이란 내가 가진 데이터가 평균값을 중심으로 퍼져있는 평균적인 거리
각 데이터의 값에서 평균값을 빼다보니, +와 -가 섞여 나오는데, 이값을 그냥 더하면 값이 뭉개진다.
이 문제를 해결하기 위해 제곱을하여 강제로 모든 값을 플러스로 만들어준다.
분모에서 n-1로 나눠주는 이유는 분자에서 평균값으로 한번씩 다 빼 주었기 때문에 사용된 자료의 개수의 -1개라고 이해하면 좋다.
* 분산의 의미
- 분산이란 내가 가진 데이터가 평균값을 중심으로 퍼져있는 평균적인 거리
분자는 자료의 값이 평균값으로부터 얼마나 먼 거리에 있는지의 합이고, 이 거리의 합을 자료의 개수로 나누었으니,
분산이 의미하는 것은 자료의 값들이 평균값으로부터 평균적으로 얼마나 멀어져 있는가 이다.
- 분자부분은 제곱합 이라고 표현하고, 분모부분은 자유도라고 표현한다.
이 값은 제곱으로 만들어졌으니, 루트를 씌워 다시 보정하면 표준편차(Standard deviation)가 된다.
표준편차역시 같은 의미.
그렇다면 왜 평균과 분산(표준편차)인가?
중심값의 개념은 평균 말고도 중간값이나 최빈값 등 다른 후보도 있다
퍼져 있는 정도를 의미하는 대표값으로 분산 외에도 구간이나 최소값, 최대값등도 있는데, 왜 주로 평균과 분산이 나올까
- 계산이 쉽다. 데이터가 많아지면 중간값이나 최빈값은 계산이 아닌 찾기가 된다.
- 데이터의 불규칙성이 정규분포를 따르고 있으면 최소제곱법이 가장 좋은 추정 방법이고, 그 결과 평균값이 가장 좋은 추정값이 됨(가우스)
- 데이터의 불규칙성이 어떠하든 [평균값+-2xSD]범위 안에는 반드시 전체의 4분의3 이상의 데이터가 존재하는것이 증명됨(체비체프)
즉 평균과 분산(표준편차) 만으로도, 상당히 훌륭히 어떠한 데이터든 설명이 가능하다는 의미
결론적으로 평균과 분산(표준편차)이 계산이 가장 용이하고 통계를 통해 참값을 추정하기에 가장 효율적임
다시한번, "통계란 분산의 마법"
출처
https://www.youtube.com/watch?v=7p4tjnQso48&list=PLalb9l0_6WAq-ZNVWOhRdax1nroxFovUb&index=2