-
02. 모집단과 표본통계학/기초통계 2019. 7. 28. 21:40
앞서 통계학의 개념과 용어를 간단히 정리하였다.
이번에는 조금 다른 예시로 통계학의 개념을 살펴보려한다.
예를들어 서울시민의 키는 어떤 특징을 가지는지 조사를 한다고 하자.
모든 서울시민의 키를 모두 조사하는 것은 시간과 비용이 많이 소요 되기 때문에
서울시민 중 몇 명만 추출하여 조사를 할 수 밖에 없다.
( 모든 서울시민을 조사 = 전수조사 / 서울시민 중 몇 명만 조사 = 표본조사 )
혹자는 궁금해할 것이다. 시간과 비용을 감당할 수 있다면 모든 서울시민의 키를 조사할 수 있을까?
답은 '불가능'이다
서울시민의 키를 조사하는 그 순간에도 서울시민은 늘었다 줄었다를 반복할 것이다.
한 순간에 서울시민의 키를 전부 동시에 알아낼 수 있다면 가능하겠지만 현실에서는 그럴 수 없다.
이제 서울시민의 키를 조사하기 위해서 표본조사를 할 수 밖에 없다는 것은 알게되었다.
그러면 서울시민 중 일부를 뽑아서 조사하는 표본조사 한다고 생각해보자.
만약 조사자가 근처 중학교에 가서 300명의 키를 조사해왔다면, 이를 서울시민의 키라고 할 수 있을까?
아무도 그렇게 생각하지 않을 것이다. 중학생은 성장 중이기 때문에 대부분이 성인인 서울시민의 키라고 할 수 없다.
위의 예시는 표본을 아무렇게나 뽑을 수 없음을 보인 것이다.
정리하자면 우리는 모든 서울시민의 키를 조사하기 위해서 표본조사를 할 수 밖에 없는데,
이 표본도 서울시민을 대표할 수 있도록 뽑아야 한다는 것이다.
여기서 우리는 두 개념을 정리하고 넘어가야 한다.
모집단(population) : 확률변수 X가 취할 수 있는 모든 값 혹은 대상으로 삼는 대상의 특성 '전체'
표본집단(sample) : 모집단의 부분집합
(모집단은 모든 서울시민의 키이고 표본집단은 일부 서울시민의 키 일 것이다.)
여기서 중요한 것은
모집단은 모집단의 키를 '예상'할 순 있지만 정확하게 '알 수는 없다'는 것이다.
앞서 공부한 '확률변수'와 같은 맥락을 가진다고 할 수있다.
표본집단은 일부 서울시민의 키를 조사한 '결과'이다. 모집단과 달리 수치화된 데이터가 있다.
우리는 서울시민의 키의 특징을 알고 싶어했다.
통계학에서 수치를 표현하는 특징은 주로 '평균'과 '분산'이다.
모집단의 평균은 모집단을 대표하는 숫자라고 할 수 있다. 나중에 자세히 이야기 하겠지만
평균은 값들의 무게중심으로 정의한다.
모집단의 분산은 모집단 내의 숫자들이 얼마나 넓게 퍼져있는지를 나타낸다.
앞에서본 불확실성과 연관이 있다.
모집단은 조사가 불가능하다.
따라서 모집단의 평균과 분산을 알기 위해서 표본집단의 평균과 분산을 이용하는 것이다.
이번 글에서는 모집단과 표본을 공부해보았다.
다음 글에서는 평균과 분산에 대해서 자세히 알아보겠다.
'통계학 > 기초통계' 카테고리의 다른 글
01. 통계학이란 무엇인가 (0) 2019.07.28 댓글