ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 01. 통계학이란 무엇인가
    통계학/기초통계 2019. 7. 28. 18:08

    우리는 통계학을 배우기 위해 통계학이 무엇인지 정확하게 알아야만 한다.

    많은 사람들이 통계학을 떠올리면 평균, 분포, 예측과 같은 단어들을 연상시킬 것이다.

    하지만 이것은 통계학의 일부분일뿐 통계학의 자체를 정의하지 못한다.

     

    통계학이란 무엇일까?

    -> 통계학은 불확실성을 다루는 학문이다.

     

    위의 이야기를 자세하게 하기 앞서서 통계학의 기초 용어들을 살펴보자.

     

    예를들어, 동전 던지기를 4번한다고 가정하자.

    ( 이렇게 결과를 예상 할 순 있지만, 직접 실행하기 전까지는 결과를 정확히 알 수 없는 행위를 '임의실험'이라 한다. ) 

     

    임의실험을 실시하면 (동전을 4번 던지면), 무엇이 되었든 결과가 나올 것이다.

     

    그렇게 나올 수 있는 모든 결과의 경우의 수를 우리는 '표본공간'이라고 한다.

    ( TTTT, TTTH, TTHH, THHH, ... , HHHH ( H:앞면, T: 뒷면 ) )

    따라서 어떤 실험을 하는 가에 따라서 표본공간도 달라진다.

     

    만약에 동전 던지기를 할때 어떤 결과가 나올지 돈을 건다고 해보자.

    내가 앞면이 나온다는 것에 100원을 건다면, 

    앞면이 나온다면 100원을 얻고, 뒷면이 나온다면 100원을 잃을 것이다.

     

    게임에서 벌 수있는 돈을 X라고 한다면, 이것이 100이 될지 -100이 될지는 알 수 없다. 

     

    이때 X를 '확률변수'라 한다. ( 즉, 확률변수란 그 값이 우연히 결정되는 변수를 의미한다. )

     

    확률변수는 표본공간안에 있는 결과와 달리 숫자로 표시되며,

    표본공간안의 실험결과에 특정한 숫자를 부여하며 정의된 변수이다.

    ( 확률변수 X는 T에 -100을 ,H에 100을 부여하며 정의된 변수이다. )

     

    자, 이제 실제 동전던지기 게임을 해보자.

     

    우리는 '공정한' 동전던지기를 하기 위해 조건을 제시해야한다.

    '동전은 평평해야한다.'

     

    만약 동전이 조금 휘어있어서 특정한 결과가 더 자주 나온다면 

    우리는 이것을 공평하다고 하지 못할 것이다. 그래서 이런 조건을 제시해야만 한다.

     

    자 그러면 앞면에 100원을 걸고 동전을 던져보자.

     

    A. 10번 동전 던지기 -> 앞면 3번, 뒷면 7번

    B. 100번 동전 던지기 -> 앞면 30번, 뒷면 70번

    C. 1000번 동전 던지기 -> 앞면 300번, 뒷면 700번

     

    위와 같은 결과가 나왔다고 하자.

     

    우리는 결과를 받아들일 수 있을까?

     

    A를 생각해보자. 우리는 동전을 10번 던져서 뒷면이 7번이 나온다면 어떻게 생각할까?

    '와! 10번 중에 7번이 뒷면이라니, 운이 정말 나쁘네'

     

    다음은 B를 생각해보자 

    '100번 중에 70번이 뒷면이라고? 이게 말이돼?'

     

    C의 경우라면 어떨까

    '이건 사기야! 1000번 중에 700번이 뒷면이 나올리 없어'

     

    뒷면에 1, 앞면에 0을 부여한다고 했을때 A, B, C 경우 모두 평균은 0.7로 같다.

     

    자 이제 앞에서 말했던, 통계학은 불확실성을 다루는 학문이다. 를 다시 떠올려보자.

     

    A, B, C는 평균은 같다. 

     

    즉, A를 납득할 수 있다면 B도, C도 납득할 수 있어야한다.

    하지만 우리는 아니다. A는 그럴 수 있어도, B와 C는 수상하고 의심스럽다.

    이것이 불확실성의 차이다.

     

    세가지 경우는 평균이라는 통계수치에서는 동일하지만, 불확실성에서 다르다.

     

    A는 뒷면이 7번이 나올 수도 있지..라고 생각해서 불확실성이 큰 편이고

    C는 뒷면이 700번이 나올 수는 없어, 이건 조작이야 라고 생각하므로 불확실성이 거의 없는 편이다.

    그렇기 때문에 우리는 평균과 같은 통계자료를 제시할 때 불확실성의 크기도 같이 제시해야한다.

     

    통계학은 수를 다루는 학문이지만, 그 수에 담겨있는 불확실성을 다루는 것이 더 중요하다.

    그것이 수학과 통계를 나누는 기준이라고 생각한다.

    '통계학 > 기초통계' 카테고리의 다른 글

    02. 모집단과 표본  (0) 2019.07.28

    댓글

Designed by Tistory.