-
02. 모집단과 표본통계학/기초통계 2019. 7. 28. 21:40
앞서 통계학의 개념과 용어를 간단히 정리하였다. 이번에는 조금 다른 예시로 통계학의 개념을 살펴보려한다. 예를들어 서울시민의 키는 어떤 특징을 가지는지 조사를 한다고 하자. 모든 서울시민의 키를 모두 조사하는 것은 시간과 비용이 많이 소요 되기 때문에 서울시민 중 몇 명만 추출하여 조사를 할 수 밖에 없다. ( 모든 서울시민을 조사 = 전수조사 / 서울시민 중 몇 명만 조사 = 표본조사 ) 혹자는 궁금해할 것이다. 시간과 비용을 감당할 수 있다면 모든 서울시민의 키를 조사할 수 있을까? 답은 '불가능'이다 서울시민의 키를 조사하는 그 순간에도 서울시민은 늘었다 줄었다를 반복할 것이다. 한 순간에 서울시민의 키를 전부 동시에 알아낼 수 있다면 가능하겠지만 현실에서는 그럴 수 없다. 이제 서울시민의 키를 조..
-
01. 통계학이란 무엇인가통계학/기초통계 2019. 7. 28. 18:08
우리는 통계학을 배우기 위해 통계학이 무엇인지 정확하게 알아야만 한다. 많은 사람들이 통계학을 떠올리면 평균, 분포, 예측과 같은 단어들을 연상시킬 것이다. 하지만 이것은 통계학의 일부분일뿐 통계학의 자체를 정의하지 못한다. 통계학이란 무엇일까? -> 통계학은 불확실성을 다루는 학문이다. 위의 이야기를 자세하게 하기 앞서서 통계학의 기초 용어들을 살펴보자. 예를들어, 동전 던지기를 4번한다고 가정하자. ( 이렇게 결과를 예상 할 순 있지만, 직접 실행하기 전까지는 결과를 정확히 알 수 없는 행위를 '임의실험'이라 한다. ) 임의실험을 실시하면 (동전을 4번 던지면), 무엇이 되었든 결과가 나올 것이다. 그렇게 나올 수 있는 모든 결과의 경우의 수를 우리는 '표본공간'이라고 한다. ( TTTT, TTTH,..
-
2. 태블로를 이용하여 시각화하기 (1)시각화/Tableau 2018. 12. 20. 17:01
안녕하세요. 오늘부터는 본격적으로 태블로를 이용하여 데이터를 시각화를 하고자 합니다. 데이터를 태블로에 입력하는 것 부터 천천히 알려드리겠습니다. 위 화면은 태블로의 초기화면 입니다. 좌측상단에 '파일(F)', '데이터(D)', '서버(S)', '도움말(H)'로 메뉴가 구성되어 있습니다. '파일(F)'과 '데이터(D)'는 자주 사용하실 메뉴들입니다. 첫 번째로, 데이터를 올리기전에 내가 시각화를 하려는 데이터 파일의 유형을 알아야합니다. txt, csv, xlsx, xls, shp등 다양한 데이터 파일의 유형 중 본인의 데이터 파일 유형을 알았다면 '연결' 하단에 있는 데이터 파일의 형태 중 하나를 선택하면 됩니다. 저는 xlsx 이므로, Microsoft Excel을 선택해보겠습니다. 두번째로, 위와 ..
-
2. 'Select'를 알아보자빅데이터 분석/Alteryx 2018. 12. 19. 22:45
안녕하세요. 오늘은 알트릭스에서 '필자가 생각하기에' 가장 편리한 기능을 담당하고 있는 'Select'에 대해서 설명해볼까 합니다. Select는 2가지의 기능을 가지고 있습니다. 1. 뜻 그대로 '선택'의 기능 우리의 데이터가 300개 이상의 열로 이루어진 데이터라고 가정해봅시다. 데이터의 크기가 큰 것도 문제지만 한 눈에 데이터를 살펴볼 수 없을 뿐더러 실제 분석에 있어서 필요한 데이터 항목(열)의 수는 몇가지 안될 것입니다. 이러한 문제를 해결하기 위해 R, SAS과 같은 분석도구들 역시 특정 열이나 행을 추출하는 함수가 있지만 Code로 작성해야하며 일일이 열의 이름을 입력해줘야합니다. 300개가 넘는 열을 일일이 찾아가면서 입력한다는 것이 얼마나 비효율적인 것인지 잘 아시리라 생각합니다. 하지만..
-
1. Tableau 시각화를 위한 데이터시각화/Tableau 2018. 12. 19. 15:22
오늘은 태블로를 통한 시각화를 할 때 주의할 점에 대해서 이야기 하고자 합니다. 태블로를 통한 시각화는 간편하고 강력하지만, 그렇게 되기 위해서는 '태블로'의 데이터 인식 방법을 알아야 합니다. 즉, 태블로로 멋진 시각화를 하기위해서는 지켜야 할 것이 한 가지 있습니다. 바로 데이터의 구성 형식 입니다. 데이터는 열과 행으로 이루어진 집합체 입니다. 하지만 열과 행을 어떻게 조합하느냐에 따라 같은 데이터도 여러가지 형태를 가질 수 있습니다. 위의 데이터 형식은 우리에게는 너무나도 익숙한 형식입니다. 제가 임의대로 만든 데이터인데, 연도별로 상품의 판매건수를 나타낸 표입니다. 특히 엑셀에서는 연도를 열로 나열해줘야만 위와같은 연도별 그래프를 그릴 수 있습니다. 하지만 태블로에서는 다릅니다. 물론 위와같은 ..
-
1. 'Input data'와 'Browse'를 알아보자빅데이터 분석/Alteryx 2018. 12. 18. 17:58
오늘은 알트릭스의 주요 기능 중 하나이자, 데이터 분석에서 가장 중요한 '데이터 입력'과 '관찰'에 대해서 알아보겠습니다. 알트릭스에서는 'Input Data'와 'Browse' 도구를 통해 데이터를 입력하고 관찰합니다. 위의 아이콘은 알트릭스에서 데이터를 입력시키는 'Input Data' 아이콘 입니다. 실제로 어떻게 사용하는지 볼까요? 위의 화면은 알트릭스 초기화면 입니다. 다양한 기능의 아이콘들이 화면 상단에 보이죠? ( 지금 보이는 아이콘들은 자주 사용하는 아이콘들만 사용자인 제가 따로 모아둔 것입니다. ) 화면에 'Input Data' 아이콘을 작업화면에 드래그앤드롭으로 가져다 두었습니다. 아이콘만 넣어두고 입력할 파일에 대해 입력하지 않아 경고 메세지가 출력된 모습입니다. 'Connect a ..
-
0. Tableau란 무엇인가?시각화/Tableau 2018. 12. 18. 16:49
안녕하세요. 요즘 빅데이터 분석이 많은 관심을 받으면서 '데이터 시각화'도 같이 주목 받고 있습니다. 데이터 시각화란? 데이터를 표, 그래프 등으로 표현하는 것을 말합니다. 가장 대표적인 데이터 시각화 도구는 모두들 잘 아시는 'Excel' 일 것입니다. 지금도 많은 사람들이 Excel을 통해서 데이터를 분석하고 시각화하고 있습니다. 하지만 데이터의 양이 점점 커지고, 시각화해야할 분석들이 많아지면서 Excel만으로는 한계가 찾아오게 됩니다. 실제로 엑셀은 약 104만개의 데이터 이상을 담을 수 없고 데이터의 양이 많을수록 그 속도가 현저하게 느려지는 문제점이 있습니다. 이러한 문제점을 해소할 수 있는 많은 분석도구들과 데이터 시각화 도구들이 있습니다만 그 중에서도 저는 'Tableau'에 대해서 이야기..
-
0. Alteryx란 무엇인가?빅데이터 분석/Alteryx 2018. 12. 18. 11:20
안녕하세요. 이번 글에서는 'Alteryx'가 무엇인지 간략하게 소개하고 무엇인지 알아보려 합니다. Alteryx(알트릭스)는 쉽게 설명해서 Work flow식 분석프로그램 입니다. Work flow란 작업흐름을 의미하는데요. ( 위의 그림은 실제 알트릭스 작업의 일부입니다. ) 작업흐름이란 위처럼 일련의 작업을 순차적으로 해결해 나가는 방식입니다. 알트릭스를 사용하면 데이터 입력 -> 데이터 전처리 -> 조인 -> 계산 -> 결과출력 과정을 하나의 흐름으로 작업하게 됩니다. 그렇다면 알트릭스의 장점은 무엇일까요? 1. 사용이 쉽다. 기존의 R, SAS, Python과 달리 코드사용을 최소화 하였기 때문에 분석에 있어서 컴퓨터 코드가 어렵게 느껴지셨던 분들에게는 정말 유용한 프로그램입니다! 대부분의 간단..