- ORM
- Tree
- Queue
- Vue
- 쟝고
- SQL
- M:N
- stack
- Django
- 완전검색
- drf
- 뷰
- 큐
- outer join
- 스택
- migrations
- 그리디
- update
- 트리
- delete
- create
- 통계학
- 백트래킹
- regexp
- DB
- N:1
- 이진트리
- Article & User
- count
- distinct
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
데이터 분석 기술 블로그
3. 통계학의 정의와 기원 본문
통계학의 정의
통계학(Statistics)은 자료를 수집, 분석하여 그 분석 결과를 통해 효율적인 의사결정을 하는 기법을 연구하는 학문입니다. 자료(데이터)는 의미가 있는 형태인 '정보'로 제한됐을 때 의사결정에 도움이 될 수 있습니다. 통계학은 자료들을 보기 쉽게 요약하거나 도표로 나타내고 데이터들 간의 관계 등을 볼 수 있도록 자료를 가공되어 의미가 생기고 의사결정에 도움이 되도록 합니다.
통계학의 기원
기원전 약 3000년경에 이집트 피라미드를 건설하기 위한 최초의 통계 조사 조직이 있었습니다. 군 징집 대상을 파악하기 위해 인구 조사를 실시했고, 대부분의 국가에서 병사를 모으거나 세금을 걷기 위해 인구 통계를 사용했습니다.
17세기에 수리적 기법이 견고 해지고 점차 학문적으로 자리 잡기 시작합니다.
영국의 상인이었던 정치산술(political arithmetic)의 창시자 존 그랜트(John Graunt, 1620~1674)는 런던시가 1602년부터 작성해온 출생과 사망에 대한 주간 기록표 23년 치를 분석했습니다. 그 중 하나는 나이별, 성별, 사망 원인별 등으로 정리된 자료를 이용해 무역과 전염병 사이의 관계를 밝혀낸 것이었습니다. 구체적으로, 당시에 당연하게 여겨지는 통설인 귀무가설(H0, Null Hypothesis)와 이와 반대인 대립가설(H1, Alternative Hypothesis)을 통해 귀무가설이 유의하지 않다는 것을 증명했습니다. 이것을 검정(test)라고 하는데, 검정은 인류의 근대화 흐름을 뒷받침하는 핵심 논리를 이루고 있고, 서양의 과학혁명과도 연결이 되어 과학 기술의 발전의 토대가 되었습니다.
- X(독립변수) : 해당 지역의 월간 무역 횟수
- Y(종속변수) : 해당 지역의 사망률
- H0(귀무가설) : 해당 지역의 월간 무역 횟수는 사망률과 관련이 없다.
- H1(대립가설) : 해당 지역의 월간 무역 횟수는 사망률에 영향을 미친다.
근대의 통계학은 크게 영국, 독일, 프랑스 세 개의 국가에서 큰 발전을 일으켰습니다.
영국의 정치산술과 통계학은 패티(W. Petty, 1623~1687)의 인구통계표, 에드먼드 핼리(Edmond Halley, 1656~1742)의 보험수학과 생명표 등이 탄생합니다. 핼리의 생명표는 예를 들어 '20세인 사람이 그 해에 사망할 확률은 100분의 1이고 50세인 사람은 39분의 1이다'라는 식으로 통계적으로 연령에 따른 사망 확률을 예측했습니다.
독일 대학파 통계학의 창시자인 콘링(H. Conring, 1606~1681)은 국정론을 통해 정치, 경제, 사회, 토지, 인구 등 국가 요소들을 통계적으로 정리하고 국가를 파악하고자 했습니다. 아헨발(Achenwall Gottfried, 1719~1772)은 통계학이라는 용어를 처음으로 사용했습니다.
프랑스에서는 순열과 조합으로 확률 계산의 기초를 마련한 베르누이(Daniel Bernoulli, 1777~1855)와 정규분포, 최소제곱법 등의 개념을 고안한 가우스(Carl Friedrich Gauss, 1777~1855)가 있었습니다. 그리고 확률론을 체계화 한 라플라스(Pierre-Simon Laplace, 1749~1827) 등을 통해 학률론을 발전시켰습니다.
1800년대 후반 회귀분석의 아버지 프랜시스 골턴(Francis Galton, 1822~1911), 수리 통계학의 대표적 창시자인 칼 피어슨(Karl Pearson, 1875~936) 등의 인물들을 통해 현대 통계학이 발전했습니다. 통계학이 데이터 과학으로 발전할 수 있도록 발판 역할을 한 사람은 존 튜키(Jogn Wilder Tukey)입니다. 존 튜키는 데이터 분석이라는 새로운 과학적 학문을 제안하고, 통계적 추론을 데이터 분석의 구성 요소로 정의했습니다.
프랜시스 골턴 경은 1889년에 발간된 '자연적 유전(Natural Inheritance)'에서 키에 나타난 특징을 예술적 능력이나 결핵에 걸릴 경향 등에 적용했습니다. 이 과정에서 통계학을 다시 썼다고 해도 과언이 아닐 정도로 사분위수(quartile), 백분율(percentile), 표준편차(standard deviatation) 개념에 이름을 붙이고, 중앙값(median, 변량(variable)을 크기 순서로 정렬했을 때 중앙에 위치하는 값)을 대표값으로 사용했습니다. 또, 평균으로의 회귀(regression to the mean)를 발견했습니다.
칼 피어슨은 통계학의 아버지라고 불립니다. 상관관계(correlation coefficient)의 개념을 만들었는데, 이는 세상의 모든 사건은 독립적으로 일어나지만 서로 상관관계를 가지고 있으므로 상관관계를 맺는 두 변수 중에서 하나의 변수를 알면 다른 변수를 알 수 있다는 것입니다. 또한,유니버시티 칼리지 런던에 세계 최초의 응용통계학과를 설립한 첫 번째 교수이며 인류의 유전에 관한 통계적 분석, 두개의 계측, 결핵의 통계 등으로 유명합니다.
존 튜키(John Wilder Tukey, 1915~2000)는 통계를 공학과 컴퓨터 과학 분야에 접목하기 위한 노력끝에 탐색적 데이터 분석(EDA) 분야를 창시하고 현대 데이터 과학의 토대가 됐습니다.
확률모형
확률모형은 y=f(x) 함수인 수리 모형에서 오차인 e가 추가된 개념입니다. 과녁에 화살을 무한히 많이 쏜다고 했을 때, 각 화살이 맞은 지점과 중앙 지점과의 거리는 아래 그림처럼 좌우대칭인 종 모양의 분포를 나타낼 것입니다. 이러한 분포는 통계학에서 가장 중요한 이론 중 하나인 중심극한정리입니다.
'데이터 분석' 카테고리의 다른 글
6. 모집단과 표본, 전수조사와 표본조사 (0) | 2024.08.03 |
---|---|
5. 기술 통계와 추론 통계 : 추론 통계 (0) | 2024.08.02 |
4. 기술 통계와 추론 통계 : 기술 통계 (0) | 2024.08.01 |
2. 머신러닝과 통계학의 차이 (1) | 2024.07.30 |
1. 통계학을 알아야 하는 이유 (0) | 2024.07.29 |