- DB
- count
- Article & User
- Vue
- 그리디
- update
- 완전검색
- 큐
- stack
- 이진트리
- outer join
- distinct
- Django
- 쟝고
- SQL
- 통계학
- 트리
- M:N
- 백트래킹
- delete
- drf
- N:1
- regexp
- migrations
- 뷰
- Queue
- create
- 스택
- Tree
- ORM
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
목록2024/08 (30)
데이터 분석 기술 블로그
인지적 편향(Congnitive bias)이란, 분석가의 성향이나 상황에 따라 비논리적인 추론을 내리는 편향입니다. 인지심리학자인 트버스키(Amos Tversky)와 행동경제학자 대니얼 카너먼(Daniel Kahneman)은 사람들이 언제나 합리적으로 생각하고 행동하는 것이 아니고, 휴리스틱(heuristic)을 통해 왜곡된 지각으로 결정하는 경우가 많다고 주장합니다. 1. 확증 편향(confirmation bias)사람들이 자신이 믿고 있는 대로 정보를 받아들이고 임의로 판단하는 경향입니다. 자신의 판단에 대한 확신을 더해주는 방향으로 데이터를 조정하거나 처음부터 생각해 두었던 가설에 유리한 방향으로 정보를 수집하고 해석하여 명백한 오류를 만들고 분석의 신뢰성을 떨어뜨립니다. 이러한 기존의 상식과 고..
표본 오차(sampling error)이란, 모집단과 표본의 자연 발생적인 변동입니다. 같은 크기의 두 개의 표본을 조심해서 추출한다고 해도 우연, 표본 수의 부족 등의 이유로 완벽하게 똑같은 표본을 얻는 것은 거의 불가능합니다. 다시 말해, 모집단의 모수와 표본의 통계량 간의 차이로 인해 통계치가 모수치의 주위에 분산되어 있는 정도를 말합니다, 비표본 오차(non-sampling error)이란, 표본 오차를 제외한 변동입니다. 조사원의 미숙, 자료의 그릇된 해석뿐만 아니라, 편향(bias)이 비표본 오차의 원인입니다. 편향의 종류표본추출편향(sample selection bias) : 조사 대상자를 선택하는 과정에서 특정 그룹이 과도하게 대표되거나 과소되어 전체 모집단을 제대로 반영하지 못하는 현상..

표본조사의 필요성분석 모델링에서는 수많은 테스트와 검증이 필요하고, 머신러닝 모델에서는 데이터를 가공할 때에 원하는 데이터 구조를 완성시키기 위해 여러 번의 시행착오를 거쳐야 합니다. 이 모든 단계를 전체 데이터로 수행하려면 많은 시간과 비용이 소모되기 때문에 모든 데이터를 사용하는 것은 비효율 적입니다. 최종 분석에서는 전체 데이터를 사용하는 게 정확성 측면에서 좋을 수 있지만, 분석 모델이 완성될 때까지는 표본 데이터를 활용하는 것이 경제적으로나 시간적으로 유리합니다. 일반적으로는 최소 200개 이상 표본이 있으면 분석이 가능합니다. 통계적으로는 변수 하나당 최소 30개의 관측치가 필요하므로 예를 들어 10개의 변수를 사용하는 예측 모델을 만들려면 최소 300개의 표본 관측치를 가지고 있어야 합니다..

모집단(population) : 분석 대상 전체의 집합표본(sample) : 모집단의 일부를 추출한 것전수조사 : 모집단의 자료 전체를 조사 및 분석하여 정보를 추출하는 것표본조사 : 모집단에서 추출한 표본을 통해 모집단을 정보(평균, 표준편차 등)를 추정하고 검정하는 것 가장 대표적인 전수조사는 전체 국민의 투표 데이터를 통해 결과를 도출하는 선거 투표입니다.하지만 모집단 전체를 조사하면 가장 정확하지만 비용가 시간이 많이 필요하기 때문에 표본조사를 해서 모집단의 결과를 유추하는 여론조사를 합니다. 여론조사는 적은 표본만으로도 최대한 높은 정확도를 이끌어 내는 것이 중요합니다.효과적인 표본조사표본 추출을 잘해야 합니다. 표본 추출은 다양한 방법이 있는데, 데이터의 형태나 분포에 따라 올바른 방법을 선택..

추론 통계는 표본 집단으로부터 모집단의 특성을 추론한 것이 목적입니다. 다시 말해, 한 반의 통계치를 통해 학교 전체 학생의 통계치를 추정하는 것입니다.추론(통계) = inferential = 추리의, 추정의 의한 예를 들어, A반의 평균 몸무게가 70kg라고 했을 때, '학교 전체 학생의 평균 몸무게가 65~75kg 구간 내에 존재할 확률이 어느 정도다'라는 식으로 추론하는 것입니다. 그렇다고 A반에 있는 모든 학생의 몸무게가 정확히 70kg인 것은 아니기 때문에 추론 통계는 표본으로 구한 70kg이라는 통계값을 통해 모집단의 몸무게를 나타내는 모수(parameter) 값이 얼마인지, 모수 값이 특정 구간 내에 존재할 확률이 얼마인지를 추정합니다. 선거 시즌에 자주 듣는 "이번 투표는 OOO 후보의 지..

기술 통계란 문자 그대로 주어진 데이터의 특성을 사실에 근거해 설명하고 묘사하는 것입니다.기술(통계) = descriptive = 서술(묘사)하는, 사실에 근거한, 설명적인, 도형의 가장 기본적인 방법은 그 데이터의 대푯값을 설명하는 것입니다. 대푯값에는 평균(average), 중앙값(median), 최빈값(mode) 등이 있습니다. 또한 평균에는 가중평균, 기하평균, 조화평균 등 다양한 기법이 존재합니다. 예를 들어, 학생들의 몸무게를 설명(기술 통계)할 때, 일일이 몸무게를 나열하는 것은 의미가 없고 남자 학생의 평균 몸무게는 70kg, 여자 학생의 평균 몸무게는 49kg 이런 식으로 평균 몸무게를 설명한다면 누구나 쉽게 이 집단의 키를 파악할 수 있습니다. 데이터를 설명하는 방법 중에 각각의 값..