- 뷰
- 통계학
- Tree
- regexp
- 큐
- stack
- Article & User
- outer join
- 트리
- Django
- migrations
- ORM
- N:1
- 쟝고
- create
- update
- SQL
- 이진트리
- 백트래킹
- 그리디
- M:N
- delete
- 완전검색
- drf
- count
- DB
- 스택
- Queue
- distinct
- Vue
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
목록전체 글 (300)
데이터 분석 기술 블로그
SolutionSELECT product_idFROM ProductsWHERE low_fats = 'Y'AND recyclable = 'Y'
SolutionSELECT *FROM CITYWHERE POPULATION > 100000AND COUNTRYCODE = 'USA'; 문제를 잘 읽어야 한다. 난 NAME이 'USA'이면 될 줄 알았지만 문제에서 COUNTRYCODE라고 이미 주어져 있었다.'='은 한 가지 값만 비교할 수 있고 'IN'이라는 키워드를 사용하면 다수의 값을 나열할 때 유용하다.SELECT *FROM CITYWHERE POPULATION > 100000 AND CountryCode IN ('USA');
SolutionSELECT *FROM points; 모든 데이터를 조회할 때, SELECT ALL이 아닌 SELECT *로 표시한다.
SolutionSELECT FACTORY_ID, FACTORY_NAME, ADDRESSFROM FOOD_FACTORYWHERE ADDRESS LIKE '강원도%'ORDER BY FACTORY_ID ASC; SELECT : 데이터 추출, 여러 조건들을 처리한 후에 남은 데이터에서 어떤 열을 출력할지 선택하는 키워드이다.여기서는 출력되어야 하는 열이 TLNO를 제외하고 나머지 세 개 열이어서 세 가지를 써주었습니다. FROM : 조회 테이블 확인, 쿼리의 가장 첫 번째 실행 순서로 테이블의 모든 데이터를 가져온다.FOOD_FACTORY라는 데이터를 사용합니다. WHERE : 데이터 추출 조건 확인, FROM절에서 읽어온 데이터중에서 조건에 일치하는 데이터를 가져옵니다.앞부분이 강원도로 시작하는 데이터를 추출..
인지적 편향(Congnitive bias)이란, 분석가의 성향이나 상황에 따라 비논리적인 추론을 내리는 편향입니다. 인지심리학자인 트버스키(Amos Tversky)와 행동경제학자 대니얼 카너먼(Daniel Kahneman)은 사람들이 언제나 합리적으로 생각하고 행동하는 것이 아니고, 휴리스틱(heuristic)을 통해 왜곡된 지각으로 결정하는 경우가 많다고 주장합니다. 1. 확증 편향(confirmation bias)사람들이 자신이 믿고 있는 대로 정보를 받아들이고 임의로 판단하는 경향입니다. 자신의 판단에 대한 확신을 더해주는 방향으로 데이터를 조정하거나 처음부터 생각해 두었던 가설에 유리한 방향으로 정보를 수집하고 해석하여 명백한 오류를 만들고 분석의 신뢰성을 떨어뜨립니다. 이러한 기존의 상식과 고..
표본 오차(sampling error)이란, 모집단과 표본의 자연 발생적인 변동입니다. 같은 크기의 두 개의 표본을 조심해서 추출한다고 해도 우연, 표본 수의 부족 등의 이유로 완벽하게 똑같은 표본을 얻는 것은 거의 불가능합니다. 다시 말해, 모집단의 모수와 표본의 통계량 간의 차이로 인해 통계치가 모수치의 주위에 분산되어 있는 정도를 말합니다, 비표본 오차(non-sampling error)이란, 표본 오차를 제외한 변동입니다. 조사원의 미숙, 자료의 그릇된 해석뿐만 아니라, 편향(bias)이 비표본 오차의 원인입니다. 편향의 종류표본추출편향(sample selection bias) : 조사 대상자를 선택하는 과정에서 특정 그룹이 과도하게 대표되거나 과소되어 전체 모집단을 제대로 반영하지 못하는 현상..
표본조사의 필요성분석 모델링에서는 수많은 테스트와 검증이 필요하고, 머신러닝 모델에서는 데이터를 가공할 때에 원하는 데이터 구조를 완성시키기 위해 여러 번의 시행착오를 거쳐야 합니다. 이 모든 단계를 전체 데이터로 수행하려면 많은 시간과 비용이 소모되기 때문에 모든 데이터를 사용하는 것은 비효율 적입니다. 최종 분석에서는 전체 데이터를 사용하는 게 정확성 측면에서 좋을 수 있지만, 분석 모델이 완성될 때까지는 표본 데이터를 활용하는 것이 경제적으로나 시간적으로 유리합니다. 일반적으로는 최소 200개 이상 표본이 있으면 분석이 가능합니다. 통계적으로는 변수 하나당 최소 30개의 관측치가 필요하므로 예를 들어 10개의 변수를 사용하는 예측 모델을 만들려면 최소 300개의 표본 관측치를 가지고 있어야 합니다..
모집단(population) : 분석 대상 전체의 집합표본(sample) : 모집단의 일부를 추출한 것전수조사 : 모집단의 자료 전체를 조사 및 분석하여 정보를 추출하는 것표본조사 : 모집단에서 추출한 표본을 통해 모집단을 정보(평균, 표준편차 등)를 추정하고 검정하는 것 가장 대표적인 전수조사는 전체 국민의 투표 데이터를 통해 결과를 도출하는 선거 투표입니다.하지만 모집단 전체를 조사하면 가장 정확하지만 비용가 시간이 많이 필요하기 때문에 표본조사를 해서 모집단의 결과를 유추하는 여론조사를 합니다. 여론조사는 적은 표본만으로도 최대한 높은 정확도를 이끌어 내는 것이 중요합니다.효과적인 표본조사표본 추출을 잘해야 합니다. 표본 추출은 다양한 방법이 있는데, 데이터의 형태나 분포에 따라 올바른 방법을 선택..