본문 바로가기

통계기초

(4)
갈아먹는 통계 기초[4] 가설, 검정, p-value 지난 글 갈아먹는 통계 기초[1] 확률 분포 정리 갈아먹는 통계 기초[2] 공분산과 피어슨 상관계수 갈아먹는 통계 기초[3] 표본 추출 들어가며 우리는 지금까지 데이터를 특정한 확률 분포를 가진 확률 변수로 모형화 하였습니다. 그리고 모집단의 표본에서 얻은 통계량을 통해 모집단의 통계적 특성을 추측해보았습니다. 이러한 과정을 논리적으로 전개하기 위해서 필요한 것이 가설과 검정입니다. 가설(hypothesis)란 확률 분포에 대한 어떠한 주장이며 이를 증명하는 행위를 검정(testing)이라 합니다. 특히 확률 분포의 모수 값에 대한 가설을 검정하는 것을 모수 검정(parameter testing)이라 부릅니다. 귀무 가설과 대립가설 귀무 가설(null hypothesis, 영 가설)은 처음부터 버릴 것을..
갈아먹는 통계 기초[3] 표본 추출 지난 글 갈아먹는 통계 기초[1] 확률 분포 정리 갈아먹는 통계 기초[2] 공분산과 피어슨 상관계수 들어가며 TV 드라마의 시청률을 조사하는 상황을 생각해보겠습니다. 먼저 모든 가구들의 TV에 어느 체널을 보는지 측정할 수 있는 장비를 설치하고 시청률을 측정하는 방법을 생각해 볼 수 있습니다. 이를 전수 조사라고 합니다. 하지만 이는 너무 많은 비용과 시간이 소요됩니다. 그렇기 때문에 전체 가구들 중 일부 가구의 시청 체널을 조사하는 방법을 택할 수 있습니다. 이를 표본 조사라고 합니다. 하지만 여기서 고민이 생깁니다. 표본을 얼만큼, 어떻게 뽑아야만 신뢰할 만한 시청률을 측정할 수 있을까요? 이번 시간에는 이러한 표본 집계에 대해서 알아보도록 하겠습니다. 표본 조사 전국민 조사에서 국민과 같이 원래 통..
갈아먹는 통계 기초[2] 공분산과 피어슨 상관 계수 지난 글 갈아먹는 통계 기초[1] 확률 분포 정리 들어가며 캐글 컴페티션 같은 데이터 사이언스 테스크를 풀 때 주어진 데이터의 특성을 분석하는 작업을 EDA라고 합니다. EDA를 수행할 때 필수적으로 분석하는 것이 자료들 간의 상관관계입니다. 가령 직원들의 근무 성과 데이터가 주어졌다고 하면 직원들의 거주 지역과 성과 사이의 상관관계를 분석하고 싶을 수 있습니다. 만일 상관관계가 높다면 직원들의 성과를 예측하는데 적절한 데이터로 활용이 가능하겠죠? 이렇듯 데이터 간의 상관관계를 분석하고 싶을 때 사용되는 것이 공분산입니다. 이번 포스팅에서는 공분산의 기초 개념과 실질적으로 많이 사용되는 피어슨 상관 계수에 대해서 알아보겠습니다. 공분산(covariance) 공분산은 두 측정값 사이에 연관성을 분석하기 위..
갈아먹는 통계 기초 [1] 확률 분포 정리 들어가며 머신러닝에서 통계학은 뗄레야 뗄 수 없는 관계에 있습니다. 데이터가 어떠한 특성을 가지고 있고, 어떠한 분포를 띄는 지에 따라서 수행해야하는 전처리나 알고리즘이 달라지기도 합니다. 그런 의미에서 통계학의 기초 개념들을 쭉 복습하며 핵심적인 내용들을 정리해보려 합니다. 확률 변수 확률 변수(random variable)은 확률 실험의 결과에 대한 숫자적 표현입니다. 가령 동전을 던진다고 했을 때 앞면을 1, 뒷면을 0이라고 표현한다고 하면 이는 실험 결과의 숫자적 표현이고 확률 변수입니다.[1] 확률 변수는 그것이 취할 수 있는 값들이 한 개, 두개와 같이 셀 수 있으면 이산형 확률 변수(discrete random variable), 셀 수 없을 경우 연속형 확률 변수(continuous ran..