본문 바로가기

갈아먹는 머신러닝 시리즈

(36)
갈아먹는 통계 기초[3] 표본 추출 지난 글 갈아먹는 통계 기초[1] 확률 분포 정리 갈아먹는 통계 기초[2] 공분산과 피어슨 상관계수 들어가며 TV 드라마의 시청률을 조사하는 상황을 생각해보겠습니다. 먼저 모든 가구들의 TV에 어느 체널을 보는지 측정할 수 있는 장비를 설치하고 시청률을 측정하는 방법을 생각해 볼 수 있습니다. 이를 전수 조사라고 합니다. 하지만 이는 너무 많은 비용과 시간이 소요됩니다. 그렇기 때문에 전체 가구들 중 일부 가구의 시청 체널을 조사하는 방법을 택할 수 있습니다. 이를 표본 조사라고 합니다. 하지만 여기서 고민이 생깁니다. 표본을 얼만큼, 어떻게 뽑아야만 신뢰할 만한 시청률을 측정할 수 있을까요? 이번 시간에는 이러한 표본 집계에 대해서 알아보도록 하겠습니다. 표본 조사 전국민 조사에서 국민과 같이 원래 통..
갈아먹는 통계 기초[2] 공분산과 피어슨 상관 계수 지난 글 갈아먹는 통계 기초[1] 확률 분포 정리 들어가며 캐글 컴페티션 같은 데이터 사이언스 테스크를 풀 때 주어진 데이터의 특성을 분석하는 작업을 EDA라고 합니다. EDA를 수행할 때 필수적으로 분석하는 것이 자료들 간의 상관관계입니다. 가령 직원들의 근무 성과 데이터가 주어졌다고 하면 직원들의 거주 지역과 성과 사이의 상관관계를 분석하고 싶을 수 있습니다. 만일 상관관계가 높다면 직원들의 성과를 예측하는데 적절한 데이터로 활용이 가능하겠죠? 이렇듯 데이터 간의 상관관계를 분석하고 싶을 때 사용되는 것이 공분산입니다. 이번 포스팅에서는 공분산의 기초 개념과 실질적으로 많이 사용되는 피어슨 상관 계수에 대해서 알아보겠습니다. 공분산(covariance) 공분산은 두 측정값 사이에 연관성을 분석하기 위..
갈아먹는 통계 기초 [1] 확률 분포 정리 들어가며 머신러닝에서 통계학은 뗄레야 뗄 수 없는 관계에 있습니다. 데이터가 어떠한 특성을 가지고 있고, 어떠한 분포를 띄는 지에 따라서 수행해야하는 전처리나 알고리즘이 달라지기도 합니다. 그런 의미에서 통계학의 기초 개념들을 쭉 복습하며 핵심적인 내용들을 정리해보려 합니다. 확률 변수 확률 변수(random variable)은 확률 실험의 결과에 대한 숫자적 표현입니다. 가령 동전을 던진다고 했을 때 앞면을 1, 뒷면을 0이라고 표현한다고 하면 이는 실험 결과의 숫자적 표현이고 확률 변수입니다.[1] 확률 변수는 그것이 취할 수 있는 값들이 한 개, 두개와 같이 셀 수 있으면 이산형 확률 변수(discrete random variable), 셀 수 없을 경우 연속형 확률 변수(continuous ran..
갈아먹는 추천 알고리즘[6] 추천 엔진 성능 지표 지난 글 갈아먹는 추천 알고리즘 [1] 추천 알고리즘의 종류 갈아먹는 추천 알고리즘 [2] Collaborative Filtering 갈아먹는 추천 알고리즘 [3] Matrix Factorization 갈아먹는 추천 알고리즘 [4] Alternating Least Squares 갈아먹는 추천 알고리즘 [5] ALS 구현하기 들어가며 오랜만에 추천 알고리즘에 관련된 내용을 포스팅 해봅니다. 바로 추천 엔진의 성능은 어떻게 평가할 것인가 입니다. 클래시피케이션 모델의 경우에는 accuracy, precision, recall, f1-score 등의 지표가 있고 object detection의 경우에는 mAP, 리그레션 모델 같은 경우에는 r2-score 등의 지표들이 있습니다. 이러한 성능 평가 지표들을 우..
갈아먹는 자격증 [1] Tensorflow Certificate 취득 안내 및 후기 들어가며 Tensorflow Certificate란 구글에서 직접 인증하는 일종의 텐서플로우 자격증입니다. 5시간 동안 기초 선형 회귀, 이미지 분류, 텍스트 분류, 시계열 분류 등 다섯 종류의 모델을 구현하면 되는 시험입니다. 자세한 내용은 다음 가이드와 아래 내용을 참고하시기 바랍니다. (https://www.tensorflow.org/site-assets/downloads/marketing/cert/TF_Certificate_Candidate_Handbook.pdf) 싸이버 강의 덕분에 시간적 여유가 생겨서 한번 도전해 보았습니다. 저는 해당 시험 준비용으로 구글이 만들어놓은 코세라 강의를 먼저 수강하고 시험에 응시하였습니다. 합격 여부는 아래와 같이 이메일로 알려주며, 취득까지 4일 정도 걸렸습니..
갈아먹는 Pose Estimation [2] Joint training of a convolutional network and a graphical model for human pose estimation 들어가며 이전 리뷰에서 Deep Pose를 알아보았습니다. 이를 기점으로 딥러닝을 활용한 Pose Estimation 연구들이 활발히 진행되었습니다. Deep Pose가 입력 이미지에서 곧바로 관절 좌표를 추론하는 리그레션 문제로 접근했다면 이 논문은 heatmap을 추출하여 관절의 위치를 추론하는 기법을 제안합니다. 이를 통해서 성능과 속도 모두 향상시켰다고 하니 한번 알아볼 필요가 있겠죠? 영향력: 인용 횟수가 900회에 달하며 현재 구글의 시니어 리서쳐로 있는 Jonathon Thomson이 1 저자입니다. 주요 기여: Pose Estimation 분야에서 heatmap을 활용하는 방법을 제시하였으며, 이후에 등장한 논문들에서 많이 사용하였습니다. 핵심 아이디어 제목에서 추측할 수 있듯이 이 논문의..
갈아먹는 Pose Estimation [1] DeepPose: Human Pose Estimation via Deep Neural Networks 들어가며 오늘 리뷰할 논문은 Pose Estimation 분야에 최초로 딥 러닝을 적용한 Deep Pose 논문입니다. 본격적으로 딥 러닝을 이용한 포즈 에스티메이션의 포문을 열었으며, 당시만하더라도 딥 러닝을 클래시피케이션에만 사용하였는데, 리그레션 문제에도 훌륭하게 적용할 수 있다는 것을 보여준 논문입니다. 영향력: 구글에서 나온 페이퍼로 인용 횟수가 1300회에 달합니다. 주요 기여: Pose Estimation 분야에 최초로 딥 러닝을 적용하여 state of the art를 달성하였습니다. Deep Learning Model for Pose Estimation 컴퓨터 비젼 분야에서 CNN이 워낙 뛰어난 성능을 내는 것은 잘 알려져 있지만, Pose Estimation 분야에서 특히 CNN이 적합..
갈아먹는 Object Detection [6] SSD: SIngle Shot Multibox Detector 지난 글 갈아먹는 Object Detection [1] R-CNN 갈아먹는 Object Detection [2] Spatial Pyramid Pooling Network 갈아먹는 Object Detection [3] Fast R-CNN 갈아먹는 Object Detection [4] Faster R-CNN 갈아먹는 Object Detection [5] Yolo:You Only Look Once 들어가며 오늘 리뷰할 논문은 yolo의 뒤를 잇는 1 Step object detection 알고리즘, SSD입니다. 먼저 결과부터 보시죠. Yolo는 속도 측면에서 당시 Faster R-CNN이 7FPS이었던 것을 45FPS까지 끌어올리는 비약적인 발전을 이루었습니다. 하지만 정확도 측면에선 다소 한계점이 있었습니..