-
요약 - [카카오AI리포트]딥러닝과 데이터MACHINE LEARNING 2017. 11. 1. 16:00반응형
원문보기 - https://brunch.co.kr/@kakao-it/137
* 충분히 깊은 심층 신경망의 경우 입력층에 가까운 계층들이 데이터 전처리를 담당하도록 훈련되는 경향이 있다
* 빅데이터 처리에 중요하게 간주되었던 데이터 전처리 및 결과의 후처리 과정은 인공 신경망 기반의 기계 학습 모형 설계 과정에서도 여전히 매우 중요하다
* 그런데 인공 신경망 훈련을 위한 데이터 전처리 과정에서는 일반적인 데이터 분석을 위한 전처리 과정에 더하여 여러 가지를 고려해야 한다
동일한 현상에서 얻은 동일하지 않은 데이터: 정규화의 함정
* 어느 데이터 세트를 기준으로 스케일을 맞출 것인가
* 이 경우 10점 만점의 데이터는 몇 점을 기준으로 좋아요/아니요로 변환해야 할까
* 5점 기준으로 맞출 경우 10점 데이터의 앨리어싱 기준이 문제가 된다
동일한 현상, 다른 데이터
* 이 데이터로 챗봇 모형을 만들 수 있을까
* 분석 기기로부터 데이터를 측정하여 모형 훈련을 위한 데이터를 만들어야 할 것이다
* 실험 기기들에서 원시 데이터*20를 추출해 데이터 베이스를 만든 경우에도 모형은 학습되지 않을 것이다
* 이 데이터를 그 대로 내보낼 경우에도 기기가 일반적인 통계 전처리를 수행한다
젊은 '빅'데이터 : 시간축에 따른 데이터 밀도차의 문제
* 패션 모형의 훈련을 위한 다양한 데이터를 획득했다고 하자
* 이 모형은 충분한 데이터가 있다면 트렌드를 예측 할 수 있을까
* 이러한 데이터 밀도 차는 최종 모형의 추론 과정에서 시간에 따른 편향으로 나타난다
* 지역에 따른 데이터 밀도차가 발생한다
동적 평형 시스템에서 생성되는 데이터: 대상 시스템의 진화 문제
* 그러나 통계 및 회귀 모형들에서 정확도를 높이기 위하여 인공 신경망 모형을 도입한 경우들의 상당수는 동적 평형 시스템이다
* 신경망 모형에서 가끔 발생하는 과적합이 동적 시스템의 상태 변화와 만날 경우 주식 투자 모형에서 큰 손해로 이어질 수 있다
* 모형을 훈련시키기 전에 이 사이트의 시간에 따른 게임 평점 분포를 살펴보자
* 각 분기별 평균을 기준으로 정규 분포가 되도록 게임 평점을 스케일할 수 있을 것이다
모형 학습 시의 각인효과 : 데이터 라벨/카테고리별 밀도차
* 많은 신경망 모형들은 기존 방법론으로는 잘 되지 않는 복잡하고 유사해 보이는 데이터들을 분류하거나 묶기 위해 훈련된다
* 아이폰 사용자는 사진앱(Photos)를 쓸 수 있고, 안드로이드 사용자는 구글 포토(Google Photo)를 쓸 수 있다
* 학습모형이 추천한 내 후보 사진들을 보고, 맞음/틀림 입력을 주어 훈련도를 높일 수 있다
나가기
* 앞에서 재미있게 알아보았듯이 신경망 모형을 훈련할 경우 모형의 구조만큼이나 중요한 것은 훈련 데이터이다
* 데이터 전처리 과정에는 해당 분야에 대한 전문적인 지식 및 통찰이 필수적이다
* 모형 훈련 과정에 사용할 데이터 표본을 대상으로 다양한 통계 분석을 실시하고, 그에 따라 적절한 특징을 선택하기 위해 해당 분야의 지식이 필요하기 때문이다
반응형'MACHINE LEARNING' 카테고리의 다른 글
신경망에 대해 알아야 할 모든 것 (0) 2017.11.08 위치 차이를 CNN이 어떻게 처리합니까? (0) 2017.11.05 기계 학습 이론 및 그 응용에 대한 소개 : 예제를 포함한 시각적인 학습서 (0) 2017.10.31 딥 러닝 튜토리얼 : 퍼셉트론에서부터 딥 네트워크까지 (0) 2017.10.29 Top 10 Machine Learning Algorithms for Beginners (0) 2017.10.26