ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 요약 - [카카오AI리포트]딥러닝과 데이터
    MACHINE LEARNING 2017. 11. 1. 16:00
    반응형

    원문보기 - https://brunch.co.kr/@kakao-it/137


    * 충분히 깊은 심층 신경망의 경우 입력층에 가까운 계층들이 데이터 전처리를 담당하도록 훈련되는 경향이 있다

    * 빅데이터 처리에 중요하게 간주되었던 데이터 전처리 및 결과의 후처리 과정은 인공 신경망 기반의 기계 학습 모형 설계 과정에서도 여전히 매우 중요하다

    * 그런데 인공 신경망 훈련을 위한 데이터 전처리 과정에서는 일반적인 데이터 분석을 위한 전처리 과정에 더하여 여러 가지를 고려해야 한다


    동일한 현상에서 얻은 동일하지 않은 데이터: 정규화의 함정

    * 어느 데이터 세트를 기준으로 스케일을 맞출 것인가

    * 이 경우 10점 만점의 데이터는 몇 점을 기준으로 좋아요/아니요로 변환해야 할까

    * 5점 기준으로 맞출 경우 10점 데이터의 앨리어싱 기준이 문제가 된다


    동일한 현상, 다른 데이터

    * 이 데이터로 챗봇 모형을 만들 수 있을까

    * 분석 기기로부터 데이터를 측정하여 모형 훈련을 위한 데이터를 만들어야 할 것이다

    * 실험 기기들에서 원시 데이터*20를 추출해 데이터 베이스를 만든 경우에도 모형은 학습되지 않을 것이다

    * 이 데이터를 그 대로 내보낼 경우에도 기기가 일반적인 통계 전처리를 수행한다


    젊은 '빅'데이터 : 시간축에 따른 데이터 밀도차의 문제

    * 패션 모형의 훈련을 위한 다양한 데이터를 획득했다고 하자

    * 이 모형은 충분한 데이터가 있다면 트렌드를 예측 할 수 있을까

    * 이러한 데이터 밀도 차는 최종 모형의 추론 과정에서 시간에 따른 편향으로 나타난다

    * 지역에 따른 데이터 밀도차가 발생한다


    동적 평형 시스템에서 생성되는 데이터: 대상 시스템의 진화 문제

    * 그러나 통계 및 회귀 모형들에서 정확도를 높이기 위하여 인공 신경망 모형을 도입한 경우들의 상당수는 동적 평형 시스템이다

    * 신경망 모형에서 가끔 발생하는 과적합이 동적 시스템의 상태 변화와 만날 경우 주식 투자 모형에서 큰 손해로 이어질 수 있다

    * 모형을 훈련시키기 전에 이 사이트의 시간에 따른 게임 평점 분포를 살펴보자

    * 각 분기별 평균을 기준으로 정규 분포가 되도록 게임 평점을 스케일할 수 있을 것이다


    모형 학습 시의 각인효과 : 데이터 라벨/카테고리별 밀도차

    * 많은 신경망 모형들은 기존 방법론으로는 잘 되지 않는 복잡하고 유사해 보이는 데이터들을 분류하거나 묶기 위해 훈련된다

    * 아이폰 사용자는 사진앱(Photos)를 쓸 수 있고, 안드로이드 사용자는 구글 포토(Google Photo)를 쓸 수 있다

    * 학습모형이 추천한 내 후보 사진들을 보고, 맞음/틀림 입력을 주어 훈련도를 높일 수 있다


    나가기

    * 앞에서 재미있게 알아보았듯이 신경망 모형을 훈련할 경우 모형의 구조만큼이나 중요한 것은 훈련 데이터이다

    * 데이터 전처리 과정에는 해당 분야에 대한 전문적인 지식 및 통찰이 필수적이다

    * 모형 훈련 과정에 사용할 데이터 표본을 대상으로 다양한 통계 분석을 실시하고, 그에 따라 적절한 특징을 선택하기 위해 해당 분야의 지식이 필요하기 때문이다



    반응형
Designed by Tistory.