-
확률 개념 설명 : 최대 우도 추정MACHINE LEARNING 2018. 1. 17. 10:00반응형
이 문서는 영문으로된 내용을 카카오 번역기를 활용하여 번역한 내용입니다.
개인적인 공부 및 추후 다시 볼 수 있도록 하기 위해 개인 블로그에 번역 내용을 옮겨 놓았습니다.
원문과 내용이 다를시 책임지지 않으며, 저작권 문제가 발생시 언제든 삭제 될 수 있습니다.확률 개념 설명 : 최대 우도 추정
소개
이 글에서 매개변수 추정을 위한 최대 우도 방법이 무엇인지 설명하고 간단한 예를 통해 그 방법을 설명하겠습니다. 내용의 일부는 결합 확률 및 이벤트의 독립성 정의와 같은 기본 확률 개념에 대한 지식이 필요합니다. 이런 전제조건들을 담은 블로그 글(여기서는 번영본을 링크 함.) (원문) 을 썼으니, 당신이 재충전이 필요하다고 생각한다면 이 글을 읽어 보세요.
매개 변수가 무엇인가?
종종 기계 학습에서 우리는 모델을 사용하여 관찰된 데이터를 생성하는 프로세스를 설명합니다. 예를 들어, 고객이 서비스 구독을 취소할 수 있는지 (크런 모델링이라고 함) 분류하기 위해 랜덤 포리스트 모델을 사용하거나 광고에 얼마나 지출할 수 있는지에 따라 회사의 수익을 예측하기 위해 선형 모델을 사용할 수 있습니다(선형 회귀의 예가 될 수 있음). 각 모델에는 모델의 모양을 정의하는 고유한 매개 변수 집합이 포함되어 있습니다.
선형 모델의 경우 y = mx + c로 쓸 수 있습니다. 이 예제에서 x는 광고 지출을 나타낼 수 있고 y는 생성된 수익일 수 있습니다. m과 c는 이 모델의 모수입니다. 이러한 매개 변수에 대한 다른 값은 다른 선을 제공합니다 (아래 그림 참조).
따라서 매개 변수는 모델의 청사진을 정의합니다. 주어진 현상을 설명하는 모델에 대한 인스턴스화를 얻는 것은 매개 변수에 대해 특정 값을 선택하는 경우에만 가능합니다.
최대우도 추정에 대한 직관적 설명
최대 우도 추정은 모델의 모수 값을 결정하는 방법입니다. 모수 값은 모델에 의해 설명된 프로세스가 실제로 관찰된 데이터를 생성할 가능성을 최대화하도록 발견됩니다.
위의 정의는 여전히 약간 수수께끼처럼 들릴 수 있으므로 이를 이해하는데 도움이 되는 예를 들어 봅시다.
어떤 과정에서 10개의 데이터 포인트를 관찰했다고 가정해봅시다. 예를 들어, 각 데이터 포인트는 학생이 특정 시험 질문에 답하는 데 걸리는 시간의 초를 나타낼 수 있습니다. 아래 그림에 이 10개의 데이터 점이 표시됩니다.
먼저 데이터를 생성하는 과정을 가장 잘 설명하는 모델을 결정해야 합니다. 이 부분은 매우 중요합니다. 적어도 어떤 모델을 사용할지에 대해서는 좋은 생각이 있어야 합니다. 이것은 보통 도메인 전문지식을 가지고 있어야 하지만, 우리는 여기서 이 문제에 대해 논의하지 않을 것입니다.
이 데이터의 경우 데이터 생성 프로세스가 가우시안(정상) 분포로 적절하게 설명될 수 있다고 가정할 것이다. 위의 그림에 대한 육안 검사는 10 점의 대부분이 왼쪽과 오른쪽에 흩어져있는 소수의 점으로 가운데에 클러스터되기 때문에 가우시안 분포가 그럴듯하다는 것을 암시합니다. (단지 10개의 데이터 포인트로 이런 종류의 결정을 즉시 내리는 것은 잘못된 생각이지만, 이런 데이터 포인트를 생성했으므로 이를 따라갈 것입니다.)
가우시안 분포에는 두 개의 모수가 있다는 것을 상기하십시오. 평균, μ, 표준 편차, σ. 이러한 매개 변수의 값이 다르면 다른 곡선이 생깁니다 (위의 직선과 마찬가지로). 우리는 어떤 곡선이 우리가 관찰한 데이터 포인트를 만드는 가장 큰 역할을 했는지 알고 싶습니다. (아래 그림 참조). 최대 우도 추정은 데이터에 가장 적합한 곡선을 가져 오는 μ와 σ의 값을 찾는 방법입니다.
데이터가 생성 된 실제 분포는 f1 ~ N(10, 2.25)로 위의 그림의 파란색 곡선입니다.
최대 우도 추정치 계산
이제 우리는 최대 우도 추정이 무엇인지 직관적으로 이해하므로 매개 변수 값을 계산하는 방법을 배울 수 있습니다. 우리가 찾는 값을 최대 우도 추정치 (MLE)라고 합니다.
다시 한 번 예를 들어보겠습니다. 이번에 세 개의 데이터 포인트가 있으며 가우시안 분포에 의해 적절하게 설명된 프로세스에서 생성되었다고 가정합니다. 이 점수는 9, 9.5, 11입니다. 가우시안 분포 μ와 σ의 모수 값에 대한 최대 우도 추정치를 어떻게 계산할 수 있습니까?
우리가 계산하고자하는 것은 모든 데이터를 관찰 할 수 있는 총 확률, 즉. 관측된 모든 데이터 점의 결합 확률 분포입니다. 이를 위해서는 조건부 확률을 계산해야하며, 이는 매우 어려울 수 있습니다. 그러므로 우리는 첫 번째 가정을 할 것입니다. 각 데이터 포인트는 다른 데이터 포인트와 독립적으로 생성된다는 가정입니다. 이 가정은 수학을 훨씬 쉽게 만든다. 이벤트 (데이터를 생성하는 프로세스)는 독립적이며, 모든 데이터를 관찰 할 수있는 총 확률은 각 데이터 포인트를 개별적으로 관찰 한 결과입니다 (즉, 한계 확률의 산물).
가우시안 분포로부터 생성 된 단일 데이터 점 x를 관찰 할 수있는 (한계) 확률은 다음과 같습니다.
표기법 P(x; μ, σ)에 사용 된 세미콜론은 그 뒤에 나타나는 기호가 확률 분포의 매개 변수임을 강조하기 위해 있습니다. 따라서 조건부 확률 (일반적으로 P(A | B) 와 같이 수직선으로 표현됨)과 혼동되어서는 안됩니다.
이 예에서 세 가지 데이터 포인트를 관찰하는 총 (결합) 확률은 다음과 같습니다.
우리는 위의 표현식의 최대 값을 제공하는 μ와 σ의 값을 알아 내야합니다.
수학 수업에서 미적분을 다루었다면, 함수의 최대(그리고 최소)를 찾는 데 도움이 되는 기술이 있다는 것을 알 것입니다. 이를 미분 이라고 합니다. 우리가 해야 할 일은 함수의 미분을 찾아 미분 함수를 0으로 설정한 다음 방정식을 재 배열하여 관심있는 매개 변수를 방정식의 주제로 만드는 것입니다. 그리고 우리는 매개 변수에 대한 MLE 값을 가질 것입니다. 나는 이제 이 단계들을 밟겠지만, 독자는 공통의 기능을 차별화하는 방법을 알고 있다고 가정할 것입니다. 좀 더 상세한 설명을 원하신다면, 의견을 알려주세요.
로그 우도
위의 전체 확률 표현식은 실제로 구별하기가 꽤 어렵기 때문에 표현식의 자연 로그를 취함으로써 거의 항상 단순화를 합니다. 자연 로그는 단조롭게 증가하는 함수이기 때문에 확실히 좋습니다. 즉, x 축의 값이 증가하면 y 축의 값도 증가합니다 (아래 그림 참조). 확률 로그의 최대 값이 원래 확률 함수와 동일한 지점에서 발생하도록 보장하기 때문에 중요합니다. 그러므로 우리는 원래의 우도 대신에 더 단순한 로그 우도를 가지고 작업 할 수 있습니다.
원래 표현식의 로그를 가져 가면 다음과 같습니다.
이 표현식은 로그의 법칙을 사용하여 다음을 얻기 위해 다시 단순화할 수 있습니다.
이 식은 최대값을 구분할 수 있습니다. 이 예에서 우리는 평균의 MLE를 찾을 것입니다. 이를 위해 우리는 함수의 부분 미분을 μ에 대해 취합니다.
마지막으로 방정식의 왼쪽을 0으로 설정한 다음 μ를 재배치하면 다음과 같습니다.
그리고 우리는 μ에 대한 최대 우도 추정치를 가지고 있습니다. 우리는 σ로도 같은 일을 할 수 있지만 예리한 독자를 위해 남겨 둘 것입니다.
결론적인 발언
최대 우도 추정은 항상 정확한 방식으로 해결 될 수 있습니까?
아니요는 짧은 답입니다. 실제 시나리오에서 로그 우도 함수의 파생물은 여전히 분석적으로 다루기 어려울 가능성이 더 큽니다 (즉, 수작업으로 그 기능을 구분하는 것은 너무 어렵거나 불가능합니다.) 따라서 기대값 최대화(Expectation-Maximization) 알고리즘
그렇다면 왜 최대 우도이고 최대 확률이 아닌가?
이것은 통계학자들이 현명하게 행동하는 것입니다(좋은 이유에서). 대부분의 사람들은 확률과 우도를 서로 바꿔서 사용하는 경향이 있지만 통계 학자와 확률 이론가는 이 둘을 구별합니다. 혼란의 이유는 방정식을 보는 것이 가장 좋습니다.
이 표현들은 동일합니다! 그렇다면 이것이 무엇을 의미하는가? 먼저 P(data; μ, σ)를 정의해보겠습니다. 그것은 "모델 매개 변수 μ와 σ로 데이터를 관찰할 확률"을 의미합니다. 우리가 이것을 여러 변수와 분포에 일반화할 수 있다는 점은 주목할 가치가 있습니다.
반면에 L(μ, σ; data)은 "우리가 많은 데이터를 관찰했다는 점을 감안할 때 특정 값을 취하는 매개 변수 μ와 σ의 가능성"을 의미합니다.
위의 방정식은 주어진 데이터의 확률이 주어진 매개 변수의 확률과 같다고 말합니다. 하지만 이 두 가지가 동일함에도 불구하고, 우도와 확률은 근본적으로 다른 질문을 하고 있습니다. 하나는 데이터에 대해 묻고 다른 하나는 매개 변수 값에 대해 묻습니다. 이것이 메서드를 최대 우도라고하고 최대 확률이라고 부르는 이유입니다.
최소 제곱은 최대 우도 추정과 동일합니까?
최소 제곱 최소화는 기계 학습에서 모델의 매개 변수 값을 추정하는 또 다른 일반적인 방법입니다. 위의 예에서와 같이 모델이 가우스로 가정 될 때 MLE 추정치는 최소 제곱법과 동일합니다. 보다 심층적인 수학 파생을 위해서는 이 슬라이드를 확인하십시오.
직관적으로 우리는 두 가지 방법 간의 연결을 그들의 목표를 이해함으로써 해석할 수 있습니다. 최소 제곱 모수 추정의 경우 데이터 점과 회귀선 사이의 총 제곱 거리를 최소화하는 선을 찾고자합니다 (아래 그림 참조). 최대 우도 추정에서 우리는 데이터의 총 확률을 최대화하고자합니다. 가우시안 분포를 가정하면 데이터 점이 평균값에 더 가까워지므로 최대 확률이 발견됩니다. 가우시안 분포는 대칭이므로 데이터 점과 평균값 사이의 거리를 최소화하는 것과 같습니다.
만약 뭔가 불분명한 것이 있거나, 내가 몇 가지 실수를 저질렀다면, 의견을 남겨 주세요. 다음 포스트에서 나는 베이지안 추론과 그것이 매개 변수 추정에 어떻게 사용될 수 있는지를 다룰 계획입니다.
읽어주셔서 감사합니다.
반응형'MACHINE LEARNING' 카테고리의 다른 글
법률문서의 주제 모델링과 요약을 위한 NLP (0) 2018.02.02 확률 개념 설명 : 매개 변수 추정에 대한 베이지안 추론 (0) 2018.01.18 확률 개념 설명 : 소개 (0) 2018.01.16 Scikit-Learn을 활용한 가짜 뉴스 탐지 (0) 2018.01.06 워크프레임 활용하면 누구나 AI기업 (0) 2017.11.19