최대 가능도 추정

모델의 차수를 찾은 다음(즉, p,d,q 값), 다음과 같은 매개변수  , 

R에서 ARIMA 모델을 계산시, MLE를 사용한다. 이 방법은 관찰한 데이터를 얻는 확률을 최대화하는 매개변수의 값을 찾는다. 

다음은 수리통계학에서 나오는 정의이다.

가능도함수
최대가능도 추정량

ARIMA 모델에서 MLE는 다음과 같은 양을 최소화하는 최소제곱(least squares)추정과 비슷하다.

ARIMA 모델이 회귀 모델을 추정하는 것보다 훨씬 더 복잡하고, 서로 다른 소프트웨어가 서로 다른 추정 기법과 최적화 알고리즘을 사용하기 때문에 살짝 다른 결과를 낼 수 있다는 것에 주목하자.

 

실제로, R은 데이터의 로그 가능도(log likelihood) 값을 알려줄 것이다. 즉, 추정한 모델에서 나온ㄱ ㅘㄴ측 데이터의 확률의 로그를 말한다. 다음은 수리통계학에서 나오는 log likelihood 이다.

로그 가능도함수

정보 기준

회귀에서 예측변수(predict)를 선택할 때 유용했던 아카이케(Akaike)의 정보 기준이 ARIMA 모델에서 차수를 결정할 때도 유용하다.

AIC는 다음과 같이 쓸 수 있다.

위에서 L은 데이터의 가능도, c is not 0 이면 k=1이고, c is 0 이면 k=0이다. 괄호 안의 마지막 항이 (σ^2와 잔차(residual)의 분산을 포함하는) 모델의 매개변수 개수라는 것에 주목하자.

 

ARIMA 모델에 대해, 수정된 AIC는 다음과 같다.

또한 베이지안 정보 기준은 다음과 같이 쓸 수 있다.

AIC,AICc 혹은 BIC를 최소화하여 좋은 모델을 얻을 수 있다. 여기서는 AICc를 사용한다.

 

이러한 정보 기준이 모델의 적절한 차분 차수(d)를 고를 때 별로 도움이 되지 않는 경향이 있고, p와 q값을 고를 때만 도움이 된다는 것은 중요한 점이다. 차분을 구하는 것을 통해 likelihood를 계산하는 데이터가 바뀌기 때문에, 서로 다른 차수로 차분을 구한 모델의 AIC 값을 비교할 수 없게 된다. 그렇기에 d를 고르기 위해 다른 방법을 사용해야 하고, 그 후 p와 q를 고르기 위해 AICc를 사용할 수 있다.

 

 

 

 

[출처:otexts.com/fppkr/arima-estimation.html]

+ Recent posts