[ADP 실기 with R] 10. 시계열 분석 (Time Series Analysis)
0. 날짜 데이터 다루기
- 문자열 <-> 날짜 형식 변환하기
- R 코드 예제
# String to Date
as.Date("20200101", format = "%Y%m%d")
# Date to String
format(now, "%y-%m-%d %H:%M:%S")
# 단순 덧셈은 day
Sys.Date() + 100 #100일 증가
# 날짜수 차이만 구하고 싶으면 numeric으로 변환
as.numeric(as.Date("1991-01-01") - as.Date("1990-01-01"))
- 날짜 형식
- %Y: 년(4자리), %y: 년(2자리), %m: 월(2자리), %d: 일(2자리)
- %B: 월(June), %b: 월(Jun), %A: 요일(Friday), %a: 요일(Fri), %u: 요일(1, 월요일)
- %H: 시간(2자리), %M: 분(2자리), %S: 초(2자리)
1. 시계열 분석
- 정상성
(1) 평균 일정 (차분을 통해 정상화): diff(data)
(2) 분산 일정 (변환을 통해 정상화): log(data)
(3) 공분산은 t, s와 독립 (시차에만 의존)
- 모형
- 자기상관함수(ACF): k 기간 떨어진 값들과의 상관관계
- 부분자기상관함수(PACF): ACF에서 중간 값들의 영향을 제거한 상관관계
- 자기회귀(AR) 모형: ACF는 빠르게 감소, PACF는 특정 시점에 절단점을 가짐
- 이동평균(MA) 모형: ACF는 특정 시점에 절단점을 가짐, PACF는 빠르게 감소
- 자기회귀누적이동평균모형, ARIMA(p, d, q): d번 차분하면 AR(p) & MA(q) 모형으로 정상화됨
* 왜 AR은 PACF에서, MA는 ACF에서 절단점을 갖는가?
- AR: 이전 시점까지의 관측값이 모델에 반영 O > ACF가 시점에 따라 크게 달라지지 않기에 점진적으로 감소
- MA: 이전 시점까지의 관측값이 모델에 반영 X > PACF가 시점에 따라 크게 달라지지 않기에 점진적으로 감소
- 유용한 링크
시계열 분석 이론의 기초
시계열 분석은 크게 규칙적 시계열 분석과 불규칙적 시계열 분석으로 나뉜다. 여기서 규칙적 시계열이란 트렌드와 분산이 불변하는 시계열 데이터를 말하고, 불규칙적 시계열이란 트렌드 혹은
yamalab.tistory.com
- woosa7.github.io/R-%EC%8B%9C%EA%B3%84%EC%97%B4%EB%B6%84%EC%84%9D-Time-Series-ARIMA/
R 시계열분석 Time Series ARIMA
woosa7.github.io