No Story, No Ecstasy

[ADP 실기 with R] 10. 시계열 분석 (Time Series Analysis) 본문

Data Science Series

[ADP 실기 with R] 10. 시계열 분석 (Time Series Analysis)

heave_17 2020. 12. 12. 17:23

https://images.app.goo.gl/Z2NcBcXX3URVRosq5

 

0. 날짜 데이터 다루기

  - 문자열 <-> 날짜 형식 변환하기

  - R 코드 예제

# String to Date
as.Date("20200101", format = "%Y%m%d")

# Date to String
format(now, "%y-%m-%d %H:%M:%S")

# 단순 덧셈은 day
Sys.Date() + 100 #100일 증가

# 날짜수 차이만 구하고 싶으면 numeric으로 변환
as.numeric(as.Date("1991-01-01") - as.Date("1990-01-01"))

  - 날짜 형식

    - %Y: 년(4자리), %y: 년(2자리), %m:  월(2자리), %d:  일(2자리)

    - %B: 월(June), %b: 월(Jun), %A: 요일(Friday), %a: 요일(Fri),  %u: 요일(1, 월요일)

    - %H: 시간(2자리), %M: 분(2자리), %S: 초(2자리)

 

1. 시계열 분석

  - 정상성

    (1) 평균 일정 (차분을 통해 정상화): diff(data)

    (2) 분산 일정 (변환을 통해 정상화): log(data)

    (3) 공분산은 t, s와 독립 (시차에만 의존)

  - 모형

    - 자기상관함수(ACF): k 기간 떨어진 값들과의 상관관계

    - 부분자기상관함수(PACF): ACF에서 중간 값들의 영향을 제거한 상관관계

    - 자기회귀(AR) 모형: ACF는 빠르게 감소, PACF는 특정 시점에 절단점을 가짐

    - 이동평균(MA) 모형: ACF는 특정 시점에 절단점을 가짐, PACF는 빠르게 감소

    - 자기회귀누적이동평균모형, ARIMA(p, d, q): d번 차분하면 AR(p) & MA(q) 모형으로 정상화됨

  * 왜 AR은 PACF에서, MA는 ACF에서 절단점을 갖는가?

    - AR: 이전 시점까지의 관측값이 모델에 반영 O > ACF가 시점에 따라 크게 달라지지 않기에 점진적으로 감소

    - MA: 이전 시점까지의 관측값이 모델에 반영 X > PACF가 시점에 따라 크게 달라지지 않기에 점진적으로 감소

  - 유용한 링크

    - yamalab.tistory.com/112

 

시계열 분석 이론의 기초

시계열 분석은 크게 규칙적 시계열 분석과 불규칙적 시계열 분석으로 나뉜다. 여기서 규칙적 시계열이란 트렌드와 분산이 불변하는 시계열 데이터를 말하고, 불규칙적 시계열이란 트렌드 혹은

yamalab.tistory.com

    - woosa7.github.io/R-%EC%8B%9C%EA%B3%84%EC%97%B4%EB%B6%84%EC%84%9D-Time-Series-ARIMA/

 

R 시계열분석 Time Series ARIMA

 

woosa7.github.io