일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 클러스터링
- ADP 실기
- 머신러닝
- python
- 심층신경망
- 구글
- LDA
- bigquery
- r
- 캐글
- 타입스크립트
- DBSCAN
- 최적화
- 빅쿼리
- 리액트
- do it
- 프론트엔드
- Kaggle
- 대감집
- 쿠버네티스
- ADP
- Kubernetes
- Machine Learning
- React
- 차원 축소
- frontend
- 대감집 체험기
- TooBigToInnovate
- 파이썬
- docker
- Today
- Total
No Story, No Ecstasy
[ADP 실기 with R] 10. 시계열 분석 (Time Series Analysis) 본문
0. 날짜 데이터 다루기
- 문자열 <-> 날짜 형식 변환하기
- R 코드 예제
# String to Date
as.Date("20200101", format = "%Y%m%d")
# Date to String
format(now, "%y-%m-%d %H:%M:%S")
# 단순 덧셈은 day
Sys.Date() + 100 #100일 증가
# 날짜수 차이만 구하고 싶으면 numeric으로 변환
as.numeric(as.Date("1991-01-01") - as.Date("1990-01-01"))
- 날짜 형식
- %Y: 년(4자리), %y: 년(2자리), %m: 월(2자리), %d: 일(2자리)
- %B: 월(June), %b: 월(Jun), %A: 요일(Friday), %a: 요일(Fri), %u: 요일(1, 월요일)
- %H: 시간(2자리), %M: 분(2자리), %S: 초(2자리)
1. 시계열 분석
- 정상성
(1) 평균 일정 (차분을 통해 정상화): diff(data)
(2) 분산 일정 (변환을 통해 정상화): log(data)
(3) 공분산은 t, s와 독립 (시차에만 의존)
- 모형
- 자기상관함수(ACF): k 기간 떨어진 값들과의 상관관계
- 부분자기상관함수(PACF): ACF에서 중간 값들의 영향을 제거한 상관관계
- 자기회귀(AR) 모형: ACF는 빠르게 감소, PACF는 특정 시점에 절단점을 가짐
- 이동평균(MA) 모형: ACF는 특정 시점에 절단점을 가짐, PACF는 빠르게 감소
- 자기회귀누적이동평균모형, ARIMA(p, d, q): d번 차분하면 AR(p) & MA(q) 모형으로 정상화됨
* 왜 AR은 PACF에서, MA는 ACF에서 절단점을 갖는가?
- AR: 이전 시점까지의 관측값이 모델에 반영 O > ACF가 시점에 따라 크게 달라지지 않기에 점진적으로 감소
- MA: 이전 시점까지의 관측값이 모델에 반영 X > PACF가 시점에 따라 크게 달라지지 않기에 점진적으로 감소
- 유용한 링크
- woosa7.github.io/R-%EC%8B%9C%EA%B3%84%EC%97%B4%EB%B6%84%EC%84%9D-Time-Series-ARIMA/
'Data Science Series' 카테고리의 다른 글
[Kaggle Intro to Machine Learning] Python basic code (0) | 2021.04.28 |
---|---|
[ADP 실기 with R] 11. 텍스트마이닝: 문자열 전처리, 한국어(KoNLP), 영어(SnowballC), SNA (0) | 2020.12.12 |
[ADP 실기 with R] 9. 연관분석: Apriori, FP-Growth (0) | 2020.12.12 |
[ADP 실기 with R] 8. 성과 분석: Confusion Matrix, ROC Curve, AUROC (0) | 2020.12.12 |
[ADP 실기 with R] 7. Neural Networks (0) | 2020.12.12 |