일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- LDA
- ADP 실기
- do it
- 파이썬
- 대감집 체험기
- 리액트
- 쿠버네티스
- 머신러닝
- ADP
- Kaggle
- python
- 캐글
- 심층신경망
- frontend
- 클러스터링
- 대감집
- 빅쿼리
- r
- Machine Learning
- docker
- 타입스크립트
- 최적화
- 차원 축소
- React
- Kubernetes
- 구글
- 프론트엔드
- bigquery
- DBSCAN
- TooBigToInnovate
- Today
- Total
목록ADP 실기 (11)
No Story, No Ecstasy
0. 문자열(String) 전처리 - R 코드 예제 # 문자형 변환 as.character(data) # String 합체 paste(string1, string2) # default sep = " " paste0(string1, string2) # default sep = "" paste(string1, string2, sep = "", collapse = ".") #collapse 기준으로 하나의 문자열로 합체 # 개수 세기 nchar(x) # 여러 벡터 간 관계 파악 union(strings1, strings2) # 합집합 intersect(strings1, strings2) # 교집합 # substring 추출 substr(string, start, stop) substring(string, st..
0. 날짜 데이터 다루기 - 문자열 날짜 형식 변환하기 - R 코드 예제 # String to Date as.Date("20200101", format = "%Y%m%d") # Date to String format(now, "%y-%m-%d %H:%M:%S") # 단순 덧셈은 day Sys.Date() + 100 #100일 증가 # 날짜수 차이만 구하고 싶으면 numeric으로 변환 as.numeric(as.Date("1991-01-01") - as.Date("1990-01-01")) - 날짜 형식 - %Y: 년(4자리), %y: 년(2자리), %m: 월(2자리), %d: 일(2자리) - %B: 월(June), %b: 월(Jun), %A: 요일(Friday), %a: 요일(Fri), %u: 요일(1, ..
0. 연관분석 - 트랜잭션 데이터로부터 항목 간 연관 관계를 발견하는 분석 기법 - 데이터의 발생빈도와 조건부 확률을 활용하여 특정 항목 X와 Y가 서로 얼마나 큰 영향을 미치는지 분석 - 결과 해석이 용이하고 사용이 편리하나, 항목 수가 증가함에 따라 계산 수가 기하급수적으로 늘어나는 것이 단점 - 계산 속도를 줄이기 위한 알고리즘들이 개발되고 있다. - 지지도: 전체 거래 중 A가 포함된 비율 - 신뢰도: A가 포함된 거래 중 A, B가 동시에 포함된 비율 - 향상도: (A 포함 X and B) 대비 (A 포함 O and B) 확률 증가 비 (Lift = 1: A와 B가 서로 독립) 1. Apriori - 특정 집합의 지지도가 낮다면(infrequent), 그 집합을 포함하는 모든 집합들(supers..
1. Confusion Matrix - F1 score: 2 x Precision x Recall / (Precision + Recall) = 2 / (1/Precision + 1/Recall) - Accuracy는 imbalanced data에서 부정확한 판단을 하게 될 수 있다 - Imbalanced data에 대한 성과 분석을 위해 precision과 Recall을 사용하는 것이 F1 score다. - F1 score는 두 지표의 조화평균을 사용하여 모델을 평가한다. (조화평균은 두 값이 비슷할 경우 높은 값을 가짐) - 잘 정리된 링크: 89douner.tistory.com/174 12. Precision, Recall, F1 score (Feat. TP, FP, FN, TN) 안녕하세요 이번글에..
1. Neural Networks - 퍼셉트론: 각 노드의 입력치*가중치의 합과 활성 함수에 의하여 해당 노드의 활성화 여부가 결정되는 간단한 feedforward 인공 신경망 - 다층 퍼셉트론과 역전파 - 입력층, 은닉층, 출력층으로 구성된 인공 신경망을 다층 퍼셉트론, 은닉층이 2개 이상일 때 심층 신경망이라고 표현 - 역전파 알고리즘은 네트워크의 출력 오차에 각 뉴런이 얼마나 기여했는지를 마지막 은닉층부터 측정하여, 이전 은닉층의 뉴런은 얼마나 기여했는지 입력층에 도달할 때까지 계속 측정하는 것을 의미한다. - 이렇게 역방향으로 계산한 오차 그래디언트를 네트워크의 모든 연결 가중치에 반영한다(경사 하강법). - 역전파 알고리즘을 위한 대표적 활성화 함수: 로지스틱, 하이퍼볼릭 탄젠트, ReLU 함수..
0. Ensemble - 주어진 데이터로부터 여러 개의 예측 모형들을 만든 후 조합하여 하나의 최종 예측 모형을 만드는 기법 1. Bagging - Bootstrap을 활용하여 여러개의 예측모형을 만든 후 결합하여 최종 예측 모형을 만드는 기법 - 여러 예측 모형들의 Voting을 통한 다수결로 분류 결과를 결정한다. - R 코드 예제 # 0. package import library(adabag) # 1. bagging 모델 생성 ## - mfinal: the number of trees to use (= the number of iterations for which bootstrapping is run) bg.model = bagging(y~., train_data, mfinal = 15, contr..
1. Logistic Regression (로지스틱 회귀분석) - 종속 변수가 범주형(category, factor)인 (주로 binomial인) 경우에 적용되는 로지스틱 함수를 활용한 기법 - 종속 변수의 각 레벨이 속할 확률을 추정하여, 기준치에 따라 분류한다. - 최대 우도 추정법을 활용하여 모델의 계수를 추정한다. - 종속 변수의 레벨이 3개 이상인 경우에는 Multinomial Logistic Regression을 적용하면 된다. - 링크 1: datasciencebeginners.com/2018/12/20/multinomial-logistic-regression-using-r/ Multinomial Logistic Regression Using R | Data Science Beginners ..
1. Correlation Analysis, 상관 분석 - 두 변수 간 상관관계를 통계적으로 알기 위한 통계분석 방법 (* 인과관계가 아님) - 상관계수 3종류 (1) Pearson: 두 변수가 모두 정규분포를 따를 시 선형적인 상관관계의 크기를 모수적 방법으로 나타냄 (2) Spearman: 정규분포가 아닌 연속형 변수 or 순서형 변수일 경우, 순위 상관관계의 크기를 비모수적으로 나타냄 (데이터 내 편차와 에러에 민감, 보통 Kendall보다 높음) (3) Kendall: 변수 간 순위의 일치도가 비슷한 정도를 나타냄 (샘플 사이즈가 적거나, 데이터 동률이 많을 때 유용) - R 코드 예제 # 1. 상관 계수 결정을 위한 정규성 검정 shapiro.test(data) # 2. 상관 분석 수행 ## -..