일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 리액트
- 프론트엔드
- LDA
- docker
- 타입스크립트
- 최적화
- Machine Learning
- do it
- 빅쿼리
- 대감집
- DBSCAN
- Kubernetes
- TooBigToInnovate
- 심층신경망
- 머신러닝
- frontend
- 파이썬
- 캐글
- python
- r
- ADP 실기
- Kaggle
- 대감집 체험기
- 클러스터링
- 쿠버네티스
- 차원 축소
- 구글
- bigquery
- ADP
- React
- Today
- Total
목록ADP 실기 (11)
No Story, No Ecstasy
1. Hierarchical Clustering (계층적 군집분석) - 유사한 데이터들을 거리 기반으로 점진적으로 병합(bottom-up)하거나 분할(top-down)하는 계층 기법 - 단계를 거칠 때마다 그룹의 개수가 단조적으로 증가/감소하기 때문에 그룹 형성 과정을 계층적으로 표현할 수 있다. - 데이터 연결 방법: 최단연결법, 최장연결법, 평균연결법, 와드연결법 - R 코드 예제 # 0. 별도의 package import 필요 없음 # 1. 데이터 간 거리 구하기 ## - 거리: euclidean, maximum, manhattan, canberra, binary, minkowski ha.dist = dist(data, method = "euclidean") # 2. 계층적 군집분석 수행 ## - ..
0. 차원 축소 - Feature 수를 크게 줄이는 것으로, 모델의 훈련 속도를 높이거나 데이터 시각화를 위해 사용된다. - Feature 수가 늘어날수록 샘플의 밀도는 기하급수적으로 낮아진다. (=과대 적합 위험이 커진다.) - 투영과 매니폴드 학습 접근법 - 투영: 저차원 부분공간(평면)에 놓여 있다고 가정하여, 저차원으로 투영시키는 것 - 매니폴드 학습: 휘어지거나 뒤틀린 저차원 공간에 놓여있다고 가정하여 매니폴드 공간을 찾는 것 1. PCA (Principal Component Analysis) - 저차원의 초평면에 훈련 세트를 투영시키는 차원 축소 알고리즘이다. - 분산이 최대로 보존되는 축(원본 데이터 셋과 투영된 것 사이의 평균제곱거리를 최소화)을 찾아야 한다. - 주성분은 특잇값 분해(SV..
1. 결측치 처리 - R 코드 예제 # 1. na 개수 sum(is.na(data)) # 2. na가 있는지 확인 complete.cases(data) # 3. 결측치 처리 data$col1 = ifelse(is.na(data$col1), mean(data$col1, na.rm=T), data$col1) library(DMwR) # ***꼭 data.frame을 넣어야 한다. data = centralImputation(data) # na를 median으로 대체 data = centralValue(data) # 숫자는 중앙값, facor는 최빈값으로 대체 2. 이상치 확인 - R 코드 예제 # 1. 사분위수 quantile(data, prob = seq(0, 1, 0.25), na.rm = F) quan..