Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- do it
- TooBigToInnovate
- 파이썬
- 타입스크립트
- 대감집
- 쿠버네티스
- 심층신경망
- 캐글
- bigquery
- 최적화
- 빅쿼리
- 프론트엔드
- 대감집 체험기
- LDA
- r
- DBSCAN
- ADP 실기
- frontend
- Kaggle
- 클러스터링
- Kubernetes
- ADP
- docker
- 구글
- 차원 축소
- python
- 머신러닝
- Machine Learning
- 리액트
- React
Archives
- Today
- Total
No Story, No Ecstasy
Encoding Categorical Data 본문
1. One-hot Encoding
Categorical data의 각 값을 하나의 bit로 나타내는 방법이다. 각 비트가 하나의 feature가 되며, k개의 범주를 가진 categorical data는 길이 k를 갖는 피처 벡터로 표현된다. 이 방법은 선형 종속성을 가진다(k개 feature의 합이 1).
2. Dummy Coding, Effect Coding
Dummy Coding은 k-1개의 feature로 k개 범주의 categorical data를 표현한다(선형 종속성 제거). 하나의 피처가 책임을 지고 모든 요소가 0인 벡터로 표현된다.
Effect Coding은 Dummy Coding과 매우 비슷하지만, (모든 feature 값이 0인) 기준 범주가 모두 -1의 벡터로 표현된다. 선형 회귀 모델을 활용할 경우 결과의 해석이 용이하고, 누락 데이터를 쉽게 처리할 수 있다.
3. Feature Hashing
이름 그대로 Hash 함수를 활용해서 여러 개의 key (feature)를 정해진 차원의 feature 벡터로 표현하는 방법이다. 일반적으로 feature의 개수가 너무 많아서 모든 feature의 저장/활용이 힘들 때 피처의 개수를 압축하는 방법이다.
4. Bin Counting
피처의 값을 사용하는 대신, 그 값일 때 목표 변수에 대한 조건부 확률을 사용한다. 즉, 과거 데이터를 바탕으로 확률 계산이 가능해야 한다. 예를 들면 특정 광고 클릭 횟수 대신 클릭 확률을 사용하거나 오즈비를 사용할 수도 있다.
'Versus (vs) Series' 카테고리의 다른 글
Regex (정규표현식) vs contains / find / in (0) | 2021.01.04 |
---|