No Story, No Ecstasy

Encoding Categorical Data 본문

Versus (vs) Series

Encoding Categorical Data

heave_17 2021. 3. 12. 23:09

1. One-hot Encoding

Categorical data의 각 값을 하나의 bit로 나타내는 방법이다. 각 비트가 하나의 feature가 되며, k개의 범주를 가진 categorical data는 길이 k를 갖는 피처 벡터로 표현된다. 이 방법은 선형 종속성을 가진다(k feature의 합이 1).

 

2. Dummy Coding, Effect Coding

Dummy Coding k-1개의 feature k개 범주의 categorical data를 표현한다(선형 종속성 제거). 하나의 피처가 책임을 지고 모든 요소가 0인 벡터로 표현된다.

Effect Coding Dummy Coding과 매우 비슷하지만, (모든 feature 값이 0) 기준 범주가 모두 -1의 벡터로 표현된다. 선형 회귀 모델을 활용할 경우 결과의 해석이 용이하고, 누락 데이터를 쉽게 처리할 수 있다.

 

3. Feature Hashing

이름 그대로 Hash 함수를 활용해서 여러 개의 key (feature)를 정해진 차원의 feature 벡터로 표현하는 방법이다. 일반적으로 feature의 개수가 너무 많아서 모든 feature의 저장/활용이 힘들 때 피처의 개수를 압축하는 방법이다.

 

4. Bin Counting

피처의 값을 사용하는 대신, 그 값일 때 목표 변수에 대한 조건부 확률을 사용한다. , 과거 데이터를 바탕으로 확률 계산이 가능해야 한다. 예를 들면 특정 광고 클릭 횟수 대신 클릭 확률을 사용하거나 오즈비를 사용할 수도 있다.

'Versus (vs) Series' 카테고리의 다른 글

Regex (정규표현식) vs contains / find / in  (0) 2021.01.04