일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 캐글
- ADP 실기
- 차원 축소
- 머신러닝
- frontend
- do it
- TooBigToInnovate
- 리액트
- 클러스터링
- 대감집 체험기
- Machine Learning
- 심층신경망
- docker
- 빅쿼리
- 최적화
- 프론트엔드
- python
- 구글
- DBSCAN
- 쿠버네티스
- bigquery
- ADP
- r
- LDA
- 타입스크립트
- Kubernetes
- Kaggle
- 파이썬
- 대감집
- React
- Today
- Total
목록Data Science Series (27)
No Story, No Ecstasy
http://www.yes24.com/Product/Goods/95562895 구글 빅쿼리 완벽 가이드 - YES24 빅데이터, 데이터 엔지니어링, 머신러닝을 위한 대용량 데이터 분석과 처리의 모든 것협업과 신속함을 갖춘 작업 공간을 구축하는 동시에 페타바이트 규모의 데이터셋을 처리해보자. 이 책은 www.yes24.com * '구글 빅쿼리 완벽 가이드' 내용 중 일부를 정리한 글입니다. 네트워크 오버헤드 최소화하기 GCP 외부에서 빅쿼리를 호출한다면, 네트워크 토폴로지를 고려하고, 클라이언트 머신과 데이터셋을 생성한 GCP 데이터센터 사이에 네트워크 경로를 최대한 단축한다. 압축한 부분 응답 REST API를 직접 호출할 때 압축한 부분 응답을 승인해 네트워크 오버헤드를 최소화할 수 있다. 압축한 응답..
http://www.yes24.com/Product/Goods/95562895 구글 빅쿼리 완벽 가이드 - YES24 빅데이터, 데이터 엔지니어링, 머신러닝을 위한 대용량 데이터 분석과 처리의 모든 것협업과 신속함을 갖춘 작업 공간을 구축하는 동시에 페타바이트 규모의 데이터셋을 처리해보자. 이 책은 www.yes24.com * '구글 빅쿼리 완벽 가이드' 내용 중 일부를 정리한 글입니다. I/O 최소화 간단한 쿼리의 오버헤드 대부분은 연산이 아니라 I/O에 의해서 발생한다. 1. SELECT의 대상을 명확히 하기 ("SELECT *"의 사용을 최대한 피하고, 가능한 최소한의 컬럼만 참조) 2. 만약 거의 모든 컬럼이 필요하다면, 차라리 "SELECT * EXCEPT" 문법을 통해 불필요한 컬럼을 제거한다..
이항분포 (Binomial) - 성공확률이 p인 베르누이시행을 n번 반복시행할 때 성공횟수를 나타내는 확률 변수 X의 분포 베타분포 (Beta) - 두 매개변수 a and b에 대해 [0,1]에서 정의되는 연속확률분포들의 가족을 가리킨다. - 대표적으로 이항분포의 성공률 p를 추정할 때 사용한다. - 기댓값 = a / (a+b) - 최빈값 = (a-1) / (a+b-2) 감마분포 (Gamma) - 확률변수 X가 a번째 사건이 일어날 때까지 걸리는 시간일 때, X의 분포를 감마분포라고 한다. - [0, 무한대]에서 정의되는 값을 추정하는데 사용된다. - 람다는 지수분포에서 단위 시간당 발생하는 사건 평균 건수를 의미한다. - a=1, 람다=1/b일 때, 지수분포라고 할 수 있다. (즉, 1번의 사건이 발생..
https://towardsdatascience.com/data-science-for-ad-segments-moving-beyond-look-alike-modeling-fc0b97ed8bb6 Data Science for Ad Segments : Moving Beyond Look-Alike Modeling Segment Classification, Conversion Predictions, and Uplift Modeling towardsdatascience.com Look Alike Segment? - 주어진 유저 셋과 가장 유사하게 '보이는' 청중을 찾는 기법 - 보통 2개의 정보를 필요로 한다 1. Seed Set 2. Segment Size Limitation? - PU learning과 같은 s..
Attention 메커니즘이란? . 딥러닝 모델이 특정 벡터에 주목하게 만들어 모델의 성능을 높이는 기법 . RNN에서 인코더가 입력을 벡터로 압축시 일부 정보가 손실되는 것을 보정하는 용도로 활용 . Transformer에서는 인코더와 디코더를 만드는데 직접적으로 사용됨 Attention 개발 동기 . 기계번역을 위한 Sequence-to-sequence 모델에서, 모델의 정확도를 높이기 위해 제안됨 . 소스 랭귀지와 타겟 랭귀지의 길이가 길어질수록 모델의 성능이 나빠진다. . 모델로 하여금 '중요한 부분만 집중하게 만들자'가 어텐션 메커니즘의 핵심 아이디어 Attention 핵심 아이디어 . 기본 가정: 인코더가 만든 벡터와 디코더가 예측시 사용하는 벡터가 유사할 것이다. . Q (query), K ..
1. Transformer . 자연어 처리 분야에서 기존 RNN 계열의 모델들이 갖고 있던 문제를 해결해줌 . 기존의 순차적인 연산에서 벗어나 병렬처리가 가능한 모델로 우수한 성능을 보임 . Multi-head self-attention을 이용해 순차적 연산을 줄이고, 더 많은 단어들 간 dependency를 모델링하는 게 핵심 . 대표적인 모델이 BERT (Bidirectional Encoder Representations from Transformers) . 2020년에는 기존 GPT 모델의 크기를 비약적으로 키운 GPT-3가 등장 . BERT와 달리 GPT-3는 디코더 기반 fine-tuning이 필요 없음 . Few-Shot Learning만으로도 응용 태스크에서 우수한 성능을 달성함 2. 기계번..
오토인코더 . 레이블되어 있지 않은 훈련 데이터를 사용해서 입력 데이터의 효율적인 표현인 코딩을 학습할 수 있는 인공 신경망 . 일반적으로 출력이 입력보다 훨씬 낮은 차원을 가지므로 차원 축소에도 유용하게 사용됨 . 더 중요한 점은 강력한 특성 추출기로 활용할 수도 있다는 것 . 훈련 데이터와 매우 비슷한 새로운 데이터를 생성할 수 있다. (Generative Model) . 대표적인 방법 1. 은닉층의 뉴런 수를 입력층보다 적게 제한한다 2. 입력에 잡음을 추가한 후 원본 입력을 복원할 수 있도록 네트워크를 훈련시킨다. -> 단순히 입력을 바로 출력으로 복사하지 못하게 막고, 데이터를 효율적으로 표현하는 방법을 배우도록 강제시킴 . 항상 입력을 내부 표현으로 바꾸는 인코더와 내부 표현을 출력으로 바꾸는..
1. Vanishing Gradient (or exploding gradient) 문제 해결 - Vanishing Gradient란? . 알고리즘이 하위층으로 진행될수록 그래디언트는 점점 작아지게 된다(연쇄적으로 계산하기 때문). . 어떤 경우에는 특정 층의 가중치가 비정상적으로 커져서, 알고리즘이 발산할 수도 있다. (예: RNN) . 심층 신경망이 오랫동안 방치되었던 이유 중 하나 - 중요한 발견: 로지스틱 시그모이드 함수와 표준정규분포를 사용한 가중치 무작위 초기화의 문제 . 이 조합으로 훈련 시, 각 층에서 출력의 분산이 입력의 분산보다 크다는 것을 발견 . 신경망의 위쪽으로 갈수록 분산이 계속 커져 가장 높은 층에서는 활성화 함수가 0이나 1로 수렴 . 로지스틱 함수의 평균이 0.5라는 사실 때..