일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 파이썬
- TooBigToInnovate
- 최적화
- bigquery
- 쿠버네티스
- python
- DBSCAN
- 구글
- 클러스터링
- 프론트엔드
- 빅쿼리
- LDA
- 심층신경망
- Kubernetes
- 대감집
- Kaggle
- 차원 축소
- Machine Learning
- do it
- ADP
- 머신러닝
- docker
- 대감집 체험기
- frontend
- r
- React
- ADP 실기
- 타입스크립트
- 캐글
- 리액트
- Today
- Total
목록전체 글 (71)
No Story, No Ecstasy
http://www.yes24.com/Product/Goods/95562895 구글 빅쿼리 완벽 가이드 - YES24 빅데이터, 데이터 엔지니어링, 머신러닝을 위한 대용량 데이터 분석과 처리의 모든 것협업과 신속함을 갖춘 작업 공간을 구축하는 동시에 페타바이트 규모의 데이터셋을 처리해보자. 이 책은 www.yes24.com * '구글 빅쿼리 완벽 가이드' 내용 중 일부를 정리한 글입니다. 네트워크 오버헤드 최소화하기 GCP 외부에서 빅쿼리를 호출한다면, 네트워크 토폴로지를 고려하고, 클라이언트 머신과 데이터셋을 생성한 GCP 데이터센터 사이에 네트워크 경로를 최대한 단축한다. 압축한 부분 응답 REST API를 직접 호출할 때 압축한 부분 응답을 승인해 네트워크 오버헤드를 최소화할 수 있다. 압축한 응답..
http://www.yes24.com/Product/Goods/95562895 구글 빅쿼리 완벽 가이드 - YES24 빅데이터, 데이터 엔지니어링, 머신러닝을 위한 대용량 데이터 분석과 처리의 모든 것협업과 신속함을 갖춘 작업 공간을 구축하는 동시에 페타바이트 규모의 데이터셋을 처리해보자. 이 책은 www.yes24.com * '구글 빅쿼리 완벽 가이드' 내용 중 일부를 정리한 글입니다. I/O 최소화 간단한 쿼리의 오버헤드 대부분은 연산이 아니라 I/O에 의해서 발생한다. 1. SELECT의 대상을 명확히 하기 ("SELECT *"의 사용을 최대한 피하고, 가능한 최소한의 컬럼만 참조) 2. 만약 거의 모든 컬럼이 필요하다면, 차라리 "SELECT * EXCEPT" 문법을 통해 불필요한 컬럼을 제거한다..
이항분포 (Binomial) - 성공확률이 p인 베르누이시행을 n번 반복시행할 때 성공횟수를 나타내는 확률 변수 X의 분포 베타분포 (Beta) - 두 매개변수 a and b에 대해 [0,1]에서 정의되는 연속확률분포들의 가족을 가리킨다. - 대표적으로 이항분포의 성공률 p를 추정할 때 사용한다. - 기댓값 = a / (a+b) - 최빈값 = (a-1) / (a+b-2) 감마분포 (Gamma) - 확률변수 X가 a번째 사건이 일어날 때까지 걸리는 시간일 때, X의 분포를 감마분포라고 한다. - [0, 무한대]에서 정의되는 값을 추정하는데 사용된다. - 람다는 지수분포에서 단위 시간당 발생하는 사건 평균 건수를 의미한다. - a=1, 람다=1/b일 때, 지수분포라고 할 수 있다. (즉, 1번의 사건이 발생..
https://towardsdatascience.com/data-science-for-ad-segments-moving-beyond-look-alike-modeling-fc0b97ed8bb6 Data Science for Ad Segments : Moving Beyond Look-Alike Modeling Segment Classification, Conversion Predictions, and Uplift Modeling towardsdatascience.com Look Alike Segment? - 주어진 유저 셋과 가장 유사하게 '보이는' 청중을 찾는 기법 - 보통 2개의 정보를 필요로 한다 1. Seed Set 2. Segment Size Limitation? - PU learning과 같은 s..
3.1. 혁신이라는 단어의 모호함 새롭게 합류한 부서는 확실히 일반적인 부서들과는 달랐다. 회사도 사양산업에서 탈피하여 새로운 기회를 모색하고자, 팀원들에게 최대한 자유로운 분위기와 다양한 시도를 할 수 있게끔 허락해주고자 했고, (초반에는) 성과 압박같은 것도 주지 않았다. 대감집에서 이런 부서에 합류할 수 있었다는 사실이 굉장히 행운으로 느껴졌고, 다양한 시도를 해보고 싶었다. 하지만 그 기대는 오래가지 못했다. 그 전까지는 생각해보지도 못했던 문제를 만나게 되었다. 혁신을 원하는 사람들이 모였지만, 서로 원하는 혁신의 모습이 너무나도 달랐다. 다양한 형태의 혁신이 있을 것이라고 말한다면 누구나 그렇다고 동의할 것이다. 그러나 혁신이라는 것이 기존에 없던 것을 만들어내는 일이라고 정의했을 때, 혁신을..
싸니까 믿으니까 인터파크도서 "통제와 규정은, 무능력한 직원에게나 필요한 것!"| 넷플릭스 CEO 리드 헤이스팅스의 첫 책 | 1997년 설립 당시, 넷플릭스는 우편으로 DVD를 대여해 주는 회사에 불과했다. 그러나 2020년 현재는 한국 book.interpark.com " 교향곡이 아닌 재즈. 들리기 시작하면 집중하라. " 너무 유명한 책이라 읽기도 전에 다 읽은 느낌이 들어서, 읽기가 망설여졌던 책이었다. 하지만 쉬는 시기에 읽을 책이 필요했고, 친구의 강력 추천이 있었기에 결국 읽게 되었다. 정신 없이 읽다보니 이런 생각이 들었다. "얘네는 책도 잘 쓰는구나" 넷플릭스가 현존 세계에서 가장 매력적인 이야기들을 들려주는 컨텐츠 제공자임을 잠시 잊고 있었다. 근래 짧지 않은 내용을 이렇게 흡입력있게 ..
2-1. 확신할 수 없는 확신 첫 부서에서 실무를 하기 전, 신입사원 프로젝트를 수행했던 경험이 떠오른다. 회사는 신입사원이 입사하자마자 조를 만들어서, 신사업을 제안하는 프로젝트를 운영하고 있었다. 신입사원의 고과에도 반영되기 때문에 꽤나 큰 비중을 차지한다고 볼 수 있었다. 당시 대감집에서 잘 해보고 싶었고, 기존에 없었던 혁신을 이뤄보고 싶은 마음이 있었기에, 굉장히 적극적으로 참여했었다. 아이디어를 도출하는 과정이 고통스럽고, 디벨롭하는 과정에 많은 노력을 기울여야 했지만, 나름 괜찮은 프로젝트를 기획했었다고 자부한다. 아이디어 최종 발표가 끝난 후 다른 조의 발표 주제를 들었을 때도 사실 속으로는 1등이라고 확신하고 있었다. 그러나, 결과는 2등이었다. 납득할 수 없는 결과였다. 하지만, 공식적..
1-1. 성장성-안정성, 유연함-단단함 그 사이 어딘가 대감집에 입사하기 전, 나는 중소기업에서 S/W 개발자로 사회생활을 시작했다. 당시 회사는 개인의 능력만 봤을 때 뛰어난 사람들이 많았다. 대표님 마인드가 "똑똑한 애들을 키워서 일 시키기" 였고, 사회초년생들 입장에서는 "좋은 처우를 받으며 새로운 분야를 배울 수 있는 기회" 가 있었기에 서로간의 니즈가 부합했던 것이다. 커리어의 변곡점이 필요하던 나도 운 좋게 그 기회를 잡았고, 첫 직장생활을 시작하게 되었다. S/W 전공자가 아니었기에, 실제 제품을 개발하기 위해서 처음 1년은 배우기에 급급했다. 그리고 반년 정도가 더 지나고 일이 점점 익숙해지자, 그 당시 회사의 문제점이 눈에 들어오기 시작했다. 내 눈에 들어온 문제점은 2가지였다. (1) ..