일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- LDA
- 캐글
- 대감집
- 쿠버네티스
- 리액트
- TooBigToInnovate
- Kaggle
- React
- 구글
- ADP
- ADP 실기
- do it
- 빅쿼리
- 머신러닝
- r
- DBSCAN
- 프론트엔드
- python
- 차원 축소
- 타입스크립트
- 클러스터링
- 파이썬
- 최적화
- 대감집 체험기
- bigquery
- docker
- 심층신경망
- Kubernetes
- Machine Learning
- frontend
- Today
- Total
목록Data Science Series (27)
No Story, No Ecstasy

* 이 글은 rupert님의 블로그의 토픽 모델링 관련 글들을 공부하여 정리한 글입니다. https://bab2min.tistory.com/567?category=673750 [잠재 디리클레 할당 파헤치기] 1. 베이즈 추론 작년에 토픽 모델링이라는 개념을 접하고 깜짝 놀랐어요. 그냥 적당한 크기의 문헌들을 넣어주면 거기에서 적절하게 컴퓨터가 연관된 단어들을 묶어서 주제 분포를 만들어주고, 문헌별로 주제 bab2min.tistory.com 0. 토픽 모델이란 문서에 등장하는 단어들의 분포를 통해 잠재적인 주제를 발견하는 통계적 알고리즘 1. 베이즈 추론 - 토픽 모델링 알고리즘 LDA는 베이즈 추론에 기반한다. - 베이즈 추론의 순서 1. 어떤 사건이 발생할 확률을 가정 2. 추가적인 관측 발생 시, 그..

Clustering에는 크게 3개의 방법론들이 있다. 1. Distance-based (ex. K-means) 2. Density-based and grid-based (ex. DBSCAN, HDBSCAN) 3. Probabilistic and generative (ex. Mixture Distributed) 2번 방법론 중 가장 대표적인 예는 DBSCAN (Density based Spatial Clustering of Applications with Noise)인데, HDBSCAN (Hierarchical DBSCAN)은 기존의 계층적 클러스터링 개념을 DBSCAN에 입혀서 기존 DBSCAN이 가진 단점을 보완한 방법론이다. 구체적으로는 DBSCAN의 hyper parameter인 eps를 설정할 필..
import pandas as pd pd.plotting.register_matplotlib_converters() import matplotlib.pyplot as plot %matplotlib inline import seaborn as sns # Path of the file to read flight_filepath = "../input/flight_delays.csv" # Read the file into a variable flight_data flight_data = pd.read_csv(flight_filepath, index_col="Month") plt.figure(figsize=(16,6)) # Add title plt.title("Daily Global Streams of Popul..
# Pandas import pandas as pd # Creating pd.DataFrame({'Yes': [50,21], 'No': [131, 2]}) df = pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']}, index=['Product A', 'Product B']) print(df) print(pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')) #Reading df = pd.read_csv("asdf", index_col=0) 더보기 #Choosing between loc..
1. Feature Engineering # Feature Engineering # Example) improve performance through feature engineering X = df.copy() y = X.pop("CompressiveStrength") # Train and score baseline model baseline = RandomForestRegressor(criterion="mae", random_state=0) baseline_score = cross_val_score(baseline, X, y, cv=5, scoring="neg_mean_absolute_error") baseline_score = -1 * baseline_score.mean() print(f"MAE Ba..
# Data Cleaning import pandas as pd import numpy as np df = pd.DataFrame() # 1. Handling Missing Values # Check missing values count missing_values_count = df.isnull().sum() total_cells = np.product(df.shape) missing_cells = missing_values_count.sum() percent_missing = missing_cells / total_cells * 100 print(percent_missing) # Drop missing values # Row df.dropna() # drop rows if it have at least..
1. 기초 import pandas as pd import numpy as np from sklearn.model_selection import train_test_split # Read the data X_full = pd.read_csv('../input/train.csv', index_col='Id') X_test_full = pd.read_csv('../input/test.csv', index_col='Id') # Remove rows with missing target, separate target from predictors X_full.dropna(axis=0, subset=['SalePrice'], inplace=True) y = X_full.SalePrice X_full.drop(['Sa..
# Basic Data Exploration import pandas as pd data = pd.read_csv('melb_data.csv') print(data.describe()) print(data.dtypes) print(data.head()) # Selecting Data for Modeling print(data.columns) data = data.dropna(axis=0) X = data.copy() #Selecting the prediction target y = X.pop('Price') #print(y.head()) #Choosing "Features" cand_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitud..