'Data Science Series' 카테고리의 글 목록 (2 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록Data Science Series (27)

No Story, No Ecstasy

토픽 모델링 - LDA, Mallet LDA, Guided LDA

* 이 글은 rupert님의 블로그의 토픽 모델링 관련 글들을 공부하여 정리한 글입니다. https://bab2min.tistory.com/567?category=673750 [잠재 디리클레 할당 파헤치기] 1. 베이즈 추론 작년에 토픽 모델링이라는 개념을 접하고 깜짝 놀랐어요. 그냥 적당한 크기의 문헌들을 넣어주면 거기에서 적절하게 컴퓨터가 연관된 단어들을 묶어서 주제 분포를 만들어주고, 문헌별로 주제 bab2min.tistory.com 0. 토픽 모델이란 문서에 등장하는 단어들의 분포를 통해 잠재적인 주제를 발견하는 통계적 알고리즘 1. 베이즈 추론 - 토픽 모델링 알고리즘 LDA는 베이즈 추론에 기반한다. - 베이즈 추론의 순서 1. 어떤 사건이 발생할 확률을 가정 2. 추가적인 관측 발생 시, 그..

Data Science Series 2021. 5. 27. 00:49

HDBSCAN (Hierarchical DBSCAN)

Clustering에는 크게 3개의 방법론들이 있다. 1. Distance-based (ex. K-means) 2. Density-based and grid-based (ex. DBSCAN, HDBSCAN) 3. Probabilistic and generative (ex. Mixture Distributed) 2번 방법론 중 가장 대표적인 예는 DBSCAN (Density based Spatial Clustering of Applications with Noise)인데, HDBSCAN (Hierarchical DBSCAN)은 기존의 계층적 클러스터링 개념을 DBSCAN에 입혀서 기존 DBSCAN이 가진 단점을 보완한 방법론이다. 구체적으로는 DBSCAN의 hyper parameter인 eps를 설정할 필..

Data Science Series 2021. 5. 25. 23:38

[Kaggle Visualization] Python basic code

import pandas as pd pd.plotting.register_matplotlib_converters() import matplotlib.pyplot as plot %matplotlib inline import seaborn as sns # Path of the file to read flight_filepath = "../input/flight_delays.csv" # Read the file into a variable flight_data flight_data = pd.read_csv(flight_filepath, index_col="Month") plt.figure(figsize=(16,6)) # Add title plt.title("Daily Global Streams of Popul..

Data Science Series 2021. 4. 28. 22:05

[Kaggle Pandas] Python basic code

# Pandas import pandas as pd # Creating pd.DataFrame({'Yes': [50,21], 'No': [131, 2]}) df = pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']}, index=['Product A', 'Product B']) print(df) print(pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')) #Reading df = pd.read_csv("asdf", index_col=0) 더보기 #Choosing between loc..

Data Science Series 2021. 4. 28. 22:03

[Kaggle Feature Engineering] Python basic code

1. Feature Engineering # Feature Engineering # Example) improve performance through feature engineering X = df.copy() y = X.pop("CompressiveStrength") # Train and score baseline model baseline = RandomForestRegressor(criterion="mae", random_state=0) baseline_score = cross_val_score(baseline, X, y, cv=5, scoring="neg_mean_absolute_error") baseline_score = -1 * baseline_score.mean() print(f"MAE Ba..

Data Science Series 2021. 4. 28. 22:00

[Kaggle Data Cleaning] Python basic code

# Data Cleaning import pandas as pd import numpy as np df = pd.DataFrame() # 1. Handling Missing Values # Check missing values count missing_values_count = df.isnull().sum() total_cells = np.product(df.shape) missing_cells = missing_values_count.sum() percent_missing = missing_cells / total_cells * 100 print(percent_missing) # Drop missing values # Row df.dropna() # drop rows if it have at least..

Data Science Series 2021. 4. 28. 21:54

[Kaggle Intermediate Machine Learning] Python basic code

1. 기초 import pandas as pd import numpy as np from sklearn.model_selection import train_test_split # Read the data X_full = pd.read_csv('../input/train.csv', index_col='Id') X_test_full = pd.read_csv('../input/test.csv', index_col='Id') # Remove rows with missing target, separate target from predictors X_full.dropna(axis=0, subset=['SalePrice'], inplace=True) y = X_full.SalePrice X_full.drop(['Sa..

Data Science Series 2021. 4. 28. 21:52

[Kaggle Intro to Machine Learning] Python basic code

# Basic Data Exploration import pandas as pd data = pd.read_csv('melb_data.csv') print(data.describe()) print(data.dtypes) print(data.head()) # Selecting Data for Modeling print(data.columns) data = data.dropna(axis=0) X = data.copy() #Selecting the prediction target y = X.pop('Price') #print(y.head()) #Choosing "Features" cand_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitud..

Data Science Series 2021. 4. 28. 21:47

이전 Prev 1 2 3 4 Next 다음

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

No Story, No Ecstasy

목록Data Science Series (27)

No Story, No Ecstasy

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역