일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- DBSCAN
- 캐글
- ADP 실기
- python
- 쿠버네티스
- React
- bigquery
- 파이썬
- frontend
- Kubernetes
- 빅쿼리
- 머신러닝
- docker
- 최적화
- 차원 축소
- r
- ADP
- Machine Learning
- 클러스터링
- 타입스크립트
- do it
- 대감집
- 프론트엔드
- 구글
- 대감집 체험기
- TooBigToInnovate
- 심층신경망
- 리액트
- LDA
- Kaggle
- Today
- Total
목록분류 전체보기 (71)
No Story, No Ecstasy
강화학습 Reinforcement Learning (강화 학습) 에이전트가 관측을 하고 주어진 환경에서 행동을 하면 보상을 받을 때, 보상의 장기간 기대치를 최대로 만드는 행동을 학습하는 것이다. 보상을 얻기 위해서는 특별하지 않은(보상=0) 행동들이 꼭 필요하며, 에이전트는 어떤 행동이 실제로 보상을 발생시켰는지 연결고리를 찾아서 “지연된 보상”을 얻어야 한다. Markov Decision Process 모든 상태는 그 직전 상태와, 그 상태에서 에이전트의 행동만이 영향을 미친다고 가정(Markov property)한 프로세스. 정책(행동을 결정하기 위한 알고리즘)을 결정하는데 가장 기본적인 가정으로 많이 쓰인다. The Bellman Equation 상태 s에서 행동 a를 취할 때 받을 수 있는 모든..
Clustering에는 크게 3개의 방법론들이 있다. 1. Distance-based (ex. K-means) 2. Density-based and grid-based (ex. DBSCAN, HDBSCAN) 3. Probabilistic and generative (ex. Mixture Distributed) 2번 방법론 중 가장 대표적인 예는 DBSCAN (Density based Spatial Clustering of Applications with Noise)인데, HDBSCAN (Hierarchical DBSCAN)은 기존의 계층적 클러스터링 개념을 DBSCAN에 입혀서 기존 DBSCAN이 가진 단점을 보완한 방법론이다. 구체적으로는 DBSCAN의 hyper parameter인 eps를 설정할 필..
import pandas as pd pd.plotting.register_matplotlib_converters() import matplotlib.pyplot as plot %matplotlib inline import seaborn as sns # Path of the file to read flight_filepath = "../input/flight_delays.csv" # Read the file into a variable flight_data flight_data = pd.read_csv(flight_filepath, index_col="Month") plt.figure(figsize=(16,6)) # Add title plt.title("Daily Global Streams of Popul..
# Pandas import pandas as pd # Creating pd.DataFrame({'Yes': [50,21], 'No': [131, 2]}) df = pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']}, index=['Product A', 'Product B']) print(df) print(pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')) #Reading df = pd.read_csv("asdf", index_col=0) 더보기 #Choosing between loc..
1. Feature Engineering # Feature Engineering # Example) improve performance through feature engineering X = df.copy() y = X.pop("CompressiveStrength") # Train and score baseline model baseline = RandomForestRegressor(criterion="mae", random_state=0) baseline_score = cross_val_score(baseline, X, y, cv=5, scoring="neg_mean_absolute_error") baseline_score = -1 * baseline_score.mean() print(f"MAE Ba..
# Data Cleaning import pandas as pd import numpy as np df = pd.DataFrame() # 1. Handling Missing Values # Check missing values count missing_values_count = df.isnull().sum() total_cells = np.product(df.shape) missing_cells = missing_values_count.sum() percent_missing = missing_cells / total_cells * 100 print(percent_missing) # Drop missing values # Row df.dropna() # drop rows if it have at least..
1. 기초 import pandas as pd import numpy as np from sklearn.model_selection import train_test_split # Read the data X_full = pd.read_csv('../input/train.csv', index_col='Id') X_test_full = pd.read_csv('../input/test.csv', index_col='Id') # Remove rows with missing target, separate target from predictors X_full.dropna(axis=0, subset=['SalePrice'], inplace=True) y = X_full.SalePrice X_full.drop(['Sa..
# Basic Data Exploration import pandas as pd data = pd.read_csv('melb_data.csv') print(data.describe()) print(data.dtypes) print(data.head()) # Selecting Data for Modeling print(data.columns) data = data.dropna(axis=0) X = data.copy() #Selecting the prediction target y = X.pop('Price') #print(y.head()) #Choosing "Features" cand_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitud..