'python' 태그의 글 목록

« 2025/11 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

[Kaggle Visualization] Python basic code

import pandas as pd pd.plotting.register_matplotlib_converters() import matplotlib.pyplot as plot %matplotlib inline import seaborn as sns # Path of the file to read flight_filepath = "../input/flight_delays.csv" # Read the file into a variable flight_data flight_data = pd.read_csv(flight_filepath, index_col="Month") plt.figure(figsize=(16,6)) # Add title plt.title("Daily Global Streams of Popul..

Data Science Series 2021. 4. 28. 22:05

[Kaggle Pandas] Python basic code

# Pandas import pandas as pd # Creating pd.DataFrame({'Yes': [50,21], 'No': [131, 2]}) df = pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.']}, index=['Product A', 'Product B']) print(df) print(pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')) #Reading df = pd.read_csv("asdf", index_col=0) 더보기 #Choosing between loc..

Data Science Series 2021. 4. 28. 22:03

[Kaggle Feature Engineering] Python basic code

1. Feature Engineering # Feature Engineering # Example) improve performance through feature engineering X = df.copy() y = X.pop("CompressiveStrength") # Train and score baseline model baseline = RandomForestRegressor(criterion="mae", random_state=0) baseline_score = cross_val_score(baseline, X, y, cv=5, scoring="neg_mean_absolute_error") baseline_score = -1 * baseline_score.mean() print(f"MAE Ba..

Data Science Series 2021. 4. 28. 22:00

[Kaggle Data Cleaning] Python basic code

# Data Cleaning import pandas as pd import numpy as np df = pd.DataFrame() # 1. Handling Missing Values # Check missing values count missing_values_count = df.isnull().sum() total_cells = np.product(df.shape) missing_cells = missing_values_count.sum() percent_missing = missing_cells / total_cells * 100 print(percent_missing) # Drop missing values # Row df.dropna() # drop rows if it have at least..

Data Science Series 2021. 4. 28. 21:54

[Kaggle Intermediate Machine Learning] Python basic code

1. 기초 import pandas as pd import numpy as np from sklearn.model_selection import train_test_split # Read the data X_full = pd.read_csv('../input/train.csv', index_col='Id') X_test_full = pd.read_csv('../input/test.csv', index_col='Id') # Remove rows with missing target, separate target from predictors X_full.dropna(axis=0, subset=['SalePrice'], inplace=True) y = X_full.SalePrice X_full.drop(['Sa..

Data Science Series 2021. 4. 28. 21:52

[Kaggle Intro to Machine Learning] Python basic code

# Basic Data Exploration import pandas as pd data = pd.read_csv('melb_data.csv') print(data.describe()) print(data.dtypes) print(data.head()) # Selecting Data for Modeling print(data.columns) data = data.dropna(axis=0) X = data.copy() #Selecting the prediction target y = X.pop('Price') #print(y.head()) #Choosing "Features" cand_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitud..

Data Science Series 2021. 4. 28. 21:47

서버 관련 - VM, MongoDB, WAS

Python과 가상 환경 Python에서는 사소한 모듈들의 버전 차이로 인해 에러가 발생하는 경우가 있다. 때문에 패키지들 간 버전 호환성을 유지하는 것이 중요하다. 하지만 매 프로젝트마다 패키지들의 버전을 조정하는 것은 매우 비효율적인 일이다. 따라서, 가상 환경을 통해 각 프로젝트에 맞는 버전과 모듈을 활용한다. 관련 tool에는 pyenv, pyenv-virtualenv, poetry, anaconda 등이 있다. MongoDB - 장점: RDB와 개념이 유사하여 사용법이 비슷하다(쿼리 변환기도 있음). RDB 대비 Read & Write 성능이 월등하다. 스키마 관리가 필요 없다. 샤드(Shared Disk) 추가가 간편하다(rebalancing은 불가능). Index 기능을 제공한다. - 단점:..

Shallow Series 2021. 3. 12. 23:17

Python 2차원 배열 (list of list) 선언 방법

list_of_list = [[0]*n for i in range(n)] 위처럼 선언해야 한다. 1차원 배열 선언하듯이 [[0]*n]*n 이렇게 하면, 내부의 모든 리스트들을 같은 객체로 인식한다. 따라서 list_of_list[1][1] = 1 하면 모든 list의 첫 번째 element가 1로 바뀐다.

Shallow Series 2021. 1. 21. 00:09

No Story, No Ecstasy

목록python (8)

No Story, No Ecstasy

티스토리툴바