오늘은 팀원들과 함께 미니 프로젝트를 진행하는 시간을 가졌다. 프로젝트 주제는 "제주도 퇴근버스 탑승인원 예측"이었다. 우리는 해당 주제에 대해 x 데이터로는 7시부터 12시까지의 승하차 인원을, y 데이터로는 18시부터 20시까지의 승차인원을 예측하는 작업을 진행했다. 프로젝트에서 나는 주로 머신러닝 모델과 피처 엔지니어링, 그리고 파라미터 값 수정을 담당했다. 우리는 수업 시간에 배웠던 다양한 기법과 도구들을 활용하여 프로젝트를 진행했으며, train_test_split, KFold, 파라미터 조정, 스케일링(Scaler), 그리고 Optuna와 같은 기능들을 사용하여 모델의 성능을 높이는 데에 집중했다. catboost, xgboost, LGBM 등 다양한 머신러닝 모델을 실험하면서 r2 값을 향상..
EarlyStopping_california [설명] EarlyStopping은 머신러닝 모델의 학습을 조기에 중단하는 기법 중 하나입니다. 이는 모델이 더 이상 성능 향상이 기대되지 않을 때 학습을 중지하여 시간과 리소스를 절약할 수 있습니다. EarlyStopping을 활용하면 모델이 과적합(overfitting)되는 것을 방지하고 일반화 성능을 향상시킬 수 있습니다. [코드] import numpy as np from sklearn.model_selection import train_test_split from sklearn.metrics import r2_score from sklearn.datasets import fetch_california_housing import time from xgb..
하이퍼파라미터 튜닝 1. 그리드서치 • 하이퍼파라미터 튜닝 : 임의의 값들을 넣어 더 나은 결과를 찾는 방식 → 수정 및 재시도하는 단순 작업의 반복 • 그리드 서치 : 수백 가지 하이퍼파라미터값을 한번에 적용 가능 • 그리드 서치의 원리 : 입력할 하이퍼파라미터 후보들을 입력한 후, 각 조합에 대해 모두 모델링해보고 최적의 결과가 나오는 하이퍼파라미터 조합을 확인 예) max_depth = [3, 5, 10] Learning_rate = [0.01, 0.05, 0.1] 1. XGBoost 모델의 parmeters 참조 공식문서 https://xgboost.readthedocs.io/en/stable/parameter.html 2. LightGBM 모델의 parmeters 참조 공식문서 https://l..
1. GridSearchCV [설명] GridSearchCV는 사용자가 지정한 매개변수 그리드를 기반으로 모든 가능한 조합의 하이퍼파라미터를 탐색하여 최적의 조합을 찾는 과정을 자동으로 수행합니다. 매개변수 그리드 탐색, 교차 검증, 성능 평가 및 최적 모델 선택 등의 작업을 자동화하여 모델의 최적화된 성능을 얻을 수 있도록 도와줍니다. 이를 통해 사용자는 모델의 성능을 향상시키는 최적의 하이퍼파라미터 조합을 찾는 데 집중합니다. [코드] #그리드서치 import numpy as np from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split, KFold, StratifiedKFold from skl..