본문 바로가기

머신러닝8

[머신러닝/딥러닝] 항공 사진 내 선인장 식별 경진대회 (3)_모델 성능 개선 3부 11장 실습하고 해당 내용을 정리한 내용입니다. https://www.kaggle.com/c/aerial-cactus-identification Aerial Cactus Identification | Kaggle www.kaggle.com 1. 성능 개선 베이스라인에서는 간단한 CNN모델을 사용했었습니다. 이번 절에서는 다음 네 가지를 개선해 성능을 높여보겠습니다. 1. 다양한 이미지 변환을 수행합니다. 2. 더 깊은 CNN 모델을 만듭니다. 3. 더 뛰어난 옵티마이저를 사용합니다. 4. 훈련 시 에폭 수를 늘립니다. 이상의 네 가지를 제외하고는 베이스라인과 코드가 비슷합니다. 절차는 다음과 같습니다. 시드값 고정 및 GPU 장비 설정 데이터 준비 1. 훈련/검증 데이터 분리 2. 데이터셋 클래스 .. 2023. 1. 30.
[머신러닝/딥러닝] 항공 사진 내 선인장 식별 경진대회 (2)_베이스라인 모델 3부 11장 실습하고 해당 내용을 정리한 내용입니다. https://www.kaggle.com/c/aerial-cactus-identification Aerial Cactus Identification | Kaggle www.kaggle.com 1. 베이스라인 모델 설계 파이토치를 활용해 딥러닝 모델을 만들어 보겠습니다. 베이스라인은 간단한 CNN 모델을 활용하겠습니다. 파이토치를 활용한 딥러닝 모델링 절차는 다음과 같습니다. 시드값 고정 및 GPU 장비 설정 데이터 준비 1. 훈련/검증 데이터 분리 2. 데이터셋 클래스 정의 3. 데이터셋 생성 4. 데이터 로더 생성 모델 생성 (CNN) 모델 훈련 1. 손실 함수와 옵티마이저 설정 2. 모델 훈련 성능 검증 예측 및 제출 1. 시드값 고정 및 GPU .. 2023. 1. 30.
[머신러닝/딥러닝] 항공 사진 내 선인장 식별 경진대회 (1)_탐색적 데이터 분석 3부 11장 실습하고 해당 내용을 정리한 내용입니다. https://www.kaggle.com/c/aerial-cactus-identification Aerial Cactus Identification | Kaggle www.kaggle.com 1. 경진대회 이해 본 경진대회는 데이터 크기가 작고 난이도도 낮은 플레이그라운드 대회로, 항공 사진에서 선인장을 찾아내는게 목표입니다. 따라 주어진 데이터에는 csv파일에 더해 '이미지 파일'도 제공합니다. 주어진 데이터는 다음과 같습니다. ● train.zip : 훈련 이미지 데이터(jpg 형식) 압축 파일 ● test.zip : 테스트 이미지 데이터(jpg 형식) 압축 파일 ● train.csv : 훈련 이미지 데이터 파일명 및 타깃값(타깃값은 0 또는 1).. 2023. 1. 30.
[머신러닝/딥러닝] 향후 판매량 예측 (2)_베이스라인 모델 2부 9장 실습하고 해당 내용을 정리한 내용입니다. https://www.kaggle.com/competitions/competitive-data-science-predict-future-sales Predict Future Sales | Kaggle www.kaggle.com 1. 베이스라인 모델 설계 데이터를 적절히 처리하여, LightGBM을 사용하여 베이스라인 모델을 만들겠습니다. 데이터 불러오기 (기본적인) 피처 엔지니어링 1. 피처명 한글화 2. 데이터 다운캐스팅 3. 데이터 조합 생성 4. 타깃값 피처 추가 평가지표 계산 함수 작성 RMSE (사이킷런 제공) 모델훈련 모델 : LightGBM (사이킷런 제공) 성능 검증 제출 먼저 데이터부터 불러옵니다. import numpy as np im.. 2022. 11. 28.
[머신러닝/딥러닝] 안전 운전자 예측 (1) 2부 8장 실습하고 해당 내용을 정리한 내용입니다. 1. 경진대회 이해 https://www.kaggle.com/competitions/porto-seguro-safe-driver-prediction Porto Seguro’s Safe Driver Prediction | Kaggle www.kaggle.com 2부 8장에서 사용되는 경진대회는 안전 운전자 예측 경진대회 입니다. 2017년 9월 30일에서 2017년 11월 30일까지 두 달 동안 개최되었던 대회이며, 총 5,156팀이 참가했습니다. 안전 운전자 예측 경진대회는 포르투 세구로라는 브라질 보험 회사에서 주최한 대회입니다. 포르투 세구로는 지난 20년 간 머신러닝을 활용해왔지만, 자동차 보험과 관련해서 보다 정확한 예측 모델을 만들고자 본 대회.. 2022. 11. 7.
[머신러닝/딥러닝]경진대회_범주형 데이터 이진분류(2) 2부 7장 실습하고 해당 내용을 정리한 내용입니다. https://www.kaggle.com/competitions/cat-in-the-dat Categorical Feature Encoding Challenge | Kaggle www.kaggle.com 1. 베이스라인 모델 베이스라인 모델에서는 모든 피처를 원-핫 인코딩한 뒤, 로지스틱 회귀 모델로 베이스라인을 만들겠습니다. 전체적인 순서는 아래의 표와 같습니다. 다음 '성능 개선 Ⅰ'에서 밑줄친 부분을 통해 더욱 성능을 개선할 방향이니 어떻게 개선하면 좋을지 생각하면서 읽는 것도 하나의 좋은 방법입니다. 데이터 불러오기 (기본적인) 피처 엔지니어링 모든 피처 원-핫 인코딩 평가지표 계산 함수 작성 ROC AUC(사이킷런 제공) 모델 훈련 모델 : 로.. 2022. 10. 31.