[빅분기_실기] 작업형2: 3회기출_보험구매여부 예측모형(분류), 여행 데이터

공부자료 https://class101.net/classes/6161bc52559cfb0015ef4ff1/contents/61ca8d860ef56e000dfda2be?productId=467P0ZPH0lVX9FwFBDz7

세상의 모든 클래스, 클래스101

NO.1 온라인 클래스 플랫폼 - 대한민국 1등 온라인 클래스 플랫폼 준비물까지 챙겨주는 클래스101과 취미부터 부업, 새로운 적성까지 찾아보세요!

class101.net

무료공개로 올려주셨다..! 퇴근후딴짓님 짱

이분이 딱 이정도 코드만 쓰고 40점 만점을 받으셨다고 한다.

코드채점 없이 제출된 파일만 점수매기니까, 여러 방법론에 대한 부담이 좀 덜어졌다.

베이스라인대로만 실수 없이 하길..!

문제: 여행보험을 구매안함(0), 구매(1)으로 나눌 때, 구매일 확률을 예측

3회기출은 2회기출과 달리 X와 y를 나눠주지 않았다. Train과 Test만 주어졌고 Train에만 있는 종속변수를 나중에 떼어주면 됐다. 이번에도 이진분류 predict_proba가 출제됐다. 공식예제까지 하면 세개가 다 분류모델인데... 내일 시험에만 처음으로 회귀모델이 나오면 어떡하나 괜히 불안....

또 제출파일 코드예시를 명확히 주지않아 이걸로 이의제기가 많았다고 한다. 내라는 모양 제대로 보고 to_csv 정확히 하자

import numpy as np 
import pandas as pd

train = pd.read_csv('../input/jakuphyung23rdtest/train.csv') # 1490 * 10
test = pd.read_csv('../input/jakuphyung23rdtest/test.csv') # 497 * 9

pd.set_option('display.max_columns',None)
pd.set_option('display.max_rows', 20)

# 0. EDA
print(train)
print(train.info())
print('-'*50)
print(test.info())

# 1. id drop과 pop
train.drop(columns='Unnamed: 0', inplace=True)
unnamed = test.pop('Unnamed: 0')
print(train.columns, test.columns)

# 2. 결측치 처리-없음

결측치 없다니! 현업에선 그럴 리가 없는데!

isnull()sum()은 사실상 안쓰게 된다 info()에 다 있는데! shape도 마찬가지

컬럼명을 어디선 []하고 어디선 ''로 해서 Syntax Error가 자꾸 난다... 오타실수도 하고...

이번엔 unnamed는 다시 쓸 필욘 없었지만 그래도 평소처럼 pop()해봤다

# 3. 인코딩: 

print(train.describe(include='object'))
print(test.describe(include='object'))
# 전부 nunique가 2개로 간단함

cols = ['Employment Type', 'GraduateOrNot', 'FrequentFlyer', 'EverTravelledAbroad']

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
for col in cols:
    train[col] = le.fit_transform(train[col])
    test[col] = le.transform(test[col])

print(train.head().T)
print(test.head().T)

describe()를 EDA가 아닌 여기서 해본다 허허

한단계 한단계 하고나서 적용됐는지 꼭 print하는 습관을 들이자

파바박 코드쓰고 한번에 돌리면 어디서부터 안됐는지 귀찮아진다

# 4. 스케일링

print(train.describe())
print(test.describe())
## 아까 버린 unnamed와 종속변수인 보험료를 제외하면 수치형 컬럼은 4개
## 보통 age는 분포 보고 나이대 범주화하는게 흔하지만 이번엔 범위가 짧아 패스
## FamilyMembers 2~9, ChronicDiseases 0~1로 규모가 작아 스케일링 패스
## Age와 AnnualIncome으로만 스케일링 진행

from sklearn.preprocessing import RobustScaler
cols = ['Age', 'AnnualIncome']
ro = RobustScaler()
for col in cols:
    train[col] = le.fit_transform(train[col])
    test[col] = le.transform(test[col])
    
print(train.head().T)
print(test.head().T)

내 나름의 논리로 스케일링할 컬럼을 선별한다

어차피 컬럼 간 규모 맞추려고 스케일링하는거 아닌가..?! 수치형이라고 다 할 필욘 없다 ㅎ..

RobustScaler는 이상치를 고려해주는 방법이라한다 자세한건모르겠다

그래서 시험 때도 민맥스나 스탠다드보단 로버스트 쓰려 한다

# 5. 검증데이터 분리
from sklearn.model_selection import train_test_split
xx_train, x_val, yy_train, y_val = train_test_split(train.drop(columns='TravelInsurance'),
                                                    train['TravelInsurance'],
                                                    train_size=0.8,
                                                    random_state=42)
                                                   
print(xx_train.shape, x_val.shape, yy_train.shape, y_val.shape)

# 5-1. 검증데이터로 학습
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(n_estimators=500, max_depth=9, random_state=42)
model.fit(xx_train, yy_train)

# 5-2. 검증데이터로 예측
pred_val = model.predict_proba(x_val)[:,1] # 1일 확률

# 5-3. 검증데이터로 점수
from sklearn.metrics import roc_auc_score
score = roc_auc_score(y_val, pred_val)
# print(score)
# 500, 5, 0.792
# 1000, 5, 0.791
# 500, 7, 0.804
# 500, 9, 0.805
# 700, 9, 0.804

내가 어려워하는 부분 시작..!

train_test_split()할땐 x_train과 y_train을 넣고, (여기선 따로 제공 안했음)

fit()할때도 x_train과 y_train을 넣고,

예측은 당연히 x_test만,

점수는 y_test와 x_test의 예측값을 넣기... (물론 y_test를 가진 채점관 입장)

하이퍼파라미터 조정해가며 0.805에서 만족했다

# 6. 실제 test데이터로 예측
pred = model.predict_proba(test)[:,1]

# 7. 제출: index컬럼, y_pred컬럼, 0~496인덱스, index=False 주의
output =  pd.DataFrame({'index':test.index,
                       'y_pred':pred}).to_csv('수험번호.csv', index=False)
                       
# _____________채점_____________________
y_test = pd.read_csv('../input/jakuphyung23rdtest/y_test.csv')
score = roc_auc_score(y_test, pred)
print(score) # 0.78

제공해주신 y_test로 해보니 0.78점으로 살짝 낮아졌다.

끝

저작자표시 (새창열림)

'🐍 Python > (完) 빅데이터분석기사' 카테고리의 다른 글

[빅분기_실기] 작업형1: 예제19~21_lambda, merge, 슬라이싱 (0)	2022.06.27
[빅분기_실기] 작업형2: 예제_집값예측모형(회귀), 부동산 데이터 (0)	2022.06.25
[빅분기_실기] 작업형1: 예제16~18_분산, 시계열(연,월), 시계열(요일) (0)	2022.06.24
[빅분기_실기] 작업형2: 2회기출_배송성공여부 예측모형(분류), 전자상거래 데이터 (0)	2022.06.24
[빅분기_실기] 작업형1: 예제13~15_상관관계, groupby(), 평균값 (0)	2022.06.22

Chloe's ChitChat

[빅분기_실기] 작업형2: 3회기출_보험구매여부 예측모형(분류), 여행 데이터

'🐍 Python > (完) 빅데이터분석기사' 카테고리의 다른 글

댓글

티스토리툴바

[빅분기_실기] 작업형2: 3회기출_보험구매여부 예측모형(분류), 여행 데이터

'🐍 Python > (完) 빅데이터분석기사' 카테고리의 다른 글

관련글

댓글

티스토리툴바