[빅분기_실기] 작업형2: 예제_집값예측모형(회귀), 부동산 데이터

앞의 두번의 실기는 분류가 나왔지만 혹시 모르니 회귀 하나 연습해간다. 너무 어렵다...!

예측해야할 종속변수(타겟)가 범주형이면 분류, 수치형이면 회귀다. 또는 roc_auc평가지표를 사용할 거라고 명시돼있으면 분류이고, (아직 출제된 적 없지만) r2 score, RMSE 등의 점수를 쓸거라하면 회귀라고 생각하면 된다.

import pandas as pd
import numpy as np

pd.set_option("display.max_columns", None)

# 1. EDA
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)
# (1168, 79) (292, 79) (1168, 2) (292, 2)

print(y_train.columns) # (['Id', 'SalePrice']) -> 가격을 예측하라, 회귀
print(X_train.info()) # float64(3), int64(33), object(43)
print(X_test.info()) # float64(3), int64(33), object(43)

# 2-1. id 있으면 드랍- 없음

# 2-2. 결측치 처리- 일단 0
print(X_train.isna().sum())

X_train.fillna(0, inplace=True)
X_test.fillna(0, inplace=True)

print(X_train.info())
print(X_test.info())

컬럼이 79개로 상당한 데이터였다. 컬럼명도 뭘지 추론이 안되는 이름이었다. 결측치도 많았다.

결측치는... 문자형은 최빈값으로 채우고 수치형은 평균으로 채울까? 라는 이상을 꿈꾸긴 하였지만

현실적으로 짧은코드를 써야 시험시간에 안 쫄릴 거 같아서 일단 0으로 채웠다.

# 2-3. 인코딩(안함)
print(X_train.describe(include='object'))

X_train = X_train.select_dtypes(exclude=['object']) # (1168, 36)
X_test = X_test.select_dtypes(exclude=['object']) # (292, 36)
print(X_train.info(), X_test.info())

인코딩할 43개의 컬럼명을 리스트로 받는 것도 구구절절 힘들고 예시에서도 깔끔하게 드랍하길래;; 일단 따라해봤다.

select_dtypes 처음 써봤다.

회귀 때는 상관관계를 봐서 1) 독립변수 간 상관성 높으면 다중공선성 우려로 드랍 2) 독립변수와 종속변수 간 상관성 낮으면 영향력 미미하다 판단해 드랍. 이 두가지를 해볼 순 있는데, (79*79)의 표를 눈으로 보기 힘들었다;; 해봤는데 '어디부터를 드랍할만큼 높은 상관계수로 봐야하느냐?'의 문제가 있었고, 0.9초과인걸 마스킹해보니 없었다! 그래서 이 단계에선 실질적으로 얻은 건 없다.

사실 컬럼구분 없이 전체컬럼 라벨인코딩 for문 돌리고, 범주형 컬럼이면 인코딩 될 것이고(try), 수치형이면 그냥 지나가시라는(except) 예외처리 코드를 써보려고 했는데 왜인지 에러는 안나지만 적용도 안됐다. 안 먹길래 포기하고 드랍.

## 부록 : 해봤지만 얻은게 없는 코드 모음##

### 상관관계
corr = np.abs(X_train.corr())
print(corr[(corr>0.9)]) # 자기자신과 1.0인 애들밖에 없었음!

### try-except: 안되니 따라하지 마세요
cols = list(X_train.columns)
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()

try:
	for col in cols:
    	X_train[col] = le.fit_transform(X_train[col])
        X_test[col] = le.transform(X_test[col])
except ValueError:
	pass

마저 코드로 돌아가면...

# 2-4. 스케일링
from sklearn.preprocessing import RobustScaler
ro = RobustScaler()

cols = list(X_train.columns)
for col in cols:
    X_train[col] = ro.fit_transform(X_train[[col]])
    X_test[col] = ro.transform(X_test[[col]])
    
print(X_train.head().T)
print(X_train.describe())

스케일링을 해도 최대값이 엄청 튀는 특이한 컬럼들이 7개나 됐다. (예로 들면 최소값0, 최빈값0, 중앙값0인데 최대값 1543 이런식...)일단 냅두고 점수가 못마땅하면 다시 돌아오기로 했다.

# 3. 검증-나누기
from sklearn.model_selection import train_test_split
xx_train, x_val, yy_train, y_val = train_test_split(X_train, y_train, train_size=0.9)
print(xx_train.shape, x_val.shape, yy_train.shape, y_val.shape) # (1051, 36) (117, 36) (1051, 2) (117, 2)

# 4-1. 학습
from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor(n_estimators=500, max_depth=5, random_state=42)
model.fit(X_train, y_train['SalePrice']) # 이거 헷갈리면 그냥 val로 해...

# 3-1. 검증-예측
pred_val = model.predict(x_val)

# 3-2. 검증-점수
from sklearn.metrics import mean_squared_error
RMSE = np.sqrt(mean_squared_error(y_val['SalePrice'], pred_val))
print(RMSE) # 22942.418081449574

# 4-2. X_test에 예측
pred = model.predict(X_test)

# 5. 제출파일
output = pd.DataFrame({'id':x_test['Id'],'Saleprice':pred}).to_csv("수험번호.csv", index=False)

내가 제일 헷갈려하는 부분...! RandomForestRegressor는 Classifier와 쓰는 법은 동일해서 괜찮았다. predict_proba가 아니라 predict를 써야했다! 시험에서 주는 데이터는 작으니까 현업과 달리, train_test_split은 정말 내 점수만 대략 알기 위해서만 쓰고, 기존의 X_train(그니까 나눈 train과 val을 다시 합친 거)으로 fit하고 test로 예측하는게 더 성능 좋을 거라 들어서 그렇게 해봤다. 그런데 y_train에서 자꾸 타겟컬럼만 인덱싱하는걸 까먹는다...

from sklearn.metrics도 아직 안 붙는다.. 회귀면 채점으로 쓸만한 점수들이 많은데..! 호출 못하면 내 점수도 모르고 제출하게 되는거다

#______채점________
RMSE = np.sqrt(mean_squared_error(y_test['SalePrice'], pred))
print(RMSE) # 28657.429279872926

제곱근인 RMSE는 낮을수록 좋은 성능인건데, 이정도면 무난한 거 같다.

끝.

공부자료 https://www.kaggle.com/code/blighpark/t2-4-house-prices-regression

저작자표시 (새창열림)

'🐍 Python > (完) 빅데이터분석기사' 카테고리의 다른 글

[빅분기_실기] 4회 작업형1 만점코드 복기(22.06.25) (0)	2022.06.27
[빅분기_실기] 작업형1: 예제19~21_lambda, merge, 슬라이싱 (0)	2022.06.27
[빅분기_실기] 작업형2: 3회기출_보험구매여부 예측모형(분류), 여행 데이터 (0)	2022.06.24
[빅분기_실기] 작업형1: 예제16~18_분산, 시계열(연,월), 시계열(요일) (0)	2022.06.24
[빅분기_실기] 작업형2: 2회기출_배송성공여부 예측모형(분류), 전자상거래 데이터 (0)	2022.06.24

Chloe's ChitChat

[빅분기_실기] 작업형2: 예제_집값예측모형(회귀), 부동산 데이터

'🐍 Python > (完) 빅데이터분석기사' 카테고리의 다른 글

댓글

티스토리툴바

[빅분기_실기] 작업형2: 예제_집값예측모형(회귀), 부동산 데이터

'🐍 Python > (完) 빅데이터분석기사' 카테고리의 다른 글

관련글

댓글

티스토리툴바