kwan's note

캐글 타이타닉 -titanic machine learning (kaggle) 본문

project/others

캐글 타이타닉 -titanic machine learning (kaggle)

kwan's note 2021. 2. 4. 00:55
반응형

www.kaggle.com/c/titanic/

 

Titanic - Machine Learning from Disaster

Start here! Predict survival on the Titanic and get familiar with ML basics

www.kaggle.com

 

캐글의 대표문제중 하나인 타이타닉의 예측을 진행해보도록 하겠습니다.

train.csv
0.06MB
test.csv
0.03MB

 

데이터를 불러오고 열들을 살펴보겠습니다.

 

각각의 인덱스는

id, 생존여부, 좌석등급, 이름, 성별, 나이, 가족수, 부모/자식수, 티켓번호, 가격, 짐, 탑승장소로 이루어져 있습니다.

 

null data를 먼저 확인해보았습니다. age cabin embarked에 null data가 포함되어있습니다.

 

다음으로 sex는 male female로 적혀있는것을 encoding 하겠습니다.

다음으로 결측치 처리를 진행하였습니다. 각 class의 Fare를 구하고 null fare의 class가 3이었으므로 이에 해당하는 fare를 넣어주었습니다.(class 3의 mean fare)

 

다음으로 Age 결측치 처리를 위해 age와 corr가 가장 높은 pclass의 mean을 이용해 age를 채워넣기 위해 구해놓았습니다.

 

embarked 는 mode값 즉 최빈값을 넣어 만들겠습니다.

그다음 embarked는 one hot encoding을 진행했습니다

Age를 채워넣는 과정에서 warning이 떴습니다.(각 data에 접근해서 변경하였기 때문에)

하지만 여기서 문제가 발생하지는 않습니다.

 

그러다 문득 나이와 생존률의 관계가 궁금해서 시각화해봤습니다.

다음으론 성별.

여성의 생존률이 압도적으로 높았습니다.

 

이제부터 학습을 진행해보도록 하겠습니다.

 

싸이킷 런을 통해 로지스틱 회귀를 이용해 학습하였습니다.

이를 통해 prediction을 마무리하였습니다.

반응형