반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 머신러닝
- Unsupervised learning
- 추천 시스템
- Regularization
- 백준
- Vision
- 컴퓨터 비전
- OpenGL
- 그래픽스
- recommender system
- C++
- SGD
- CNN
- petal to metal
- 신경망
- 비용함수
- Kaggle
- SVM
- CPP
- 로지스틱 회귀
- neural network
- 딥러닝
- Support Vector Machine
- cs231n
- 인공지능
- logistic regression
- pre-trained
- 파이썬
- 컴퓨터 그래픽스
- Computer Vision
Archives
- Today
- Total
kwan's note
캐글 타이타닉 -titanic machine learning (kaggle) 본문
반응형
캐글의 대표문제중 하나인 타이타닉의 예측을 진행해보도록 하겠습니다.
데이터를 불러오고 열들을 살펴보겠습니다.
각각의 인덱스는
id, 생존여부, 좌석등급, 이름, 성별, 나이, 가족수, 부모/자식수, 티켓번호, 가격, 짐, 탑승장소로 이루어져 있습니다.
null data를 먼저 확인해보았습니다. age cabin embarked에 null data가 포함되어있습니다.
다음으로 sex는 male female로 적혀있는것을 encoding 하겠습니다.
다음으로 결측치 처리를 진행하였습니다. 각 class의 Fare를 구하고 null fare의 class가 3이었으므로 이에 해당하는 fare를 넣어주었습니다.(class 3의 mean fare)
다음으로 Age 결측치 처리를 위해 age와 corr가 가장 높은 pclass의 mean을 이용해 age를 채워넣기 위해 구해놓았습니다.
embarked 는 mode값 즉 최빈값을 넣어 만들겠습니다.
그다음 embarked는 one hot encoding을 진행했습니다
Age를 채워넣는 과정에서 warning이 떴습니다.(각 data에 접근해서 변경하였기 때문에)
하지만 여기서 문제가 발생하지는 않습니다.
그러다 문득 나이와 생존률의 관계가 궁금해서 시각화해봤습니다.
다음으론 성별.
여성의 생존률이 압도적으로 높았습니다.
이제부터 학습을 진행해보도록 하겠습니다.
싸이킷 런을 통해 로지스틱 회귀를 이용해 학습하였습니다.
이를 통해 prediction을 마무리하였습니다.
반응형
'project > others' 카테고리의 다른 글
[C++] 행렬 라이브러리 구현 (simple matrix library) (0) | 2022.07.04 |
---|---|
Simple tetris from scratch(C++) (0) | 2022.06.04 |
캐글 -petal to medtal (95% correct w. efficient net) (0) | 2021.03.11 |
캐글 -petal to medtal (pre trained model) (0) | 2021.03.07 |
fashion mnist (CNN 을 이용한 fashion mnist 분류) (1) | 2021.02.28 |