2.1 훈련세트와 테스트 세트
완벽한 보고서
모델을 학습시킨 데이터로 다시 테스트 하는것은 의미가 없음.
→ 새로운 데이터로 테스틑해야함
지도 학습:타겟 데이터가 있는 학습
비지도 학습: 타겟 데이터가 없는 학습
강화학습: 학습 이후 피드백을 받아 개선해가는 모델
훈련 세트와 테스트 세트
데이터를 훈련/테스트 세트로 나눠서 분류
샘플링 편향
고르게 훈련 세트와 테스트 세트는 분류되어야 한다.
넘파이 사용하기
2차원 리스트를 사용하기 위해선 numpy 사용이 필수적이다
데이터 섞기
입력 데이터와 타겟 데이터가 함께 테스트/훈련 세트로 분류되어 이동해야 한다.
→ 인덱스를 랜덤으로 섞은 후 나누기
2.2 데이터 전처리
넘파이로 데이터 준비
column_stack을 이용하여 2차원 리스트로 합치기
사이킷런으로 데이터 나누기
수상한 도미
25cm 150g인 생선을 빙어로 예측해버림 → x축과 y축의 범위가 달라서 이런 상황이 발생한다.
기준을 맞춰라
plt.xlim을 활용하여 기준을 맞춰준다.
스케일이 큰 특성에 영향을 받기 쉽다. 따라서 스케일을 맞춰줘야한다.
표준점수로 바꾸기
(특성-평균)/표준편차 = z점수