목록python (8)
TechBlog

2023년 3월 18일에 velog 블로그에 작성한 글을 옮겼습니다. 실습 데이터: 캐글 타이타닉 데이터 데이터 스케일링 데이터 스케일링(Data Scaling)이란 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업을 의미합니다. 값을 조정하는 과정이기 때문에 수치형 변수에만 적용해야 합니다. 사이킷런에서는 스케일링을 수행하기 위한 다양한 스케일러를 제공하는데요. 이때 모든 스케일러는 공통적으로 다음과 같은 메서드를 이용합니다. fit(): 데이터 변환을 위한 기존 정보 설정 (ex: 데이터 세트의 최댓값/최솟값) transform(): fit()을 통해 설정된 정보를 이용해 실제로 데이터를 변환 그리고 fit_transform()은 위 두 가지 메서드를 한 번에 적용하는 기능을 수행합니다. 우선..

2023년 3월 16일에 velog 블로그에 작성한 글을 옮겼습니다. 실습 데이터: 캐글 타이타닉 데이터 데이터 인코딩 사이킷런의 머신러닝 모델은 일반적으로 문자열 값을 인식하지 못합니다. 따라서 모든 문자열 값은 숫자형으로 변환하는 과정이 필요합니다. 문자열 변수는 일반적으로 카테고리형(범주형), 텍스트형으로 나눠지는데요. ① 텍스트형의 경우, feature vectorization 등의 기법으로 벡터화하거나 불필요하다고 판단되면 삭제하는 게 좋습니다. 예를 들어, 일련번호(ex: 1, 2, 3, ...)를 나타내는 컬럼의 경우 인코딩하지 않고 삭제하는 게 더 좋을 수도 있습니다. 일련번호는 단순히 데이터 행을 구분하는 용도로 사용되기 때문에 예측에 필요한 요소가 아닐 뿐더러 오히려 예측 성능을 떨어뜨..