'python' 태그의 글 목록 (2 Page)

Notice

Recent Posts

Recent Comments

Link

Github

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록python (8)

TechBlog

[데이터 전처리] 데이터 스케일링(StandardScaler, MinMaxScaler, RobustScaler)

2023년 3월 18일에 velog 블로그에 작성한 글을 옮겼습니다. 실습 데이터: 캐글 타이타닉 데이터 데이터 스케일링 데이터 스케일링(Data Scaling)이란 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업을 의미합니다. 값을 조정하는 과정이기 때문에 수치형 변수에만 적용해야 합니다. 사이킷런에서는 스케일링을 수행하기 위한 다양한 스케일러를 제공하는데요. 이때 모든 스케일러는 공통적으로 다음과 같은 메서드를 이용합니다. fit(): 데이터 변환을 위한 기존 정보 설정 (ex: 데이터 세트의 최댓값/최솟값) transform(): fit()을 통해 설정된 정보를 이용해 실제로 데이터를 변환 그리고 fit_transform()은 위 두 가지 메서드를 한 번에 적용하는 기능을 수행합니다. 우선..

Study/Machine Learning 2023. 5. 26. 14:46

[데이터 전처리] 데이터 인코딩(Label encoding, One-Hot encoding)

2023년 3월 16일에 velog 블로그에 작성한 글을 옮겼습니다. 실습 데이터: 캐글 타이타닉 데이터 데이터 인코딩 사이킷런의 머신러닝 모델은 일반적으로 문자열 값을 인식하지 못합니다. 따라서 모든 문자열 값은 숫자형으로 변환하는 과정이 필요합니다. 문자열 변수는 일반적으로 카테고리형(범주형), 텍스트형으로 나눠지는데요. ① 텍스트형의 경우, feature vectorization 등의 기법으로 벡터화하거나 불필요하다고 판단되면 삭제하는 게 좋습니다. 예를 들어, 일련번호(ex: 1, 2, 3, ...)를 나타내는 컬럼의 경우 인코딩하지 않고 삭제하는 게 더 좋을 수도 있습니다. 일련번호는 단순히 데이터 행을 구분하는 용도로 사용되기 때문에 예측에 필요한 요소가 아닐 뿐더러 오히려 예측 성능을 떨어뜨..

Study/Machine Learning 2023. 5. 26. 14:42

이전 Prev 1 2 Next 다음

목록python (8)

TechBlog

티스토리툴바