혼공머신10 [혼자 공부하는 머신러닝 + 딥러닝] 특성 공학과 규제 [혼자 공부하는 머신러닝+딥러닝] 책의 내용을 정리한 글 입니다. 개념 다중 회귀 : 다중 회귀(multiple regression)란 여러 개의 특성을 사용하는 회귀 모델이다. → 특성이 많으면 선형 모델은 강력한 성능을 발휘한다. 특성 공학 : 주어진 특성을 조합하여 새로운 특성을 만드는 일련의 작업 과정 ex) 농어 길이 x 농어 높이 규제 : 머신러닝 모델이 훈련 세트를 너무 과도하게 학습하지 못하도록 훼방하는 것을 말한다. (= 훈련 세트에 과대적합되지 않도록 한다.) 선형 회귀 모델에서 규제는 어떻게 이루어질까? 선형 회귀 모델에 규제 추가한다는 것은 특성에 곱해지는 계수(또는 기울기)의 크기를 작게 만드는 일이다. 릿지 규제가 추가된 선형 회귀 모델 중 하나이며, 비교적 효과가 좋아 널리 사.. 2023. 4. 21. [혼자 공부하는 머신러닝 + 딥러닝] k-최근접 이웃 회귀 [혼자 공부하는 머신러닝+딥러닝] 책의 내용을 정리한 글 입니다. 개념 지도 학습 알고리즘은 크게 분류와 회귀로 나뉜다. 분류 : 샘플을 몇 개의 클래스 중 하나로 분류하는 문제 회귀 : 클래스 중 하나로 분류하는 것이 아닌 임의의 수치를 예측하는 문제 ex) 내년도 경제 성장률을 예측하거나 배달이 도착할 시간을 예측하는 것 두 변수 사이의 상관관계를 분석하는 방법을 회귀라 부르게 되었다고 한다. k-최근접 이웃 회귀 : k-최근접 이웃 알고리즘을 사용한 회귀 알고리즘이다. → 가장 가까운 이웃 샘플을 찾고 이 샘플들의 타깃값을 평균하여 예측으로 삼는다. 그런데 회귀에서는 예측값이 임의의 숫자이기 때문에 정확한 숫자를 맞힌다는 것은 거의 불가능 하다. 그렇다면 어떻게 모델의 성능을 평가할 수 있을까? .. 2023. 4. 11. [혼자 공부하는 머신러닝+딥러닝] 데이터 전처리 [혼자 공부하는 머신러닝+딥러닝] 책의 내용을 정리한 글 입니다. 개념 k-최근접 이웃 같은 거리 기반 알고리즘은 샘플 간의 거리에 영향을 많이 받는다. 때문에 모델을 훈련할 때 특성 간의 스케일이 다른 경우 특성값을 일정한 기준으로 맞춰 주어야 한다. 이런 작업을 데이터 전처리(data preprocessing)라고 부른다. (+ 모든 알고리즘이 데이터 전처리가 필요한 건 아니다! 트리 기반 알고리즘들은 특성의 스케일이 다르더라도 잘 동작한다.) 가장 널리 사용하는 전처리 방법 중 하나는 표준점수(혹은 z 점수) 이다. 표준점수 각 특성값이 평균에서 표준편차의 몇 배만큼 떨어져 있는지를 나타낸다. 표준점수를 통해 실제 값의 크기와 상관없이 동일한 조건으로 비교가 가능하다. 그렇다면, 표준점수는 어떻게 .. 2023. 4. 11. [혼자 공부하는 머신러닝+딥러닝] 훈련 세트와 테스트 세트 [혼자 공부하는 머신러닝+딥러닝] 책의 내용을 정리한 글 입니다. 개념 머신러닝 알고리즘은 크게 두가지로 나눌 수 있다. 지도 학습: 입력(데이터)과 타깃(정답)을 전달하여 모델을 훈련한 다음 새로운 데이터를 예측하는 데 활용 비지도 학습: 타깃(정답) 없이 무엇을 예측하는 것이 아니라 입력(데이터)에서 어떤 특징을 찾는 데 주로 활용 두가지 학습에서 모두 사용되는 입력 데이터는 여러가지 특성(ex. 물고기의 길이, 무게)의 그룹이라고 볼 수 있다. 그리고 이런 하나의 입력 데이터를 샘플 이라고 부른다. 지도 학습에서는 입력과 타깃, 비지도 학습에서는 입력 데이터가 필요한데 이 데이터도 테스트 세트와 훈련 세트로 나누어 사용하게 된다. 이 과정에서 훈련 세트와 테스트 세트에 샘플이 골고루 섞여 있지 않아.. 2023. 4. 9. 이전 1 2 다음