Machine Learning13 [혼자 공부하는 머신러닝+딥러닝] 확률적 경사 하강법 [혼자 공부하는 머신러닝+딥러닝] 책의 내용을 정리한 글입니다. 개념 훈련한 모델을 버리지 않고 새로운 데이터에 대해서만 조금씩 더 훈련할 수는 없을까? → 이런 식의 훈련방식을 점진적 학습 또는 온라인 학습이라고 부른다. 확률적 경사 하강법 : 대표적인 점진적 학습 알고리즘으로, 훈련 세트에서 랜덤하게 하나의 샘플을 골라 손실 함수의 경사를 따라 최적의 모델을 찾는다. 무작위로 선택하는 샘플의 개수를 여러 개 사용하는 경우 미니배치 경사 하강법이라고 한다. 한 번에 전체 샘플을 사용하는 경우 배치 경사 하강법이라고 한다. 확률적 경사 하강법에서 훈련 세트를 한 번 모두 사용하는 과정을 에포크라고 부르며, 일반적으로 수십에서 수백 번의 에포크를 반복한다. 확률적 경사 하강법에서 말하는 손실 함수란 무엇일.. 2023. 5. 2. [혼자 공부하는 머신러닝 + 딥러닝] 로지스틱 회귀 [혼자 공부하는 머신러닝+딥러닝] 책의 내용을 정리한 글 입니다. 개념 다중 분류 : 타깃 데이터에 2개 이상의 클래스가 포함된 문제 로지스틱 회귀 : 선형 방정식을 사용한 분류 알고리즘 선형 회귀와 달리 시그모이드 함수나 소프트맥스 함수를 사용하여 클래스 확률(0~1 사이 값)을 출력할 수 있다. 클래스 확률이 1에 가까울 수록 양성 클래스, 0에 가까울수록 음성 클래스라고 판단 (딱 0.5는 음성 클래스로 판단) 이진 분류 - 시그모이드 함수 사용 선형 방정식의 출력을 0과 1 사이의 값으로 압축하여 이진 분류를 위해 사용한다. z가 무한하게 큰 음수 일 경우 0에 가까워지고, 무한하게 큰 양수일 경우는 1에 가까워진다. 지수가 음수인 경우 지수의 부호가 양수인 거듭제곱의 역수와 같다. x^-n = .. 2023. 4. 27. [혼자 공부하는 머신러닝 + 딥러닝] 특성 공학과 규제 [혼자 공부하는 머신러닝+딥러닝] 책의 내용을 정리한 글 입니다. 개념 다중 회귀 : 다중 회귀(multiple regression)란 여러 개의 특성을 사용하는 회귀 모델이다. → 특성이 많으면 선형 모델은 강력한 성능을 발휘한다. 특성 공학 : 주어진 특성을 조합하여 새로운 특성을 만드는 일련의 작업 과정 ex) 농어 길이 x 농어 높이 규제 : 머신러닝 모델이 훈련 세트를 너무 과도하게 학습하지 못하도록 훼방하는 것을 말한다. (= 훈련 세트에 과대적합되지 않도록 한다.) 선형 회귀 모델에서 규제는 어떻게 이루어질까? 선형 회귀 모델에 규제 추가한다는 것은 특성에 곱해지는 계수(또는 기울기)의 크기를 작게 만드는 일이다. 릿지 규제가 추가된 선형 회귀 모델 중 하나이며, 비교적 효과가 좋아 널리 사.. 2023. 4. 21. [혼자 공부하는 머신러닝 + 딥러닝] 선형 회귀 [혼자 공부하는 머신러닝+딥러닝] 책의 내용을 정리한 글 입니다. 개념 k-최근접 이웃 알고리즘의 한계는 훈련 세트 범위 밖의 샘플을 예측할 수 없다는 점이다. 이 한계를 해결할 수 있는 방법을 알아보자. 선형 회귀 (linear regression) : 널리 사용되는 대표적인 회귀 알고리즘 특성과 타깃 사이의 관계를 가장 잘 나타내는 선형 방정식을 찾는다. 선형 회귀가 찾은 특성과 타깃 사이의 관계는 선형 방정식의 계수(coef_) 또는 절편(intercept_)에 저장된다. 다항 회귀 : 다항식을 사용한 선형 회귀 다항식을 사용하여 특성과 타깃 사이의 관계를 나타낸다. 모델 기반 학습과 사례 기반 학습 모델 기반 학습 머신러닝 알고리즘이 찾은 값을 의미하는 모델 파라미터가 존재하고 알고리즘의 훈련 과.. 2023. 4. 15. [혼자 공부하는 머신러닝 + 딥러닝] k-최근접 이웃 회귀 [혼자 공부하는 머신러닝+딥러닝] 책의 내용을 정리한 글 입니다. 개념 지도 학습 알고리즘은 크게 분류와 회귀로 나뉜다. 분류 : 샘플을 몇 개의 클래스 중 하나로 분류하는 문제 회귀 : 클래스 중 하나로 분류하는 것이 아닌 임의의 수치를 예측하는 문제 ex) 내년도 경제 성장률을 예측하거나 배달이 도착할 시간을 예측하는 것 두 변수 사이의 상관관계를 분석하는 방법을 회귀라 부르게 되었다고 한다. k-최근접 이웃 회귀 : k-최근접 이웃 알고리즘을 사용한 회귀 알고리즘이다. → 가장 가까운 이웃 샘플을 찾고 이 샘플들의 타깃값을 평균하여 예측으로 삼는다. 그런데 회귀에서는 예측값이 임의의 숫자이기 때문에 정확한 숫자를 맞힌다는 것은 거의 불가능 하다. 그렇다면 어떻게 모델의 성능을 평가할 수 있을까? .. 2023. 4. 11. [혼자 공부하는 머신러닝+딥러닝] 데이터 전처리 [혼자 공부하는 머신러닝+딥러닝] 책의 내용을 정리한 글 입니다. 개념 k-최근접 이웃 같은 거리 기반 알고리즘은 샘플 간의 거리에 영향을 많이 받는다. 때문에 모델을 훈련할 때 특성 간의 스케일이 다른 경우 특성값을 일정한 기준으로 맞춰 주어야 한다. 이런 작업을 데이터 전처리(data preprocessing)라고 부른다. (+ 모든 알고리즘이 데이터 전처리가 필요한 건 아니다! 트리 기반 알고리즘들은 특성의 스케일이 다르더라도 잘 동작한다.) 가장 널리 사용하는 전처리 방법 중 하나는 표준점수(혹은 z 점수) 이다. 표준점수 각 특성값이 평균에서 표준편차의 몇 배만큼 떨어져 있는지를 나타낸다. 표준점수를 통해 실제 값의 크기와 상관없이 동일한 조건으로 비교가 가능하다. 그렇다면, 표준점수는 어떻게 .. 2023. 4. 11. 이전 1 2 3 다음