본문 바로가기

혼공머신10

[혼자 공부하는 머신러닝+딥러닝] 주성분 분석 [혼자 공부하는 머신러닝+딥러닝] 책의 내용을 정리한 글입니다. 개념 차원 머신러닝에서는 특성을 차원이라고도 부른다. → 10,000개의 특성은 10,000개의 차원이라고 볼 수 있다. 다차원 배열에서 차원은 배열의 축 개수 1차원 배열에서 차원은 원소의 개수 차원 축소 : 원본 데이터의 특성을 적은 수의 새로운 특성으로 변환하는 비지도 학습의 한 종류 저장 공간을 줄이고 시각화하기 쉬워짐 다른 알고리즘의 성능을 높이고 모델의 훈련 속도도 높일 수 있음 주성분 분석 : 차원 축소 알고리즘의 하나로 데이터에서 가장 분산이 큰 방향을 찾는 방법 분산이 가장 큰 방향이란? 데이터를 잘 표현하는 어떠한 벡터(크기와 방향을 갖는 물리량을 의미) 이 벡터를 주성분이라고 부름 원본 데이터를 주성분에 투영하여 새로운 .. 2023. 5. 28.
[혼자 공부하는 머신러닝+딥러닝] k-평균 [혼자 공부하는 머신러닝+딥러닝] 책의 내용을 정리한 글입니다. 개념 k-평균 알고리즘 : 랜덤 하게 클러스터 중심을 정해 클러스터를 만든 후 클러스터의 중심을 이동하는 과정을 반복하면서 최적의 클러스터를 구성하는 알고리즘 클러스터 중심 : k-평균 알고리즘이 만든 클러스터에 속한 샘플의 특성 평균값 센트로이드라고도 부름 가장 가까운 클러스터 중심을 샘플의 또 다른 특성으로 사용하거나 새로운 샘플에 대한 예측으로 활용 가능 k-평균 알고리즘의 단점 중 하나는 클러스터 개수를 사전에 지정해야 한다는 것이다. 적절한 k 값을 찾기 위한 완벽한 방법은 없지만, 각각 장단점이 있는 몇 가지 도구들이 있다. 엘보우 방법 : 최적의 클러스터 개수를 정하는 방법 중 하나 클러스터 개수를 늘려가면서 이너셔의 변화를 관.. 2023. 5. 26.
[혼자 공부하는 머신러닝+딥러닝] 군집 알고리즘 [혼자 공부하는 머신러닝+딥러닝] 책의 내용을 정리한 글입니다. 개념 비지도 학습 머신러닝의 한 종류로, 훈련 데이터에 타깃이 없음 타깃이 없기 때문에 외부의 도움 없이 스스로 유용한 무언가를 학습해야 함 대표적인 비지도 학습 - 군집, 차원 축소 등 히스토그램 구간별로 값이 발생한 빈도를 그래프로 표시한 것 보통 x축 - 값의 구간(계급) / y축 - 발생 빈도(도수) 군집 비슷한 샘플끼리 하나의 그룹으로 모으는 대표적인 비지도 학습 작업 군집 알고리즘으로 모은 샘플 그룹 → 클러스터 코드 작성 군집과 비슷하게 흑백 사진의 픽셀 평균값을 사용해 같은 과일 사진들을 모아보자. 과일 사진 데이터 준비 !wget https://bit.ly/fruits_300_data -O fruits_300.npy imp.. 2023. 5. 21.
[혼자 공부하는 머신러닝+딥러닝] 트리의 앙상블 [혼자 공부하는 머신러닝+딥러닝] 책의 내용을 정리한 글입니다. 개념 앙상블 학습 : 더 좋은 예측 결과를 만들기 위해 여러 개의 모델을 훈련하는 머신러닝 알고리즘 → CSV, 데이터베이스, 엑셀 과 같은 정형 데이터를 다루는 데 가장 뛰어난 성과를 내는 알고리즘 랜덤 포레스트 : 대표적인 결정 트리 기반의 앙상블 학습 방법 훈련 데이터로 부트스트랩 샘플을 사용하고, 노드를 분할할 때 랜덤하게 일부 특성을 선택하여 트리를 만드는 것이 특징 부트스트랩 샘플 - 훈련 데이터에서 중북 하여 랜덤 하게 샘플을 추출 기본적으로 100개의 결정 트리를 위 같은 방식으로 훈련한 뒤 분류는 가장 높은 확률을 가진 클래스로, 회귀는 각 트리의 예측을 평균으로 결과를 냄 랜덤하게 선택한 샘플과 특성을 사용하기 때문에 훈련.. 2023. 5. 14.
[혼자 공부하는 머신러닝+딥러닝] 교차 검증과 그리드 서치 [혼자 공부하는 머신러닝+딥러닝] 책의 내용을 정리한 글입니다. 개념 검증 세트 : 하이퍼파라미터 튜닝을 위해 모델을 평가할 때, 테스트 세트를 사용하지 않기 위해 훈련 세트에서 다시 떼어 낸 데이터 세트 훈련 세트와 테스트 세트만 사용해 테스트를 반복하며 파라미터 튜닝을 진행할 경우, 결국은 테스트 세트에 잘 맞는 모델이 만들어질 수 있음 훈련 세트에서 모델을 훈련하고 검증 세트로 모델을 평가하며 가장 적합한 파라미터를 찾은 후 테스트 세트로 최정 점수를 평가 교차 검증 : 훈련 세트를 여러 폴드로 나눈 다음 한 폴드가 검증 세트의 역할을 하고 나머지 폴드에서는 모델을 훈련하는 방식으로 모든 폴드에 대해 검증 점수를 얻어 평균하는 방법 훈련에 더 많은 데이터를 사용하고 안정적인 검증 점수를 얻기 위해 .. 2023. 5. 9.
[혼자 공부하는 머신러닝+딥러닝] 결정 트리 [혼자 공부하는 머신러닝+딥러닝] 책의 내용을 정리한 글입니다. 개념 로지스틱 회귀 모델 같은 대부분의 머신러닝 모델은 모델이 왜 계수 값을 이렇게 학습했는지 학습의 결과를 설명하기가 어렵다. 쉬운 방법으로 학습을 설명할 수 있는 모델은 없을까? 결정 트리 : 예/아니오에 대한 질문을 이어나가면서 정답을 찾아 학습하는 알고리즘 비교적 예측 과정을 이해하기 쉽고 성능도 뛰어나다 결정 트리의 맨 위의 노드를 루프 노드, 맨 아래 끝에 달린 노드를 리프 노드라고 한다 제한 없이 성장할 경우 훈련 세트에 과대적합되기 쉽다 사이킷런에서는 결정 트리의 성장을 제한하기 위한 여러 가지 가지치기 매개변수를 제공 특성 값의 스케일은 결정 트리 알고리즘에 아무런 영향을 미치지 않는다 표준화 전처리를 할 필요가 없음 불순도.. 2023. 5. 9.