본문 바로가기

전체 글29

[혼자 공부하는 머신러닝+딥러닝] 주성분 분석 [혼자 공부하는 머신러닝+딥러닝] 책의 내용을 정리한 글입니다. 개념 차원 머신러닝에서는 특성을 차원이라고도 부른다. → 10,000개의 특성은 10,000개의 차원이라고 볼 수 있다. 다차원 배열에서 차원은 배열의 축 개수 1차원 배열에서 차원은 원소의 개수 차원 축소 : 원본 데이터의 특성을 적은 수의 새로운 특성으로 변환하는 비지도 학습의 한 종류 저장 공간을 줄이고 시각화하기 쉬워짐 다른 알고리즘의 성능을 높이고 모델의 훈련 속도도 높일 수 있음 주성분 분석 : 차원 축소 알고리즘의 하나로 데이터에서 가장 분산이 큰 방향을 찾는 방법 분산이 가장 큰 방향이란? 데이터를 잘 표현하는 어떠한 벡터(크기와 방향을 갖는 물리량을 의미) 이 벡터를 주성분이라고 부름 원본 데이터를 주성분에 투영하여 새로운 .. 2023. 5. 28.
[혼자 공부하는 머신러닝+딥러닝] k-평균 [혼자 공부하는 머신러닝+딥러닝] 책의 내용을 정리한 글입니다. 개념 k-평균 알고리즘 : 랜덤 하게 클러스터 중심을 정해 클러스터를 만든 후 클러스터의 중심을 이동하는 과정을 반복하면서 최적의 클러스터를 구성하는 알고리즘 클러스터 중심 : k-평균 알고리즘이 만든 클러스터에 속한 샘플의 특성 평균값 센트로이드라고도 부름 가장 가까운 클러스터 중심을 샘플의 또 다른 특성으로 사용하거나 새로운 샘플에 대한 예측으로 활용 가능 k-평균 알고리즘의 단점 중 하나는 클러스터 개수를 사전에 지정해야 한다는 것이다. 적절한 k 값을 찾기 위한 완벽한 방법은 없지만, 각각 장단점이 있는 몇 가지 도구들이 있다. 엘보우 방법 : 최적의 클러스터 개수를 정하는 방법 중 하나 클러스터 개수를 늘려가면서 이너셔의 변화를 관.. 2023. 5. 26.
[혼자 공부하는 머신러닝+딥러닝] 군집 알고리즘 [혼자 공부하는 머신러닝+딥러닝] 책의 내용을 정리한 글입니다. 개념 비지도 학습 머신러닝의 한 종류로, 훈련 데이터에 타깃이 없음 타깃이 없기 때문에 외부의 도움 없이 스스로 유용한 무언가를 학습해야 함 대표적인 비지도 학습 - 군집, 차원 축소 등 히스토그램 구간별로 값이 발생한 빈도를 그래프로 표시한 것 보통 x축 - 값의 구간(계급) / y축 - 발생 빈도(도수) 군집 비슷한 샘플끼리 하나의 그룹으로 모으는 대표적인 비지도 학습 작업 군집 알고리즘으로 모은 샘플 그룹 → 클러스터 코드 작성 군집과 비슷하게 흑백 사진의 픽셀 평균값을 사용해 같은 과일 사진들을 모아보자. 과일 사진 데이터 준비 !wget https://bit.ly/fruits_300_data -O fruits_300.npy imp.. 2023. 5. 21.
[Ruby On Rails] database migration 관련 명령어 모음 Rails는 데이터베이스와 관련하여 여러 기능들을 지원하고 있다. databeses.rake 파일에서 사용 가능한 명령어들을 확인할 수 있다. https://github.com/rails/rails/blob/v5.2.6/activerecord/lib/active_record/railties/databases.rake GitHub - rails/rails: Ruby on Rails Ruby on Rails. Contribute to rails/rails development by creating an account on GitHub. github.com db:create 현재 환경에 대한 데이터베이스를 생성 db:create:all 모든 환경에 대한 데이터베이스를 생성 db:drop 현재 환경에 대한 데이.. 2023. 5. 18.
[혼자 공부하는 머신러닝+딥러닝] 트리의 앙상블 [혼자 공부하는 머신러닝+딥러닝] 책의 내용을 정리한 글입니다. 개념 앙상블 학습 : 더 좋은 예측 결과를 만들기 위해 여러 개의 모델을 훈련하는 머신러닝 알고리즘 → CSV, 데이터베이스, 엑셀 과 같은 정형 데이터를 다루는 데 가장 뛰어난 성과를 내는 알고리즘 랜덤 포레스트 : 대표적인 결정 트리 기반의 앙상블 학습 방법 훈련 데이터로 부트스트랩 샘플을 사용하고, 노드를 분할할 때 랜덤하게 일부 특성을 선택하여 트리를 만드는 것이 특징 부트스트랩 샘플 - 훈련 데이터에서 중북 하여 랜덤 하게 샘플을 추출 기본적으로 100개의 결정 트리를 위 같은 방식으로 훈련한 뒤 분류는 가장 높은 확률을 가진 클래스로, 회귀는 각 트리의 예측을 평균으로 결과를 냄 랜덤하게 선택한 샘플과 특성을 사용하기 때문에 훈련.. 2023. 5. 14.
[혼자 공부하는 머신러닝+딥러닝] 교차 검증과 그리드 서치 [혼자 공부하는 머신러닝+딥러닝] 책의 내용을 정리한 글입니다. 개념 검증 세트 : 하이퍼파라미터 튜닝을 위해 모델을 평가할 때, 테스트 세트를 사용하지 않기 위해 훈련 세트에서 다시 떼어 낸 데이터 세트 훈련 세트와 테스트 세트만 사용해 테스트를 반복하며 파라미터 튜닝을 진행할 경우, 결국은 테스트 세트에 잘 맞는 모델이 만들어질 수 있음 훈련 세트에서 모델을 훈련하고 검증 세트로 모델을 평가하며 가장 적합한 파라미터를 찾은 후 테스트 세트로 최정 점수를 평가 교차 검증 : 훈련 세트를 여러 폴드로 나눈 다음 한 폴드가 검증 세트의 역할을 하고 나머지 폴드에서는 모델을 훈련하는 방식으로 모든 폴드에 대해 검증 점수를 얻어 평균하는 방법 훈련에 더 많은 데이터를 사용하고 안정적인 검증 점수를 얻기 위해 .. 2023. 5. 9.