Blog

Real Estate and Mortgage Blog

pca 차원축소 예제

상위 2개의 고유 벡터와 원래 행렬이 있으므로 k 차원이 줄어든 새 데이터 집합을 형성하는 시간입니다(여기 k=2). PCA는 선형 기법으로, 이전 데이터 세트와 새 데이터 세트 사이에 선형 방정식을 형성한다. 주성분 분석(PCA)은 다양한 분야에서 널리 사용되는 비감독선형 변환 기법으로, 피처 추출 및 치수 감소에 가장 두드러지게 사용됩니다. PCA의 그밖 대중적인 응용은 주식 시장 거래에 있는 신호의 탐구적인 데이터 분석 그리고 de-noising, 및 생물 정보학의 필드에 있는 게놈 데이터 및 유전자 발현 수준의 분석포함합니다. 주 성분 분석(PCA)은 피처 추출에 사용되는 통계적 방법입니다. PCA는 고차원 및 상관 데이터에 사용됩니다. PCA의 기본 아이디어는 아래와 같이 기능의 원래 공간을 주요 구성 요소의 공간으로 변환하는 것입니다: 차원 감소는 특히 수천 개의 기능으로 작업할 때 기계 학습에서 매우 중요한 역할을 합니다. 주요 구성 요소 분석은 최고 차원 감소 알고리즘 중 하나이며 실제 프로젝트에서 이해하고 사용하는 것이 어렵지 않습니다. 이 기술은 기능 조작 작업을 더 쉽게 만드는 것 외에도 이 게시물에서 보았듯이 분류자의 결과를 개선하는 데 도움이됩니다. 우리는이 계속 시리즈의 다음 게시물에서 또 다른 선형 차원 감소 방법 ICA를 다룰 것입니다.

이것은 치수 감소 기술이 구출되는 곳입니다. 대체로 차원 감소에는 기능 제거 및 기능 추출과 같은 두 가지 클래스가 있습니다. 비선형 치수 감소에 대한 다른 접근 방식은 병목 숨겨진 레이어가 있는 피드 포워드 신경망의 특별한 종류인 자동 엔코더를 사용하는 것입니다. [14] 딥 인코더의 교육은 일반적으로 탐욕스러운 계층별 사전 교육(예: 제한된 Boltzmann 컴퓨터 스택 사용)을 사용하여 수행되며, 그 다음에는 역전파에 기반한 미세 조정 단계가 뒤따릅니다. GDA는 커널 함수 연산자에서 비선형 판별 해석을 처리합니다. 기본 이론은 GDA 메서드가 입력 벡터를 고차원 기능 공간으로 매핑하는 한 지원 벡터 기계(SVM)에 가깝습니다. [15] [16] LDA와 유사하게, GDA의 목적은 클래스 간 산란과 클래스 내 산란의 비율을 최대화함으로써 더 낮은 차원의 공간으로 피처에 대한 프로젝션을 찾는 것이다. 나는 당신이 치수 감소를위한 주요 구성 요소 분석에이 튜토리얼을 즐겼기를 바랍니다! 우리는 PCA 알고리즘 뒤에 수학을 커버, 파이썬과 PCA 단계별로 수행하는 방법, 그리고 scikit 학습을 사용하여 PCA를 구현하는 방법.

치수 감소를 위한 다른 기술은 선형 판별 분석(LDA) 및 커널 PCA(비선형 분리 데이터에 사용)입니다. 앞의 코드를 실행하여 테스트 집합에 대한 결정 영역을 플로팅한 후 로지스틱 회귀가 이 작은 2차원 기능 하위 공간에서 매우 잘 수행되고 테스트 데이터 집합에서 거의 샘플을 잘못 분류하지 않는 것을 볼 수 있습니다. 앞서 언급했듯이 선형 판별 분석, 요인 분석, Isomap 및 변형과 같은 다른 차원 감소 기법을 사용할 수 있습니다.