머신러닝 프로세스 이해하기 - Machine Learning Process & Pipeline
항상 헷갈리는 머신러닝 나만 그런건지 모르겠지만... 주기적으로 캐글 문제들을 풀지 않아서 그런걸까. 머신러닝의 프로세스를 대충 알고 있지만 어느 단계에서 어떤 방법을 사용해야 하는지 자꾸 까먹거나 헷갈릴 때가 많다. 중간 고사도 끝났고 kaggle 문제들을 본격적으로 풀기 전에 다시 한 번 머신러닝의 전체적인 프로세스를 쭉 학습하며 정리했다. 구글링을 해보면 정말 많은 레퍼런스가 있는데, 사실 사용하는 사람들마다 용어가 조금씩 다르기도 하고 순서도 제각각 다른 경우도 많다. 하지만 사용하는 사이킷런 코드나 큰 틀은 일관된 방향성을 갖는다. 이번 포스팅에서는 데이터 전처리에 대해 다룬다. 데이터 전처리는 주로 데이터 클리닝(Data cleaning) , 데이터 변형(Data Transformation),..
- Data science/Machine Learning basic
- · 2022. 10. 28.
차원 축소 (Dimension Reduction) - PCA 분석 part1
머신러닝에서 대표적인 차원 축소 알고리즘은 PCA , LDA , SVD, NMF가 있습니다. 차원 축소란 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것입니다. 이번 포스팅에서는 PCA 분석의 개론에 대해서 최대한 자세히 내용을 담았고 다음 포스팅에서는 실제 파이썬코드와 사이킷런을 활용하여 예제 데이터를 분석합니다. 일반적으로 차원이 증가할수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지게 됩니다. 차원이 증가한다는 것은 변수의 증가와 동일하다고 이해하면 되겠습니다. ( ex. iris 데이터를 예로 글면 4개의 독립변인들이 하나의 공간에 표현되기 위해서는 그 공간이 4차원이어야 합니다 ) 차원이 증가할수록 희소(sparse)한 구조를 가지게 됩니..
- Data science/Machine Learning basic
- · 2022. 9. 21.