'Data science/Machine Learning basic' 카테고리의 글 목록

[Deep Learning & Machine Learning] Batch Iterator 만들어보자

Batch Iteration 배치 반복(Batch Iteration)은 머신 러닝 및 데이터 처리에서 대용량 데이터 세트를 보다 효율적으로 처리하기 위해 사용되는 스킬입니다. 메모리 집약적일 수 있는 전체 데이터 세트를 한 번에 처리하는 대신, 데이터는 더 작고 관리하기 쉬운 배치로 처리됩니다. Batch Iterator(배치 반복자)를 만드는 단계별 방법은 아래와 같습니다. - 샘플 수 결정(Dtermine the Number of Samples) : 데이터 세트의 총 샘플 수를 계산합니다. - 배치로 반복(Iterate in Batches) : 지정된 배치 크기 단위로 데이터 세트를 반복합니다. - 배치 생성(Yield Batches) : 각 반복에서 X에서 샘플 배치를 생성하고, 만약 제공된 경..

format_list_bulleted Data science/Machine Learning basic
· 2024. 8. 1.

[Data Visualization] 시각화 연습 - Netflix Data Visualization 2

오늘은 위의 그래프를 만들어 볼 것입니다. 흠 우선 이번에도 matplotlib 의 subplots를 사용해보면 좋겠네요. 상위 3개의 국가 그래프에는 빨간색을 칠해야하고 각 그래프의 위쪽에는 해당 국가의 컨텐츠 수를 써야합니다. 그리고 500개 단위로 라인을 그어줘야 하고 오른쪽에는 Insight 텍스트까지 넣어보면 되겠네요. 하나하나 코드를 다 뜯어서 어떤 식으로 전개되는지 해봅시다 ! 불필요한 데이터들을 계속해서 정리해주는 작업을 합니다 . 동시에 필요한 컬럼들을 생성합니다. 'counts' 값이 많은 순서대로 내림차순 저번 시간에 해봤던 반복문을 통한 주석달기. 정말 유용하게 쓸 수 있음 ! # Remove border from plot for s in ['top', 'left', 'right']..

format_list_bulleted Data science/Machine Learning basic
· 2023. 1. 25.

[Data Visualization] 시각화 연습 - Netflix Data Visualization

Dataset - Kaggle 의 netflix_titles.csv 데이터 세트 https://www.kaggle.com/code/joshuaswords/netflix-data-visualization Netflix Data Visualization Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources www.kaggle.com EDA 사실 여기까지는 뭐,.. 애초에 데이터 시각화를 연습하기 위해서 이 데이터 셋을 선택했기에. 데이터 시각화를 요즘 하도 안해서 코드를 작성하는 피지컬이 많이 죽었다고 해야하나 ㅜㅜ 사용해야 하는 파라미터 값이나 문법도 많이 까먹어서 다시 매일 하나씩..

format_list_bulleted Data science/Machine Learning basic
· 2023. 1. 20.

머신러닝 프로세스 이해하기 - Machine Learning Process & Pipeline

항상 헷갈리는 머신러닝 나만 그런건지 모르겠지만... 주기적으로 캐글 문제들을 풀지 않아서 그런걸까. 머신러닝의 프로세스를 대충 알고 있지만 어느 단계에서 어떤 방법을 사용해야 하는지 자꾸 까먹거나 헷갈릴 때가 많다. 중간 고사도 끝났고 kaggle 문제들을 본격적으로 풀기 전에 다시 한 번 머신러닝의 전체적인 프로세스를 쭉 학습하며 정리했다. 구글링을 해보면 정말 많은 레퍼런스가 있는데, 사실 사용하는 사람들마다 용어가 조금씩 다르기도 하고 순서도 제각각 다른 경우도 많다. 하지만 사용하는 사이킷런 코드나 큰 틀은 일관된 방향성을 갖는다. 이번 포스팅에서는 데이터 전처리에 대해 다룬다. 데이터 전처리는 주로 데이터 클리닝(Data cleaning) , 데이터 변형(Data Transformation),..

format_list_bulleted Data science/Machine Learning basic
· 2022. 10. 28.

차원 축소 (Dimension Reduction) - PCA 분석 part1

머신러닝에서 대표적인 차원 축소 알고리즘은 PCA , LDA , SVD, NMF가 있습니다. 차원 축소란 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것입니다. 이번 포스팅에서는 PCA 분석의 개론에 대해서 최대한 자세히 내용을 담았고 다음 포스팅에서는 실제 파이썬코드와 사이킷런을 활용하여 예제 데이터를 분석합니다. 일반적으로 차원이 증가할수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지게 됩니다. 차원이 증가한다는 것은 변수의 증가와 동일하다고 이해하면 되겠습니다. ( ex. iris 데이터를 예로 글면 4개의 독립변인들이 하나의 공간에 표현되기 위해서는 그 공간이 4차원이어야 합니다 ) 차원이 증가할수록 희소(sparse)한 구조를 가지게 됩니..

format_list_bulleted Data science/Machine Learning basic
· 2022. 9. 21.

Mastering Machine Learning Algorithm - chapter1 ( 머신러닝 알고리즘 마스터 )

Chapter1. 머신러닝 알고리즘 마스터라는 교재로 머신러닝 복습겸 자세히 알아가기 중. Kaggle 과 유튜브로 머신러닝을 배웠고 머신러닝의 기본적인 컨셉과 모델 사용법 등을 알고 있었고 잘 사용 중이다. 기본적인 내용 복습 겸 이 책을 선택하게 되었는데 정말 자세한 내용을 다룬다. 즉 굉장히 딥하고 어려운 내용이 많다. 특히 선형대수와 확률 및 수식이 굉장히 많기 때문에 정말 자세히 복습할 수 있다. Capter 1 에는 굉장히 기본적인 내용들만 나오지만 처음 알게된 부분들이 많다. 머신러닝의 알고리즘을 정말 자세히 분해하여 설명하므로 머신러닝을 공부하는 사람들에게 도움이 많이 될 것 같다. 블로그에는 이 책에서 몰랐던 내용 혹은 중요하다고 생각하는 부분을 발췌해서 정리합니다. 데이터 생성 프로세스..

format_list_bulleted Data science/Machine Learning basic
· 2022. 9. 14.