[팀프로젝트] 이미지의 경로와 json 소분류 카테고리를 따로 저장해보자
라벨링 파일 JSON -> numpy array 지난번에 다운받은 데이터들 중에서 sketch 데이터만 사용하기로 했다. 데이터의 크기가 너무 크기 때문에 카테고리가 '동식물'인 스케치 데이터로 범위를 축소했다. training 이미지 데이터(.jpg), training 라벨링 데이터(.json), validation 이미지 데이터 , validation 라벨링 데이터 각 폴더에는 중분류 , 소분류로 나눠진 폴더가 세 겹으로 쌓여있다. 각 폴더들을 모두 탐색하여 json 파일의 소분류만 추출하여 데이터 프레임으로 만들었다. 이후에 모델링을 할 때 사용해야 하므로 데이터 프레임을 넘파이 배열로 저장했다. import os import json import pandas as pd # define the ro..
- Data science/Deep Learning Toy Project
- · 2023. 3. 25.
[팀프로젝트] - AI HUB 에서 스케치 데이터 다운받기 (1)
데이터 선정부터 데이터 전처리 , 모델링을 하고 Django로 모델 서빙 배포까지 해보는 프로젝트를 시작했다. 팀원들과 회의를 한 결과 AI HUB에 있는 '스케치, 아이콘 인식용 다양한 추상 이미지 데이터'라는 이미지 데이터를 활용하여 손으로 그린 글씨를 분류해주는 아이템을 만들어보기로 했다. 데이터의 크기는 36.93GB, 허브에 있는 수많은 데이터들에 비해서 데이터가 작은 편이지만 그래도 나의 맥북에서 원활하게 돌릴 수 있을까 걱정이 된다. 역시... 다운로드 받는데만 약 2시간이 넘게 걸렸고 압축도 한 세시간 걸린거 같다.. 당연히 로컬에서는 안돌아가서 코랩에서 하려고 시도했지만 런타임이 끊길때마다 unzip을 해줘야해서 너무 불편하다... 데이터의 구성은 이런식으로 되어있다. 일단 코랩에서 un..
- Data science/Deep Learning Toy Project
- · 2023. 3. 16.