[팀프로젝트] - AI HUB 에서 스케치 데이터 다운받기 (1)

반응형

데이터 선정부터 데이터 전처리 , 모델링을 하고

Django로 모델 서빙 배포까지 해보는 프로젝트를 시작했다.

 

팀원들과 회의를 한 결과 AI HUB에 있는 '스케치, 아이콘 인식용 다양한 추상 이미지 데이터'라는 이미지 데이터를 활용하여

손으로 그린 글씨를 분류해주는 아이템을 만들어보기로 했다.

 

 

데이터의 크기는 36.93GB,  허브에 있는 수많은 데이터들에 비해서 데이터가 작은 편이지만 그래도 나의 맥북에서 원활하게 돌릴 수 있을까 걱정이 된다.

 

역시... 다운로드 받는데만 약 2시간이 넘게 걸렸고 압축도 한 세시간 걸린거 같다.. 

당연히 로컬에서는 안돌아가서 코랩에서 하려고 시도했지만 런타임이 끊길때마다 unzip을 해줘야해서 너무 불편하다...

 

 

데이터의 구성은 이런식으로 되어있다. 

 

일단 코랩에서 unzip을 통해 압축된 데이터 파일들의 압축을 풀어준다.

 

데이터는 ABSTRACT_ILLUSTRATION , ABSTRACT_PICTOGRAM , ABSTRACT_SKETCH 으로 Json 파일과 원천 이미지로 구성이 되어있다. 

 

데이터 폴더 구성이 L1_1 ~  / L2_1 ~ / L3_1 ~ 이렇게 구성이 되어있어서 우선 L3_1 내부의 json 데이터 셋만 가져와서 확인했다.

Json 데이터를 잘 불러온다. 

소분류 카테고리의 종류가 1006개나 있어서 이를 추릴 필요가 있어보인다. 

 

이미지 데이터를 직접 다뤄본 적은 많은데 json 파일을 전처리하는게 처음이라 부족한 부분이 많은 것같다.

Json 데이터를 다루는 것은 딥러닝에서 필수적이기 때문에 확실히 학습을 해야할 것 같다.

반응형