솔루션퀀트의 빅데이터 수집/가공 프로세스를 다음과 같이 소개한다
빅데이터 수집/가공 프로세스 요약
데이터 수집 파이프라인 구축
1) 심볼 분류
투자 가능한 심볼 리스트는 공식적인 데이터 소스로부터 open api, 크롤링, 기업제휴 등을 통해 정형데이터 형식으로 데이터를 수집. 최종적으로 각 시장별 투자 대상의 일반 명칭(기업명 등)과 심볼(종목코드, 티커 등)을 매핑한 데이터셋이 산출되며 심볼 매핑 데이터셋은 시장의 상황에 맞춰 주기적으로 업데이트
2) 엔티티 분류
소셜미디어 텍스트 또는 이미지 파일과 같은 비정형 데이터 소스는 머신러닝 기술을 활용하여 심볼이 매핑된 정형 데이터셋으로 생성. 심볼이 매핑된 정형화된 데이터셋은 표준화과정을 거쳐 최종 활용가능한 엔티티로서 데이터베이스에 적재
3) 데이터 가공 및 생산
생성된 엔티티를 기간별 집계 및 통계처리를 하여 가공 데이터셋으로 생산. 가공 데이터셋은 다양한 형태의 리소스로 재생산되며 포트폴리오 매니징, 데이터 사이언스, 개발에 활용하며 ML 처리 파이프라인에서도 이용