정부, 초거대 AI 데이터 인프라 확충 나선다

작성 : 2023-04-14 15:00:01
올해 AI학습용 데이터 구축사업에 2,805억 원 투입
거대언어모델 지원을 위한 데이터 34종 구축 추진
▲ 자료이미지

과학기술정보통신부(장관 이종호)는 올해'인공지능 학습용 데이터 구축사업(이하 구축사업)'에 2,805억 원의 예산을 투입해, 150종의 신규 데이터를 구축할 예정이라고 밝혔습니다.

아울러, 4월 14일부터 5월 19일까지 인공지능 학습용 데이터 구축사업 참여사업자 공모계획을 발표했습니다.

현재 국내 중견·중소기업, 스타트업, 대학 등은 AI 개발·도입을 가로막는 주요 저해요인으로 학습용 데이터 부족 문제를 지속적으로 제기하고 있는 실정입니다.

또 대량의 학습데이터는 인공지능의 성능향상과 직결되는 핵심요소이나 데이터 수집·가공에는 상당한 시간과 비용이 필요합니다.

이에 과기정통부는 2017년부터 언어, 이미지, 영상, 음성, 센서 등 다양한 유형의 인공지능 학습데이터를 구축해 누구나 손쉽게 활용할 수 있도록 지원하고 있습니다.

현재 AI 허브(aihub.or.kr)를 통해 한국어, 헬스케어, 교통 등 6대 분야 381종의 데이터를 제공 중이며, 이달 말부터는 지난해 구축한 310종을 품질검증을 거쳐 순차적으로 추가 개방할 예정입니다.

올해 구축사업에는 지난해 수요조사를 통해 접수된 약 1,400 건의 후보데이터를 토대로 기획된 130종의 데이터는 지정과제 형태로 추진할 예정입니다.

특히, 금년에는 챗GPT와 같은 초거대 AI에 기반한 대화형 모델 지원을 위한 데이터 구축도 추진합니다.

기존의 지도학습용 데이터(라벨링데이터) 물량은 일부 축소하고, 한국어 21종 등을 포함한 총 34종의 데이터를'초거대 AI 지원 데이터'로 구분해 자기 지도학습에 필요한 비라벨링 데이터 구축을 확대합니다.

또한 이미지 데이터 48종은 생성형 AI 등의 학습에도 활용할 수 있도록 이미지를 묘사·설명하는 캡션 정보를 추가로 포함하며, 2024년도부터는 사업개편을 통해 초거대 AI 데이터 구축을 별도 트랙으로 신설해 본격 지원할 예정입니다.

댓글

(0)
※ 댓글 작성시 상대방에 대한 배려와 책임을 담아 깨끗한 댓글 환경에 동참에 주세요.
0 / 300

많이 본 기사

랭킹뉴스