국립국어원, AI 학습용 한국어 자료 11종 공개

작성 : 2022-04-02 13:54:55
국립국어원

국립국어원이 AI의 한국어 처리 능력 향상에 필수적인 AI 학습용 한국어 자료 11종을 공개합니다.

국립국어원이 '모두의 말뭉치' 페이지에 공개하는 자료는 지난해에 수집한 신문과 국회 회의록, 온라인 대화 등을 담은 기초 자료 4종과 속성 기반의 감성, 추론 확신성, 개체명 정보를 분석한 자료, 개체명 분석 정보에 위키피디아 지식 정보를 연결한 개체 연결 자료 등 분석 자료 7종이다.

한국어의 특성을 반영하여 '속성 기반으로 감성을 분석한 말뭉치'와 일반인이 문장에서 추측할 수 있는 가설을 확신하는 정도를 표시한 '추론 확신성 말뭉치' 등도 포함됐습니다.

국립국어원은 하반기에 개최할 예정인 'AI의 언어 능력 평가 대회'에 평가 자료로 사용할 예정이어서 전체 자료의 절반만 공개한다고 밝혔습니다.

하반기에는 비윤리 표현 말뭉치와 표/그림 등에 대한 유사문장 생성 말뭉치 등도 공개할 예정입니다.

국립국어원은 지난 2020년 8월부터 1만여 건의 한국어 말뭉치를 배포하고 있으며 270여 개의 기업과 기관이 활용하고 있습니다.

네이버와 삼성, SK텔레콤 등 대기업이나 한국전자통신연구원 등 관련 연구기관도 AI 학습에 활용해 다양한 서비스 개발과 성능 향상을 준비하고 있습니다.

댓글

(0)
※ 댓글 작성시 상대방에 대한 배려와 책임을 담아 깨끗한 댓글 환경에 동참에 주세요.
0 / 300

많이 본 기사

랭킹뉴스