국립국어원이 AI의 한국어 처리 능력 향상에 필수적인 AI 학습용 한국어 자료 11종을 공개합니다.
국립국어원이 '모두의 말뭉치' 페이지에 공개하는 자료는 지난해에 수집한 신문과 국회 회의록, 온라인 대화 등을 담은 기초 자료 4종과 속성 기반의 감성, 추론 확신성, 개체명 정보를 분석한 자료, 개체명 분석 정보에 위키피디아 지식 정보를 연결한 개체 연결 자료 등 분석 자료 7종이다.
한국어의 특성을 반영하여 '속성 기반으로 감성을 분석한 말뭉치'와 일반인이 문장에서 추측할 수 있는 가설을 확신하는 정도를 표시한 '추론 확신성 말뭉치' 등도 포함됐습니다.
국립국어원은 하반기에 개최할 예정인 'AI의 언어 능력 평가 대회'에 평가 자료로 사용할 예정이어서 전체 자료의 절반만 공개한다고 밝혔습니다.
하반기에는 비윤리 표현 말뭉치와 표/그림 등에 대한 유사문장 생성 말뭉치 등도 공개할 예정입니다.
국립국어원은 지난 2020년 8월부터 1만여 건의 한국어 말뭉치를 배포하고 있으며 270여 개의 기업과 기관이 활용하고 있습니다.
네이버와 삼성, SK텔레콤 등 대기업이나 한국전자통신연구원 등 관련 연구기관도 AI 학습에 활용해 다양한 서비스 개발과 성능 향상을 준비하고 있습니다.
Copyright@ KWANGJU BROADCASTING COMPANY. all rights reserved.
랭킹뉴스
2024-11-16 21:26
'달리는 택시 문 열고 부수고..' 만취 승객, 기사까지 마구 폭행
2024-11-16 21:10
'양식장 관리선서 추락' 60대 선원 숨져
2024-11-16 16:42
'강도살인죄 15년 복역' 출소 뒤 11년 만에 또다시 살인
2024-11-16 16:30
4살 원아 킥보드로 때린 유치원 교사, '다른 원생 11명도 폭행' 드러나
2024-11-16 16:17
前 야구선수 정수근, 상해에 이어 음주운전도 재판
댓글
(0) 로그아웃