LG는 내달 1일부터 4월 말까지 온라인으로 ‘LG 글로벌 AI 챌린지’를 연다고 31일 밝혔다. ‘제로샷 이미지 캡셔닝(Zero-Shot Image Captioning)’을 주제로 AI가 처음 본 이미지를 얼마나 정확하게 이해하고 설명하는지 평가하는 대회다.
제로샷 이미지 캡셔닝은 AI가 마치 사람의 시각 인지 능력처럼 처음 본 사물이나, 동물, 풍경 등이 포함된 이미지를 봤을 때, 혹은 일러스트레이션이나 그래픽 등 표현 방식이 다른 이미지를 봤을 때 기존에 학습한 데이터를 기반으로 스스로 이해하고 유추한 결과를 텍스트로 설명할 수 있는 기술이다. 예컨대 토끼를 본 적 없는 사람이 고양이와 토끼가 섞여 있는 것을 봤을 때 두 동물의 공통점과 차이점을 학습하고 설명하는 것과 유사하다.
|
해당 데이터셋은 사진뿐 아니라 일러스트레이션, 그래픽 등 다양한 형태의 이미지를 포함하고 있어 대회 참가자들은 저작권과 비용, 품질에 대한 고민 없이 자신들의 AI 모델 최적화와 성능 평가를 진행할 수 있다.
LG는 사람의 시각 인지 능력에 가까이 다가서는 제로샷 이미지 캡셔닝이 이미지를 텍스트로 표현하고, 텍스트를 이미지로 시각화할 수 있는 초거대 멀티모달 AI인 ‘엑사원(EXAONE)’의 기술 개발 생태계에 크게 기여할 것으로 기대하고 있다.
아울러 LG AI연구원은 오는 6월 캐나다 밴쿠버에서 열리는 컴퓨터 비전 분야 세계 최고 권위 학회인 ‘CVPR(Computer Vision and Pattern Recognition) 2023’에서 ‘제로샷 이미지 캡셔닝 평가의 새로운 개척자들(New Frontiers for Zero-Shot Image Captioning Evaluation)’을 주제로 워크샵도 진행한다.
LG 글로벌 AI 챌린지 최종 수상팀은 이날 워크샵에서 성과를 발표할 기회가 주어진다.
김승환 LG AI연구원 비전랩장은 “LG AI연구원은 현재 생성형 AI 뿐 아니라, 객체를 인식하는 기술 수준을 넘어 인간 수준으로 영상까지 이해하는 AI로 퀀텀 점프할 수 있는 가능성을 확인했다”며 “이번 대회를 통해 전 세계 AI 연구자들과 함께 연구의 의의와 필요성, 그리고 확장 가능성에 관해 함께 논의하는 장을 만들 것”이라고 말했다.