기사 메일전송
  • 기사등록 2024-01-26 14:10:35
  • 수정 2024-01-26 17:51:22
기사수정


▲ 코알라(KOALA) 성능 비교(생성 속도 및 모델 파라미터)


국내 연구진이 생성형 인공지능과 시각지능 기술을 결합해 그래픽처리장치(GPU)에서도 문장 입력 시 2초 만에 이미지를 만드는 기술을 일반에 공개했다.


한국전자통신연구원(ETRI)은 문장을 입력해 이미지를 만드는데 기존 대비 5배 빠른 ‘코알라(KOALA)’ 3종 모델과 이미지나 영상을 불러와 질의응답을 할 수 있는 대화형 시각언어모델 ‘코라바(Ko-LLaVA)’ 2종 등 총 5종 모델을 일반에 공개한다고 밝혔다.


먼저, ‘코알라(KOALA)’모델은 공개SW 모델의 2.56B(25억개) 파라미터를 지식 증류 기법을 적용해 700M(7억개)로 획기적으로 줄였다. 연구진은 모델 크기를 1/3로 축소했고, 고해상도 이미지를 기존 대비 2배, 달리(DALL-E) 3 대비 5배가량 빠르게 개선했다.


ETRI는 모델 생성 속도를 2초 내외로 만들고 모델의 크기도 대폭 줄여, 최근 문장에서 이미지를 만드는 국내·외 경쟁 속에서 8GB의 저용량의 메모리를 갖는 저가의 그래픽처리장치(GPU)에서도 구동할 수 있다고 밝혔다.


실제로 연구진이 ‘달 아래 화성에서 책을 읽고 있는 우주비행사의 사진’이라는 문장을 입력하자, ETRI가 만든 코알라 700M(7억 개)는 1.6초 만에 이미지를 뚝딱 만들어 냈다. 기존 공개 모델인 칼로(카카오브레인)는 3.8초, 달리 2(오픈AI)는 12.3초, 달리 3(오픈AI)는 13.7초가 걸렸다.


연구진은 또한, 챗GPT와 같은 대화형 인공지능에 시각지능 기술을 더해 이미지나 비디오를 불러와 한국어로 이미지나 비디오에 관하여 질의응답 할 수 있는 대화형 시각언어모델인 ‘코라바(Ko-LLaVA)’모델도 함께 공개했다.


‘라바(LLaVA)’모델은 미국 위스콘신대학교 매디슨과 ETRI 연구진의 국제공동연구로 개발됐으며 인공지능 분야 최우수학회인 뉴립스(NeurIPS‘23)에 발표됐다.


연구진은 이미지를 포함한 멀티모달 모델의 대안으로 떠오르고 있는 라바 모델을 기반으로 한글을 더욱 잘 이해할 수 있고 기존에 없는 비디오 해석을 할 수 있도록 확장 연구를 진행했다.


연구진은 현재 생성형 인공지능 시장이 문장 위주의 생성형 모델에서 점차 멀티모달 생성형 모델로 변화가 이루어지고 있으며, 모델의 크기 경쟁에서 점차 작고 효율적인 모델이 출현할 것으로 예상하고 있다. 모델이 크면 수천 대의 서버가 필요한데 ETRI는 모델을 줄여 중소기업 이용이 활성화될 것으로 기대하고 있다.


ETRI는 본 기술을 일반에 공개한 뒤 이미지 생성서비스, 창작교육 서비스, 콘텐츠 제작 및 사업자 등에 기술이전 할 계획이다.


ETRI 이용주 시각지능연구실장은 “향후 생성형 인공지능 기술의 다양한 시도를 통해 크기는 작지만, 성능이 뛰어난 다양한 모델을 공개할 계획이다. 글로벌 연구를 통해 기존 거대모델에 대한 의존성을 탈피하고 국내 중소기업이 인공지능 기술을 효과적으로 활용할 기회를 제공할 예정이다”라고 말했다.


미국 위스콘신대학교 매디슨의 이용재 교수도 “라바(LLaVA) 프로젝트를 총괄하며 GPT-4에 맞서 오픈소스 기반의 시각언어모델 연구를 통해 더 많은 사람이 활용할 수 있는 연구를 진행했다. 향후 ETRI와 국제공동연구를 통해 멀티모달 생성모델에 관한 연구도 지속할 예정이다”라고 밝혔다.


*참조


ETRI의 문장을 입력해 이미지를 만드는 코알라(KOALA) 웹사이트 (huggingface.co/spaces/etri-vilab/KOALA)


ETRI의 이미지나 영상을 불러와 질의응답을 할 수 있는 대화형 시각언어모델 ‘코라바(Ko-LLaVA) 웹사이트 (huggingface.co/spaces/etri-vilab/Ko-LLaVA)

0
기사수정

다른 곳에 퍼가실 때는 아래 고유 링크 주소를 출처로 사용해주세요.

http://www.amenews.kr/news/view.php?idx=56392
기자프로필
프로필이미지
나도 한마디
※ 로그인 후 의견을 등록하시면, 자신의 의견을 관리하실 수 있습니다. 0/1000
마크포지드 9월
프로토텍 11
디지털제조 컨퍼런스 260
로타렉스 260 한글
이엠엘 260
3D컨트롤즈 260
서울항공화물 260
엔플러스솔루션스 2023
엠쓰리파트너스 23
하나에이엠티 직사
린데PLC
스트라타시스 2022 280
생기원 3D프린팅 사각
아이엠쓰리디 2022
23 경진대회 사각
모바일 버전 바로가기