[뉴스토마토 신상민 기자]
카카오(035720)가 경량 멀티모달 언어모델과 MoE(Mixture of Experts) 모델을 오픈소스로 공개했습니다.
카카오는 24일 허깅페이스를 통해 이미지 정보 이해 및 지시 이행 능력을 갖춘 경량 멀티모달 언어모델 'Kanana-1.5-v-3b'와 MoE 언어모델 'Kanana-1.5-15.7b-a3b'를 오픈소스로 공개했습니다.
'Kanana-1.5-v-3b'는 텍스트뿐만 아니라 이미지 정보도 처리할 수 있는 멀티모달 언어모델로 지난 5월 말 오픈소스로 공개한 Kanana 1.5 모델을 기반으로 합니다. Kanana 1.5는 모델 개발의 처음부터 마지막 단계까지 카카오의 자체 기술을 바탕으로 구축하는 '프롬 스크래치(From Scratch)' 방식으로 개발됐습니다. 'Kanana-1.5-v-3b'는 이용자의 질문 의도를 정확히 이해하는 높은 지시 이행 성능과 한국어·영어 이미지 이해 능력을 보유했습니다.
해당 모델은 한국어 벤치마크에서 유사 사이즈의 국내외 공개 모델과 비교한 결과 최고 점수를 기록했습니다. 다양한 영어 벤치마크에서는 해외 오픈소스 공개 모델과 비교했을 때도 유사한 수준의 성능을 보였습니다.
카카오는 인간 선호 반영 학습과 지식 증류를 통해 ‘Kanana-1.5-v-3b’의 성능을 극대화했습니다. 지식 증류는 고성능의 대형 모델로부터 비교적 작은 모델을 학습하는 방식입니다.
이는 대형 모델의 예측 확률 분포까지 학습에 반영해 작은 모델이 더 정교하고 일반화된 예측 능력을 갖추도록 돕는 기술입니다. 이를 통해 경량화 된 모델 구조임에도 정확도나 언어 이해 등의 능력에서 대형 모델의 성능에 근접하거나 이를 뛰어 넘을 수 있는 능력을 발휘하도록 돕습니다.
'Kanana-1.5-v-3b'는 △이미지 및 글자 인식 △동화 및 시 창작 △국내 문화유산 및 관광지 인식 △도표 이해 △수학 문제풀이 등 여러 분야에서 유연하게 활용할 수 있습니다.
카카오는 하반기 중에는 에이전트형 인공지능(AI) 구현에 필수적인 추론 모델의 성과도 공개할 예정입니다.
'MoE'는 입력 데이터 처리 시 모든 파라미터가 연산에 참여하는 기존 모델과 달리 특정 작업에 최적화된 일부 전문가 모델만 활성화되는 방식으로 효율적인 컴퓨팅 자원 활용과 비용 절감이 강점입니다. MoE 아키텍처를 적용한 'Kanana-1.5-15.7b-a3b'는 전체 15.7B의 파라미터 중 추론 시 약 3B 파라미터만 활성화되어 동작합니다.
카카오는 모델의 학습 시간과 비용을 절약하기 위해 자사의 3B 규모의 모델 'Kanana-Nano-1.5-3B'에 업사이클링 방식을 적용해 개발했습니다. 업사이클링은 기존 다층 신경망(MLP) 레이어를 복제해 여러 전문가 레이어로 변환하는 방식으로, 모델을 처음부터 개발하는 방식에 비해 효율적입니다.
카카오의 MoE 모델은 고성능 AI 인프라를 저비용으로 구축하고자 하는 기업이나 연구 개발자들에게 실용적인 도움을 제공할 수 있을 것으로 기대됩니다.
카카오는 이번 경량 멀티모달 언어모델과 MoE 모델의 오픈소스 공개를 통해 AI 모델 생태계에 새로운 기준을 제시하고, 더 많은 연구자와 개발자가 AI 기술을 자유롭게 활용할 수 있는 기반을 마련해 갈 계획입니다.
김병학 카카오 카나나 성과리더는 “이번 오픈소스 공개는 비용 효율성과 성능이라는 유의미한 기술 개발의 성과를 거둔 것으로, 단순한 모델 아키텍처의 진보를 넘어 서비스 적용과 기술 자립이라는 두 가지 측면의 목표에 부합하는 결과물”이라고 말했습니다.
한편, 카카오는 지난해 자체 개발 AI 모델 '카나나'의 라인업을 공개한 이래, 다양한 모델들의 성능과 개발기를 공개해왔습니다.
지난 2월 말 오픈소스로 공개한 자체 개발 모델로부터 성능이 한층 향상된 카나나 언어모델 4종을 5월 오픈소스로 공개한 바 있습니다.
카나나 MoE모델 성능 비교.(이미지=카카오)
신상민 기자 lmez0810@etomato.com
이 기사는 뉴스토마토 보도준칙 및 윤리강령에 따라 김나볏 테크지식산업부장이 최종 확인·수정했습니다.
ⓒ 맛있는 뉴스토마토, 무단 전재 - 재배포 금지