최근 네이버클라우드가 정부 주도의 독자 AI 파운데이션 모델 개발 프로젝트에서 ‘옴니 모달리티’를 차별화된 기술 전략으로 내세우며 화제를 모으고 있다. 2027년께 국가대표 AI 모델 개발팀 최종 두 곳을 선별하는 이 프로젝트에서 네이버클라우드는 5개 정예팀 중 하나로 선정된 상태다.

네이버클라우드가 강조하는 옴니 모달리티는 기존 멀티 모달리티와 어떻게 다를까? 멀티모달과 옴니모달, 두 기술 모두 AI가 다양한 형태의 입력 데이터를 처리한다는 공통분모를 가진다. 일각에선 사실상 같은 개념이라거나 전략적 구분일 뿐이라고 보는 해석도 있지만, 그 접근 방식과 완성도에 있어 분명한 차이가 있다.

먼저 멀티모달(Multi-modal) AI는 ‘다중(Multi)’과 ‘양식(Modality)’을 결합한 개념으로, 텍스트·이미지·음성·영상 등 서로 다른 형태의 데이터를 동시에 인식하고 처리하는 AI 기술이다. 기존 AI가 주로 텍스트 기반 대화에 국한됐다면, 멀티모달 AI는 마치 오감을 가진 인간처럼 사진을 보고 설명하거나 음성을 듣고 텍스트로 변환하는 등 종합적인 정보 처리가 가능하다.

대표적인 사례로 오픈AI는 GPT-4 모델에 최초의 멀티모달을 적용한 ‘GPT-4o(omni)’를 선보였으며, 현재는 멀티모달 AI가 아닌 모델을 찾아보기 어려울 정도로 필수 기술이 됐다. 멀티모달 AI는 이미지를 업로드하면 그 내용을 분석해 텍스트로 설명하고, 음성 명령을 받아 적절한 답변을 생성한다.

옴니모달(Omni-modal)은 ‘모든 것(Omni)’과 ‘양식’의 합성어로, 멀티모달보다 한층 진화한 개념이다. 단순히 여러 데이터 유형을 각각 처리한 뒤 결합하는 것이 아니라, 처음부터 모든 형태의 정보를 하나의 통합된 표현 공간에서 이해하고 생성한다.

네이버클라우드 성낙호 하이퍼스케일기술총괄은 최근 인터뷰에서 “멀티모달 AI가 먼저 글로 세상을 배운 다음 튜닝을 통해 눈으로 보고 해석하는 능력을 배운 것이라면, 옴니모달 AI는 처음부터 텍스트와 영상을 동시에 배우기 때문에 예를 들어 제조나 피지컬 AI로도 쉽게 확장할 수 있다”고 설명한 바 있다.

이에 따르면 멀티모달 AI는 텍스트 중심으로 학습한 뒤 이미지나 음성 처리 기술을 추가하는 방식이고, 옴니모달 AI는 초기 단계부터 다양한 감각 정보를 공감각적으로 흡수하는 방식으로 이해할 수 있다. 마치 인간이 어린 시절부터 시각·청각·촉각 등을 자연스럽게 활용해 세상을 종합적으로 인식하는 것과 유사하다.

네이버클라우드에 따르면 멀티모달과 옴니모달 AI의 궁극적 지향점은 ‘애니 투 애니(Any to Any)’ 모델이다. 사용자가 어떤 형태로 정보를 입력하더라도 AI가 맥락을 이해하고, 가장 적절한 형태로 출력할 수 있는 시스템을 뜻한다.

이러한 기술적 진보는 사용자 경험의 혁신적 변화를 예고한다. 복잡한 명령어나 특정 인터페이스에 의존하지 않고도 자연스러운 소통이 가능해지기 때문이다. 특히 디지털 접근성이 제한된 사용자들에게는 새로운 기회가 될 수 있다. 예를 들어 생성형 AI에 대한 프롬프트 능력이 상대적으로 떨어지는 농업 종사자라도, CCTV 영상을 파악한 AI가 알아서 잘 익은 사과를 판별해주는 일도 할 수 있는 것이다.

이러한 맥락에서 이번 독자 AI 파운데이션모델 개발 경쟁의 차별화 요소로 옴니모달 기술이 부상한 점은 주목할 만하다. 기존 AI 서비스가 특정 용도에 특화된 도구였다면 옴니모달 AI는 범용적 인터페이스로 진화할 잠재력이 크며, 이는 산업 전반의 패러다임 변화를 가져올 수 있다.

다만 옴니모달 기술 구현에는 막대한 컴퓨팅 자원과 고품질 다중 모달리티 데이터가 필수적이다. 또한 각기 다른 형태의 정보를 하나의 표현 공간에서 처리하는 과정에서 발생할 수 있는 편향이나 오류 문제도 해결해야 할 과제로 남아있다.

출처 디지털데일리