글로벌 인공지능(AI) 모델 경쟁의 축이 ‘크기’에서 ‘효율’로 옮겨가고 있다. 수천억 파라미터(매개변수)를 자랑하는 대규모언어모델(LLM)과 별개로 전력과 비용을 획기적으로 줄인 경량 모델이 최근 AI산업의 중심으로 떠올랐다. 경량 AI 모델은 클라우드에 데이터를 전송하지 않고 스마트폰과 PC, 자동차 등 하드웨어 자체 인프라를 통해 돌릴 수 있다. 이 같은 온디바이스 AI 시장을 선점하려는 글로벌 AI 기업과 스타트업의 도전이 이어지고 있다.

비용 ‘100분의 1’로 줄였다

국내 초지능 AI 스타트업 트릴리온랩스는 21일 LLM의 추론 성능을 소규모언어모델로 예측해 평가비용을 100분의 1로 줄이는 새로운 방법론 ‘알브리지’를 공개했다. 신재민 트릴리온랩스 대표는 “작은 모델로도 대형 모델의 추론 능력을 신뢰성 있게 예측할 수 있다는 가능성을 처음으로 입증한 것”이라고 말했다.

트릴리온랩스는 경량 언어모델을 기반으로 모바일 기기에서 작동하는 온디바이스 AI 에이전트를 개발하고 있는 기업이다. 음성만으로 휴대폰 화면 제어·앱 이동·입력 등을 수행하는 구조다. 예컨대 이용자가 ‘택시 불러줘’라고 요청하면 알아서 우버 앱이 켜지는 식이다. 자체 경량 모델을 활용해 클라우드를 거치지 않는 방식을 채택했다.

국내 대기업도 경량 모델 활용을 본격화하고 있다. 카카오는 자체 언어모델 카나나의 초경량 버전 ‘카나나 나노’로 AI 에이전트 적용을 준비 중이다. 카나나 나노는 13억 파라미터 규모로 스마트폰 내부 칩만으로 구동 가능하도록 설계됐다. 사용자의 카카오톡 대화 데이터를 기기 내에서 처리하는 방식으로 이달 카나나 나노를 활용한 서비스를 선보인다.

삼성전자 연구진도 최근 ‘초소형 재귀 모델(TRM)’을 개발했다. 파라미터 700만 개로 특정 추론 영역에서 빅테크 대형 모델인 제미나이와 딥시크 등을 앞서는 데 성공했다. 챗GPT, 제미나이, 딥시크 등 LLM의 파라미터가 보통 수천억~1조 개 규모라는 것을 고려했을 때 수만~수십만 배 작은 사이즈로 좋은 성능을 보인 것이다. 아직 특정 문제 해결에 특화된 연구 단계 모델이지만 추후 온디바이스 AI 등에 적용될 가능성이 있다는 게 업계 분석이다.

달라진 AI 경쟁 구도

얼마 전까지만 해도 글로벌 AI산업 경쟁의 기준은 ‘모델 크기’였다. 빅테크는 막대한 돈을 쏟아부어 고성능 LLM을 연달아 내놨다. ‘더 많은 파라미터=더 높은 성능’이라는 공식이 통용됐기 때문이다. 하지만 모델 개발과 운영에 들어가는 비용이 워낙 큰 게 문제였다. AI업계 관계자는 “빅테크의 수천억 파라미터급 LLM은 막대한 그래픽처리장치(GPU)와 전력 및 냉각 인프라를 요구해 기업과 스타트업 양쪽 모두에 진입 장벽이 됐다”고 했다. AI 개발 기업들이 적은 비용으로도 모델을 효율적으로 쓸 방법을 찾아 나선 것이다.

AI 시장이 성숙되고 실제 산업 적용이 늘어나면서 경량화 수요는 더 커졌다. 기기에서 바로 돌릴 수 있는 작은 모델의 선호도가 높아졌기 때문이다. 스마트폰은 물론 웨어러블과 가전 등엔 대형 모델보다는 저전력·저메모리 환경에서도 작동 가능한 경량 모델이 적합하다. 애플이 지난 6월 약 30억 파라미터급 온디바이스 모델을 공개하며 아이폰·맥북 등 단말기에서 직접 실행되는 ‘애플 인텔리전스’ 전략을 미래 AI의 청사진으로 제시한 것도 이 같은 이유에서다.

기기 기반으로 돌아가는 온디바이스 AI는 보안 수준도 더 높다. 정보 유출이 우려되는 산업에 경량 모델이 필수인 이유다. 데이터가 클라우드로 전송되고 다시 기기로 돌아오는 클라우드 기반 AI는 사용자의 개인정보가 외부 서버에 저장돼 유출에 취약하다. 업계 관계자는 “AI가 단순 웹 기반 챗봇을 넘어 생활 기기에 들어가는 에이전트 형식으로 발전할수록 모델을 더 작고 효율적으로 만드는 기술이 승부처가 될 것”이라고 했다.

“온디바이스는 한국도 기회 있어”

미국 스탠퍼드대 AI 인덱스 보고서는 30억~40억 파라미터의 경량 모델이 수천억 파라미터를 가진 초대형 모델과 거의 유사한 성능을 내는 최근의 흐름을 ‘AI 시대의 획기적인 전환점’으로 평가했다. 지난해 공개된 마이크로소프트(MS)의 경량 모델 ‘파이-3-미니’는 단 38억 파라미터로 대학 수준의 지식을 평가하는 MMLU 벤치마크에서 62.9%의 점수를 기록했다. 구글이 2022년 공개한 5400억 파라미터 초거대 모델인 ‘팜(PaLM)’과 거의 비슷한 성능이다.

소형 모델이 대형 모델에 근접한 성능을 내기 위해서는 정교한 기술이 필요하다. 가장 대표적인 경량화 방식인 ‘증류’는 대형 모델이 학습한 언어·추론 패턴을 작은 모델에 전이하는 방식이다. 파라미터 수를 줄이면서도 정확도 저하를 최소화하는 기법이다. ‘양자화’는 모델이 사용하는 숫자 단위를 32비트에서 8비트, 4비트 등으로 낮춰 메모리 점유를 크게 줄이고 연산 속도를 높인다. 이 두 기법을 결합한 기술도 있다.

대형 모델 경쟁에서 미국 중국 등에 밀린 한국이 경량 모델과 온디바이스 적용에선 기회가 남았다는 목소리도 나온다. 현지화된 경량 모델과 신경망처리장치(NPU) 결합 서비스 등으로 틈새시장을 공략할 수 있다는 얘기다. AI 서비스 운영비용이 낮아지면 새로운 AI 서비스도 다양하게 등장할 수 있다. 이미 스퀴즈비츠(메모리 줄이고 성능 유지), 노타(칩 경량화 솔루션), 클리카(AI 모델 압축) 등 경량화 기술을 갖춘 국내 스타트업이 글로벌 시장에서 주목받고 있다. 딥엑스, 리벨리온 등 NPU 스타트업도 온디바이스 반도체 영역에서 기회를 노리는 중이다.

출처 한국경제