크레딧: CC0 퍼블릭 도메인


오픈AI(OpenAI)의 챗GPT(ChatGPT), 구글(Google)의 제미니(Gemini), 앤트로픽(Anthropic)의 클로드(Claude)와 같은 최첨단 인공 지능 시스템은 사용자 프롬프트에 응답하여 여러 언어로 유창한 텍스트를 생성하여 대중의 상상력을 사로잡았습니다. 이 회사들은 또한 더욱 강력한 모델을 구축하기 위해 투자한 막대한 금액으로 헤드라인을 장식했습니다.

중국의 AI 스타트업인 딥시크(DeepSeek)는 최신의 훌륭한 AI를 만드는 데 얼마나 많은 돈이 필요한지에 대한 예상을 뒤엎었다. 이 과정에서 그들은 거대 AI 업체들의 수십억 달러 투자에 의문을 제기했습니다.

저는 기계 학습을 공부합니다. DeepSeek의 파괴적인 데뷔는 놀라운 기술 혁신이 아니라 유서 깊은 관행, 즉 효율성 찾기에 기인합니다. 막대한 컴퓨팅 자원을 소비하는 분야에서 이는 중요한 것으로 입증되었습니다.

비용이 발생하는 곳

이러한 강력한 AI 시스템을 개발하는 것은 대규모 언어 모델을 구축하는 것에서 시작됩니다. 대규모 언어 모델은 이전 단어가 주어지면 다음 단어를 예측합니다. 예를 들어, 문장의 시작 부분이 "상대성 이론은 알버트에 의해 발견되었다"인 경우 대규모 언어 모델은 다음 단어가 "아인슈타인"이라고 예측할 수 있습니다. 대규모 언어 모델은 사전 학습이라는 프로세스를 통해 이러한 예측에 능숙해지도록 훈련됩니다.

사전 학습에는 많은 데이터와 컴퓨팅 파워가 필요합니다. 회사는 웹을 크롤링하고 책을 스캔하여 데이터를 수집합니다. 컴퓨팅은 일반적으로 그래픽 처리 장치(GPU)에 의해 구동됩니다. 왜 그래픽인가? 컴퓨터 그래픽스와 대규모 언어 모델의 기반이 되는 인공 신경망은 모두 선형 대수학으로 알려진 동일한 수학 영역에 의존한다는 것이 밝혀졌습니다. 대규모 언어 모델은 내부적으로 매개 변수 또는 가중치라고 하는 수천억 개의 숫자를 저장합니다. 이러한 가중치는 사전 훈련 중에 수정됩니다.

그러나 사전 훈련만으로는 ChatGPT와 같은 소비자 제품을 생산하기에 충분하지 않습니다. 사전 훈련된 대규모 언어 모델은 일반적으로 인간의 지시를 따르는 데 능숙하지 않습니다. 또한 인간의 선호와 일치하지 않을 수도 있습니다. 예를 들어 유해하거나 모욕적인 언어를 출력할 수 있으며, 둘 다 웹의 텍스트에 존재합니다.

따라서 사전 훈련된 모델은 일반적으로 추가 훈련 단계를 거칩니다. 그러한 단계 중 하나는 인스트럭션 튜닝(instruction tuning)으로, 이때 모델은 인간의 지시와 예상 응답의 예를 보여줍니다. 명령어 튜닝 후에는 인간의 피드백으로부터 강화 학습이라는 단계가 나옵니다. 이 단계에서 인간 어노테이터에게는 동일한 프롬프트에 대한 여러 개의 대규모 언어 모델 응답이 표시됩니다. 그런 다음 주석자는 어떤 응답을 선호하는지 지적하도록 요청받습니다.

AI 모델을 구축할 때 최고 품질의 AI 인재를 고용하고, 수천 개의 GPU로 데이터 센터를 구축하고, 사전 훈련을 위한 데이터를 수집하고, GPU에서 사전 훈련을 실행하는 등의 비용이 어떻게 추가되는지 쉽게 확인할 수 있습니다. 또한 인간 피드백 단계에서 명령 조정 및 강화 학습에서 데이터 수집 및 계산과 관련된 비용이 있습니다.

이를 포함하면 최첨단 AI 모델을 구축하는 데 드는 비용은 최대 1억 달러까지 치솟을 수 있습니다. GPU 훈련은 총 비용의 중요한 구성 요소입니다.

모델이 준비되어도 지출은 중단되지 않습니다. 모델이 배포되고 사용자 프롬프트에 응답할 때 테스트 시간 또는 추론 시간 컴퓨팅이라고 하는 더 많은 계산을 사용합니다. 테스트 시간 계산에도 GPU가 필요합니다. 2024년 12월, OpenAI는 최신 모델 o1에서 본 새로운 현상을 발표했습니다: 테스트 시간 계산이 증가함에 따라 모델은 수학 올림피아드 및 경쟁 코딩 문제와 같은 논리적 추론 작업에서 더 좋아졌습니다.

자원 소비 절감

따라서 세계 최고의 AI 모델을 구축하는 길은 훈련과 추론 모두에서 더 많은 컴퓨팅에 투자하는 것으로 보였습니다. 그러나 DeepSeek가 싸움에 뛰어들어 이러한 추세를 꺾었습니다.

V3 모델로 절정을 이룬 V 시리즈 모델은 일련의 최적화를 사용하여 최첨단 AI 모델을 훨씬 더 경제적으로 훈련할 수 있도록 했습니다. 그들의 기술 보고서에 따르면 V3를 훈련시키는 데 600만 달러 미만이 들었다고 합니다. 그들은 이 비용에 팀 고용, 연구 수행, 다양한 아이디어 시도 및 데이터 수집 비용이 포함되지 않는다는 것을 인정합니다. 그러나 600만 달러는 훨씬 더 높은 비용으로 개발된 주요 AI 모델에 필적하는 모델을 훈련시키기에는 여전히 인상적으로 적은 수치입니다.

비용 절감은 마법의 총알 한 발 때문이 아니었습니다. 이는 모델 가중치를 나타내기 위해 더 적은 비트를 사용하고, 신경망 아키텍처를 혁신하고, GPU 간에 데이터를 전달할 때 통신 오버헤드를 줄이는 등 많은 스마트 엔지니어링 선택의 조합이었습니다.

중국에 대한 미국의 수출 제한으로 인해 DeepSeek 팀은 Nvidia H100과 같은 고성능 GPU에 액세스할 수 없었다는 점은 흥미롭습니다. 대신 엔비디아 H800 GPU를 사용했는데, 엔비디아는 미국 수출 제한을 준수하기 위해 더 낮은 성능으로 설계했습니다. 이러한 한계를 극복하면서 DeepSeek 팀은 훨씬 더 많은 독창성을 발휘할 수 있었던 것 같습니다.

또한 DeepSeek는 추론 비용을 더 저렴하게 만들어 모델 실행 비용을 절감하는 혁신을 이루었습니다. 또한 추론 작업에 대한 OpenAI의 o1 모델에 필적하는 R1이라는 모델을 출시했습니다.

그들은 V3 및 R1의 모든 모델 가중치를 공개적으로 공개했습니다. 누구나 다운로드하여 모델을 더욱 개선하거나 사용자 지정할 수 있습니다. 또한 DeepSeek는 다른 사람들이 최소한의 제한으로 개인적, 학술적 또는 상업적 목적으로 모델을 사용할 수 있도록 허용하는 MIT 라이선스에 따라 모델을 출시했습니다.

기대치 재설정

DeepSeek는 대규모 AI 모델의 환경을 근본적으로 바꾸어 놓았습니다. 경제적으로 훈련된 개방형 가중치 모델은 이제 유료 구독 플랜이 필요한 더 비싸고 폐쇄적인 모델과 동등합니다.

리서치 커뮤니티와 주식 시장이 이 새로운 현실에 적응하는 데는 시간이 필요할 것입니다.

이상의 기사는 2025년 1월 29일 TechXplore에서 게재한 “Why building big AIs costs billions, and how Chinese startup DeepSeek dramatically changed the calculus”제목의 기사내용을 편집하여 작성하였습니다.


* 원문정보 출처 : Why building big AIs costs billions, and how Chinese startup DeepSeek dramatically changed the calculus