크레딧: Pixabay/CC0 퍼블릭 도메인

인공 지능(AI) 예언자와 뉴스 전문가들은 생성형 AI 열풍의 종말을 예측하고 있으며, 재앙적인 "모델 붕괴"가 임박했다는 이야기가 나오고 있습니다.

그러나 이러한 예측은 얼마나 현실적인가? 그리고 어쨌든 모델 붕괴는 무엇입니까?

2023년에 논의되었지만 최근에 더 대중화된 "모델 붕괴"는 인터넷에서 AI 생성 데이터의 증가로 인해 미래의 AI 시스템이 점진적으로 멍청해지는 가상 시나리오를 의미합니다.

데이터의 필요성

최신 AI 시스템은 머신러닝을 사용하여 구축됩니다. 프로그래머는 기본 수학적 구조를 설정하지만 실제 "지능"은 시스템의 데이터가 패턴을 모방하도록 훈련시키는 것에서 비롯됩니다.

그러나 어떤 데이터도 아닙니다. 현재 생성형 AI 시스템에는 고품질 데이터와 많은 양의 데이터가 필요합니다.

이 데이터를 얻기 위해 OpenAI, Google, Meta 및 Nvidia와 같은 거대 기술 회사는 지속적으로 인터넷을 샅샅이 뒤져 테라바이트 단위의 콘텐츠를 퍼올려 기계에 공급합니다. 그러나 2022년 널리 사용 가능하고 유용한 생성형 AI 시스템이 등장한 이후 사람들은 AI가 만든 콘텐츠의 일부 또는 전체를 업로드하고 공유하는 경우가 점점 더 많아지고 있습니다.

2023년, 연구원들은 인간이 생성한 데이터 대신 AI가 생성한 데이터에만 의존하여 훈련을 할 수 있는지 궁금해하기 시작했습니다.

이 작업을 수행하는 데는 엄청난 인센티브가 있습니다. 인터넷에서 확산되는 것 외에도 AI가 만든 콘텐츠는 인간의 데이터보다 훨씬 저렴하게 소싱할 수 있습니다. 또한 대량으로 징수하는 것은 윤리적으로나 법적으로 문제가 되지 않습니다.

그러나 연구원들은 고품질 인간 데이터가 없으면 AI가 만든 데이터로 훈련된 AI 시스템이 각 모델이 이전 모델에서 학습함에 따라 점점 더 멍청해진다는 것을 발견했습니다. 그것은 근친 교배 문제의 디지털 버전과 같습니다.

이 "역류 훈련"은 모델 행동의 품질과 다양성의 감소로 이어지는 것으로 보입니다. 여기서 품질은 대략 도움이 되는 것, 무해한 것, 정직한 것의 조합을 의미합니다. 다양성은 응답의 다양성과 AI 출력에 표현되는 사람들의 문화적, 사회적 관점을 나타냅니다.

요컨대, AI 시스템을 너무 많이 사용하면 애초에 유용하게 만드는 데 필요한 데이터 소스를 오염시킬 수 있습니다.

이상의 기사는 2024년 8월 19일 TechXplore에 게재된 “What is 'model collapse?' An expert explains the rumors about an impending AI doom”제목의 기사 내용을 편집하여 작성하였습니다.

* 원문정보 출처 : What is 'model collapse?' An expert explains the rumors about an impending AI doom (techxplore.com)