충격의 중국 DeepSeek를 의심하는 OpenAI, 학습에 사용했다고 하는 기술 「정보 추출(Distilled)」란?

OpenAI에 따르면 중국 스타트업 DeepSeek가 자사 인공지능(artificial intelligence) 모델에서 생성된 출력을 사용해 새로운 오픈소스 모델을 훈련했을 가능성이 있다고 한다. 파이낸셜타임스 보도에 따르면 이 모델은 미국 시간 1월 27일 많은 관계자들을 아주 놀랍게 해 미국 금융시장을 요동치게 했다. OpenAI는 DeepSeek가 최신 모델을 구축하는 과정에서 일부 데이터를 이용한 것으로 보고 있다.
*정보 추출(distillation)은 일반적으로 데이터, 정보, 자산 또는 프로세스를 정제하여 핵심적인 요소만을 추출하는 과정을 의미

ChatGPT를 개발한 OpenAI는 파이낸셜 타임즈에 대해 DeepSeek가 「정보 추출(distillation, distillation)」라고 부르는 기법을 이용해 자사의 데이터에 접속했을 가능성을 나타내는 증거를 확인하고 있다고 말했다. 정보 추출이란 대규모 고도의 AI 모델이 출력한 결과를 사용해 보다 소형인 모델을 훈련·개선하는 기술이다.

블룸버그에 따르면, OpenAI와 주요 지원 기업인 마이크로소프트는 DeepSeek가 OpenAI의 API(타사가 이 회사의 AI 모델에 접속하는 수단)를 이용해 정보 추출(distillation)을 했는지 조사하고 있다고 한다.

파이낸셜 타임즈의 보도에서는, 양사는 작년 API를 사용하고 있던 복수의 계정을 조사해, 정보 추출(distillation)에 관련되는 규약 위반 혐의로 차단했다고 한다. 이러한 계정은 DeepSeek에 속한 것으로 보인다.

이 문제는 도널드 트럼프 대통령의 'AI 담당관'으로 임명된 데이비드 삭스가 처음으로 지적했다. 그는 폭스뉴스에서 "DeepSeek가 OpenAI 모델의 출력을 정보 추출(distillation)했다는 실질적인 증거가 있다"며 "OpenAI는 이 사태를 달가워하지 않을 것"이라고 덧붙였다.

삭스는 이어 앞으로 몇 달 안에 미국의 주요 AI 기업들이 정보 추출(distillation)을 방지하기 위한 조치에 나설 것이며, 이 같은 모방 모델 중 일부는 확실히 축소될 것이라고 말했다.

백악관에서도 이번 건이 국가 안보상의 우려를 불러 일으킨 것으로 알려져 국가안전보장회의(NSC)가 영향을 정밀 조사하고 있다. 대변인 카롤라인 레빗은 "이것은 미국의 AI 업계에 대한 경고입니다"라고 말했다.

◆ 정보 추출(distillation)란 무엇인가?(What Can Companies Do To Prevent Distillation?)
증류는 AI 모델의 개발자가 이용하는 방법으로, 고도의 AI 모델(교사 모델)의 출력을 사용해, 보다 소형의 모델(학생 모델)을 훈련하는 것이다. 목적은 학생 모델이 더 적은 계산 자원으로 교사 모델에 가까운 성능을 획득하는 데 있다. 기술 애널리스트인 벤 톰슨(뉴스레터 Stratechery 저자)에 따르면 OpenAI나 Anthropic(언솔로픽), 구글 같은 기업은 이미 내부에서 증류를 사용해 모델을 최적화하고 있을 가능성이 높다고 한다.

다만, 제3자가 소유하는 학생 모델이 타사의 고도의 독자 모델을 사용해 정보 추출(distillation)을 실행하는 것은 통상, 이용 규약을 위반하는 행위로 간주된다. OpenAI도 이용 규약에서 자사의 서비스나 출력을 「OpenAI와 경쟁하는 모델의 개발에 이용」하는 것을 명시적으로 금지하고 있다.

◆ 기업들은 정보 추출(distillation)을 어떻게 막을 것인가(What Can Companies Do To Prevent Distillation?)
OpenAI와 같은 기업이 제3자에 의한 정보 추출(distillation)를 막는 방법으로는 계정 동결이나 IP 주소 차단, 쿼리 수 제한 등 접근을 제한하는 조치를 들 수 있다. 다만 이런 대책만으로 증류를 완전히 막을 수 있을지는 불투명하다.

삭스의 발언을 두고 OpenAI는 폭스뉴스에 "당사의 지적재산을 지키기 위한 대응책을 강구하고 있다"며 "앞으로는 적대세력이나 경쟁으로 미국의 기술을 취득하려는 시도로부터 가장 고도의 모델을 보호하기 위해 미국 정부와 긴밀히 제휴하는 것이 매우 중요합니다"고 강조했다.

◆ 주된 비판(Crucial Quote)
기술 뉴스 사이트 TechDirt를 창설한 마이크 마스닉은, 증류를 둘러싼 OpenAI의 반응에 대해 「AI 시스템의 학습은 저작권 침해가 아니라고 믿고 있는 점에서, 나는 Bluesky에서는 소수파일 것이다. 그러나 그렇다고 해도, OpenAI가, 얼빠져 보이지 않고 이 주장을 관철하는 것은 무리가 있을 것이다」라고 말하고 있다.

(출처) OpenAI Believes DeepSeek ‘Distilled’ Its Data For Training—Here's What To Know About The Technique
https://www.forbes.com/sites/siladityaray/2025/01/29/openai-believes-deepseek-distilled-its-data-for-training-heres-what-to-know-about-the-technique/

*재미있거나 도움이 되셨다면 '구독' 꾹 눌러 주시기를 부탁드립니다. 늘 행복하세요.

저작자표시 비영리 변경금지

'시사, 경영' 카테고리의 다른 글

학교 폭력의 광풍이 휘몰아치는 미국 학교에서는 '스마트폰 폭력 동영상 촬영과 SNS 확산'이 더욱 폭력을 부추겨 (9)	2025.02.01
일론 머스크, 트럼프 대통령 못지않은 예측불허 언행으로 연일 물의 (15)	2025.02.01
죽고 싶을 정도로 힘들때 누구에게 도움을 청할까? 많은 친구보다 믿을 수 있는 어른의 존재가 중요 (3)	2025.02.01
제1기 트럼프 행정부 때 ... 북한-미국 전쟁 대비 극비계획 밝혀 (27)	2025.01.31
BMW나 포르쉐(Porsche)만이 아니다… 전기자동차(EV) 업체가 안고 있는 '중국 문제'란 (22)	2025.01.31

Why! 궁금하다! 궁금해!!

충격의 중국 DeepSeek를 의심하는 OpenAI, 학습에 사용했다고 하는 기술 「정보 추출(Distilled)」란?