격화되는 AI 개발 경쟁, OpenAI의 GPT-4.5는 새로운 국면에 접어든 것의 상징으로
새로운 대규모 언어모델(LLM)이 속속 등장하고 있다. OpenAI의 GPT-4.5, Anthropic의 Claude 3.7, xAI의 Grok3, Tencent의 Hunyuan Turbo S, 그리고 DeepSeek의 최신 모델(조기 공개 가능성 있음)이 우리의 업무, 의사소통, 정보접근 수단, 나아가 세계의 힘의 균형을 재정의하려고 하고 있다.
이 경쟁이 한층 격화되는 가운데, 어떤 물음이 부상하고 있다.
「AI 모델은 보다 현명하고, 보다 고속이고, 또한 보다 저렴해지는 것인가」라는 물음이다. DeepSeek R1의 등장은 AI의 미래가 반드시 최대 규모의 모델이나 방대한 데이터를 필요로 하는 모델일 필요는 없으며, 기계학습 기법을 혁신해 데이터 효율을 극대화하는 모델이어야 한다는 가능성을 시사하고 있다.
◆ 무거운 AI에서 가벼운 AI로 컴퓨터 역사와 유사해(From Heavy to Lean AI: A Parallel to Computing History)
이 효율화의 흐름은 컴퓨팅 그 자체의 역사를 방불케 한다. 1940~50년대 방 안에 가득 찬 메인프레임 컴퓨터는 무수한 진공관과 저항기, 콘덴서에 의존해 엄청난 에너지를 소비했기 때문에 극소수의 나라만 도입할 수 있었다. 그러나 기술이 진보하고 마이크로칩과 CPU가 개발되자 개인용 컴퓨터 혁명이 일어나 크기와 비용을 극적으로 축소되면서 성능을 비약적으로 높이게 되었다.
마찬가지로 지금의 최첨단 LLM은 텍스트 생성, 코드 작성, 데이터 분석 등을 하기 위해 학습·보관·추론 모두를 거대한 인프라에 의존하고 있다. 이러한 프로세스에서는, 방대한 계산 자원 뿐만이 아니라, 막대한 에너지도 필요로 한다. 하지만, 향후 20년 후에 등장하는 LLM은 현재의 거대한 하나의 바위같은 거대 시스템과는 전혀 다른 형태가 될지도 모른다. 중앙집권적이고 데이터 소비가 심한 모델에서 기민하고 개별 대응이 가능한 초고효율 모델로 전환이 진행되고 있다. 열쇠가 되는 것은 데이터 세트를 무한히 계속 확장하는 것이 아니라, 「더 잘 배우는 방법」을 찾아 한정된 데이터로부터 최대의 통찰을 얻는 것이다.
◆ 추론 모델의 대두와 스마트한 파인 튜닝(The Rise of Reasoning Models and Smarter Fine-Tuning)
특히 주목받는 혁신의 일부는 데이터 효율 설계에 직접 연결되어 있다. 캘리포니아대 버클리대 소속인 Jiayi Pan과 스탠포드대의 페이페이 리(Fei-Fei Li) 같은 연구자들이 그 최전선에 서 있다.
예를 들면 Jiayi Pan은, 강화 학습을 이용해 불과 30달러로 DeepSeek R1를 재현했다. 또 페이페이 리는 테스트시의 파인 튜닝기법을 제안해, 50달러로 DeepSeek R1의 핵심기능을 재현하는데 성공했다. 어느 프로젝트도 무질서한 데이터 수집을 피하고 학습 데이터의 고품질화를 중시했다. 이러한 「보다 똑똑한 학습 기술」에 의해서, AI는 적은 데이터로부터 보다 많은 것을 학습할 수 있게 되어, 학습 비용을 절감하는 것과 동시에 접근이 용이함과 환경 과부하의 축소도 만들어 내고 있다.
◆ 새로운 모델이 가져올 유연한 비용 선택
이 변혁을 가속화하는 중요한 한 요인이 오픈소스 AI 개발이다. 모델이나 기술을 공개함으로써, 소규모의 연구소나 스타트업, 개인 개발자도 효율적인 학습기법의 실험에 참가하기 쉬워진다. 그 결과, 다양한 요구나 운용 제약에 대응한 모델이 차례차례로 나타나 에코 시스템 전체가 보다 풍부해지고 있다.
이러한 혁신은 이미 상용 모델에서도 나타나고 있다. Anthropic의 Claude 3.7 Sonnet은 개발자가 특정 과업(작업)에 할당하는 추론능력이나 비용을 세밀하게 조정할 수 있는 구조를 도입했다. 사용자가 토큰 사용량을 통제함으로써 비용과 품질을 균형잡는 이 단순하면서도 유용한 기능은 향후 LLM의 활용 형태를 좌우할 수 있다.
게다가 Claude 3.7 Sonnet은 통상적인 언어모델과 추론 엔진 사이의 경계를 모호화하고 둘 다 단일한 통합시스템으로 구현하고 있다. 이러한 하이브리드 설계에 의해 성능과 사용자 경험의 향상을 기대할 수 있으며, 용도에 따라 모델을 전환하는 수고를 덜 수 있을 가능성이 있다. 유사한 설계사상은 DeepSeek의 연구논문에서도 볼 수 있으며, 장문 이해와 추론 능력을 단일 모델로 통합하는 방향을 제시하고 있다.
한편으로 xAI의 Grok와 같이 거대한 GPU 자원을 투입해 학습하는 모델도 있고, 효율 중시를 내세우는 기업도 있다. DeepSeek가 제안하는 'intensity-balanced algorithm design(강도 밸런스형 알고리즘 설계)'이나 'hardware-aligned optimizations(하드웨어 최적화)'는 성능을 희생하지 않고 계산비용을 절감할 수 있는 것으로 보인다. 이러한 변화는 폭넓은 파급 효과를 가져올 것이다.
예를 들어 고효율의 LLM이 보급되면, 실시간 추론이나 온보드(Onboard. 차량이나 시스템 등에 있거나 포함된 것) 계산이 필수가 되는 로봇이나 신체화 지능(embodied intelligence) 분야에서도 혁신이 가속할 가능성이 있다. 더불어 거대 데이터센터에 대한 의존이 완화되면 카본 풋프린트의 삭감으로 이어져 지속가능성에 대한 요청이 높아지는 가운데 큰 의미를 가진다.
GPT-4.5의 출시는 LLM의 경쟁이 새로운 단계로 접어들고 있음을 상징하고 있다. 효율적인 지능을 실현한 기업이나 연구팀은, 비용측면의 이점 뿐만이 아니라, 개인화된 AI나 엣지 컴퓨팅, 세계 규모로의 AI 이용이라고 하는 새로운 기회를 열 것이다. 모든 면에 AI가 미치는 미래에 있어서 가장 뛰어난 모델은 반드시 거대하지는 않다. 적은 데이터에서 더 지혜롭게 배우는 방법을 터득한 모델이야말로 중심적인 역할을 담당할 것이 분명하다.
(출처) Open AI’s GPT-4.5 Drops As AI Race Escalates
https://www.forbes.com/sites/geruiwang/2025/02/28/gpt-45-drops-as-ai-competition-intensifies--data-efficiency-matters/
*재미있거나 도움이 되셨다면 '구독' 꾹 눌러 주시기를 부탁드립니다. 늘 행복하세요.
'시사, 경영' 카테고리의 다른 글
「행복해지고 싶다」라고 생각하지 않습니까? 많은 사람들이 착각하고 있다, 행복해지기 위해서 「절대로 해서는 안되는 사고방식」 (31) | 2025.03.15 |
---|---|
트럼프의 대(對)중국 자세 변화? 유화적 발언 의도, 시진핑 함정의 정체 (33) | 2025.03.15 |
미국으로 이주하려는 사람들은 정부에 SNS 계정을 신고해야 할 수도 있다 (39) | 2025.03.15 |
우크라이나 침공 3년, 역사에서 배우는 '러시아의 야망'은? (48) | 2025.03.15 |
유명 투자자 워런 버핏(Warren Buffett), 관세는 전쟁행위 소비증세와 같다며 트럼프 비판 (51) | 2025.03.14 |
댓글