DeepSeek에 거의 버금가는 성능을 실현한 오픈소스 AI모델 QWQ-32B를 Qwen이 공개, 누구나 무료로 움직일 수 있는 데모 페이지도 공개중
본문 바로가기
시사, 경영

DeepSeek에 거의 버금가는 성능을 실현한 오픈소스 AI모델 QWQ-32B를 Qwen이 공개, 누구나 무료로 움직일 수 있는 데모 페이지도 공개중

by 소식쟁이2 2025. 3. 12.

DeepSeek에 거의 버금가는 성능을 실현한 오픈소스 AI모델 QWQ-32B를 Qwen이 공개, 누구나 무료로 움직일 수 있는 데모 페이지도 공개중

알리바바 클라우드의 AI 연구팀인 Qwen이 AI 모델 'QWQ-32B'를 2025년 3월 6일 출시했습니다. 320억 파라미터의 모델이면서 6710억 파라미터의 DeepSeek-R1과 동등한 성능을 가진 것으로 알려져 있습니다.


QwQ-32B: Embracing the Power of Reinforcement Learning | Qwen
https://qwenlm.github.io/blog/qwq-32b/

DeepSeek-R1은 강화학습(RL)을 활용하여 기존의 사전교육 및 사후교육 방법을 뛰어넘어 높은 성능을 발휘하고 있습니다. 워낙 성능이 높았기 때문에 2025년 1월 DeepSeek-R1이 등장했을 때는 엔비디아 시가총액이 약 9000조원이나 떨어지는 등 큰 혼란을 일으켰습니다.

Qwen 연구팀은 광범위한 세계 지식으로 사전 훈련을 한 기반모델에 대해 강화학습을 적용했다는 것입니다. 먼저 수학과 코딩 과업(작업)에 특화하여 강화학습을 하고 이어서 일반적인 기능용 강화학습을 다른 스테이지에서 진행함으로써 수학과 코딩의 퍼포먼스를 높인 채 일반적인 과업(작업)도 해낼 수 있게 되었다고 합니다.

각종 벤치마크 결과는 이런 느낌입니다. 빨간색으로 표시된 것이 QwQ-32B이고 파란색이 DeepSeek-R1-671B입니다. 어느 벤치마크에서도 QwQ-32B는 DeepSeek-R1-671B 모델과 동등한 성능을 발휘하고 있음을 알 수 있습니다.

누구나 무료로 QwQ-32B를 시험할 수 있는 데모가 준비되어 있습니다. 예를 들어 어떤 자연수 n에 대해서 n^3 + (n+1)^3 + (n+2)^3가 항상 9로 나누어지는 것을 증명하십시오'라는 프롬프트를 입력했습니다.

프롬프트를 입력하면 먼저 사고(생각)단계가 시작됩니다. 질문을 입력해 보면 사고(생각)의 내용을 보면 올바르게 이해되고 있는 것 같습니다.
약 3분의 후 영어로 올바른 해답이 출력됩니다.

다른 언어로도 출력아 가능하고, 다른 외국어로 변환하는 것도 가능합니다.

Qwen 연구팀은 "강화학습의 헤아릴 수 없는 가능성을 보았다"며 차세대 Qwen 개발에 대해 "더 강력한 기초모델과 강화학습을 결합함으로써 인공범용지능(AGI) 실현에 다가갈 수 있을 것으로 확신한다"고 말했습니다.

*재미있거나 도움이 되셨다면 '구독' 꾹 눌러 주시기를 부탁드립니다. 늘 행복하세요.

반응형

댓글