阿里開源推理模型QwQ-32B,性能比肩R1滿血版!

Manus 發布之后,隨之而來趕到戰場的,是阿里

關于 Manus 的深度測評:

阿里開源推理模型QwQ-32B,性能比肩R1滿血版!

凌晨 3 點,阿里開源了他們全新的推理模型

QwQ-32B。

本來還有點意識模糊,當看到他們發出來的性能比對圖,我人傻了。

阿里開源推理模型QwQ-32B,性能比肩R1滿血版!

不是,我沒看懂,這特么是個什么怪物。

在幾乎所有數據集里,QwQ-32B 都已經能跟滿血版 DeepSeek R1(671B)表現相當了。尤其是作為 QwQ-32B 的主攻方向的數學和代碼。

而且,QwQ-32B 在基準測試上的性能跑分,幾乎拉開 o1-mini 一個身位。

我人已傻。

今天這夜,對我的沖擊有一點大。

GPT4.5 剛剛證明傳統的那套快撞墻了,轉頭阿里就來給你掏個大的,說,你看,強化學習還是能卷的,這條路,遠遠還沒到頭。

這么令人詫異的性能表現,其實也跟這兩天在 arxiv 出來的一篇爆火論文互相印證了。

一堆斯坦福教授集中討論,為什么 Qwen-2.5-3B 一開始就能自己檢查自己的答案,Llama-3.2-3B 卻不行。

最后的原因還是落在了 Qwen 團隊的強化學習上。因為,這能讓模型自己學會一些關鍵的“思考習慣”。

阿里開源推理模型QwQ-32B,性能比肩R1滿血版!

沒啥可說的,阿里 NB。QwenNB。

QwQ-32B 開源鏈接在此:

魔搭開源鏈接: https://modelscope.cn/models/Qwen/QwQ-32B

huggingface 開源鏈接: https://huggingface.co/Qwen/QwQ-32B

當然如果想直接上手體驗,官方也給出了在線體驗的地址:https://chat.qwen.ai/?models=Qwen2.5-Plus

左上角模型選擇 Qwen2.5-Plus,然后開啟 Thinking(QwQ),就能用 QwQ-32B 了。

阿里開源推理模型QwQ-32B,性能比肩R1滿血版!

我這邊也第一時間在 AutoDL 租了一臺 A800-80G 的顯卡,然后把模型下載了下來,并部署測試了一下這個怪物。綜合體驗下來,本地部署版和網頁版其實是一樣的。

阿里開源推理模型QwQ-32B,性能比肩R1滿血版!

性能曲線是這樣的。

阿里開源推理模型QwQ-32B,性能比肩R1滿血版!

我也做了一些測試。

首先就是,我覺得賽博半仙易主了。這回的 QwQ-32B 真的能當八字算命大師了。

懂得都懂,AI 自媒體人的命也是命,它掐指一算,就知道我經常熬大夜,狂肝文章。下半年家里那些雞毛蒜皮的事就別提了,為了搭我的攝影棚,把景深弄得更到位,我是真得搬家啊。。。

阿里開源推理模型QwQ-32B,性能比肩R1滿血版!

當然,AI 算命只能算是個開胃菜,接下來還是得認真測下 QwQ-32B 的數學能力。

然后就是拿我的著名的國慶調休題來難為下這類推理模型了:

這是中國 2024 年 9 月 9 日(星期一)開始到 10 月 13 日的放假調休安排:上 6 休 3 上 3 休 2 上 5 休 1 上 2 休 7 再上 5 休 1。請你告訴我除了我本來該休的周末,我因為放假多休息了幾天?

比如 Grok3 這種,開了推理還是直接炸了。

阿里開源推理模型QwQ-32B,性能比肩R1滿血版!

答案明明是 4 天,你咋獨自加了 3 天。。。

而看看 QwQ-32B,在一頓小推理之后。

阿里開源推理模型QwQ-32B,性能比肩R1滿血版!

最后答案,完全正確。

阿里開源推理模型QwQ-32B,性能比肩R1滿血版!

要知道,這可只是一個 32B 的小模型啊。。

然后我還試了一下代碼能力。我就直接去 Leetcode 找了一道困難級別的算法題,解數獨。

可能有人不知道 Leetcode 是啥,LeetCode 是一個全球知名的在線編程練習平臺,這個平臺有大量不同難度的算法題庫,從簡單到困難的各種編程題都有。

我直接把解數獨的題目還有代碼模板丟給 QwQ-32B,讓它給出最優解的代碼:

編寫一個程序,通過填充空格來解決數獨問題。

數獨的解法需遵循如下規則:

數字 1-9 在每一行只能出現一次。

數字 1-9 在每一列只能出現一次。

數字 1-9 在每一個以粗實線分隔的 3x3 宮內只能出現一次。(請參考示例圖)

數獨部分空格內已填入了數字,空白格用 '.' 表示。

然后給定你一個類,給我一個比較好的方案:

class Solution(object):

def solveSudoku(self, board):

"""

:type board: List[List[str]]

:rtype: None Do not return anything, modify board in-place instead.

"""

經過幾分鐘的思考,這道題的完整最優解代碼也是被 QwQ-32B 成功給出。

阿里開源推理模型QwQ-32B,性能比肩R1滿血版!

我把這段代碼粘貼到了 Leetcode 平臺上,直接提交,沒想到這段代碼竟然完美的通過了全部測試用例嗎,而且執行用時才 127ms,擊敗了 93%的在這個算法題庫做嘗試的人。

說實話,這個結果讓我挺驚訝的,畢竟 127ms 的用時,看平均的用時基本都在 1691ms 左右。

阿里開源推理模型QwQ-32B,性能比肩R1滿血版!

很強,但是我覺得最強的,還是它未來的生態。

32B 和 671B,對于本地算力的要求,或者是云服務的成本來說,差別實在是太大太大了。

671B,在 FP16 精度下需要 1400G 的顯存,這個門檻有多高大家懂得都懂。

而現在,32B 的 QwQ,4 張 4090 就能跑,這是將近 15 倍的差距。

而且,智能水平差不多。

這也意味著很多普通企業還有普通開發者,可以直接拿到一個足以對標 DeepSeek R1 的邏輯推理、數學推理、代碼思考能力的大模型,而且還開源,能在自家環境中任意調試、微調、二次開發。

更何況,阿里云上的資源、ModelScope、Hugging Face 鏡像都能對接,瞬間就把部署壁壘降到幾乎為零。

對于那些創新型創業者、小型團隊,或者想要做專業 AI 應用的公司而言,我說實話,這就是天降神兵。

對于大多數的企業垂直場景,一個優秀的 32B 的模型真的已經足以應付很很多,沒必要非得上 600 多億參數、又燒又貴的巨無霸。

這波 QwQ-32B 開源的意義,還是非常強的。

它用實力證明 RLHF 路線還能玩出花,打破了一些人對 GPT4.5 撞墻后的過度悲觀。

用中等規模卻拿到高級性能,給開源界注入了強大信心,你也不必搞那種天價設備和超大規模,也有機會跟國際巨頭同場競技。

真的,昨夜爆火的 Manus,在技術架構上,也是 Claude+很多微調的 Qwen 小模型。

那這次 QwQ-32B,又是一次智能的提升。

每個大廠、每個團隊都在全力沖刺,新的風暴還會一個接一個出現。

睡前一抬頭,日歷翻到新的數字。

又是個不眠之夜。

阿里 NB,QwenNB。

我們中國的團隊。

就是 NB。

愿我們都能見證更多奇跡。

晚安,或者早安吧。

歡迎關注作者的微信公眾號:數字生命卡茲克

阿里開源推理模型QwQ-32B,性能比肩R1滿血版!

收藏 6
點贊 26

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。