我讓10個大模型參加了完整版數學高考,第一名居然是它?

我集結了大部分主流AI,讓它們做一個完整的滿血版的數學高考,讓大家最直觀的,感受一下這些模型的數學能力水平。

讓大家看看,滿分 150 分,每個模型到底多少分,哪個模型能拿高考數學狀元。

更多模型測評:

因為要做解答題了,和選則填空不太一樣,所以我還是單獨定了一下規則,規則如下:

1. 數學大題往往都有兩到三個小問,但是每個小問具體的賦分都不太一樣,邀請了朋友(高中老師)來估摸一下每個小問的分數,如下,都取后者:

我讓10個大模型參加了完整版數學高考,第一名居然是它?

2. 高考大題往往會按照步驟給分,但是主要我也看不懂步驟(勿噴),所以這里我們不妨對大模型嚴格一點,按照結果是否正確來給分。

3. 每道題任然使用大模型跑 3 次,根據正確比例給分。

4. 依然所有的文本題,都使用 LaTeX 編輯器轉成 LaTeX 文本格式,再扔給大模型進行回答。

我讓10個大模型參加了完整版數學高考,第一名居然是它?

5. 帶圖片的多模態題也加入測試,直接截圖進行作答,沒有多模態或者推理時不能傳圖的模型,取其他所有多模態模型得分的平均分。

以上。

在幾個朋友@東毅、@倒放、@云舒、@絳燁幫我 kuku 跑了好久之后,我們終于得出了結論。

這的,又一次干到了凌晨 4 點。

我讓10個大模型參加了完整版數學高考,第一名居然是它?

不過,最終的得分和結論,非常出人意料,也出乎我的意外。

先看對錯。

對的全部都是?,錯的就是?,如果是有部分對,就是??,沒有多模態的,就寫沒有多模態。

我讓10個大模型參加了完整版數學高考,第一名居然是它?

我說實話,這一片的綠,還是有點超出我的預期的,我本來以為,解答題會難住一堆大模型,沒想到,幾乎大部分都是對的,而單選題第 6 題,反而成了,所有大模型的噩夢。

涉及到圖片的理解,對于廣大高考學生,輕輕松松做一條輔助線就可以解決,但是所有的多模態大模型,幾乎全軍覆沒,也就 openai o3 在三次回答中,對了兩次。

我讓10個大模型參加了完整版數學高考,第一名居然是它?

DeepSeek-R1-0528 的表現不如其他的推理模型可能是因為他的推理思維鏈很長很長,而高考題并沒有那么復雜,所以導致,想著想著,就想歪了。。。

真的發現,有時候想的短一點,正確性可能會更高。

所有的答案,都在這了,我們是結結實實的,把每個大模型、每道題,跑了 3 次。。。

我讓10個大模型參加了完整版數學高考,第一名居然是它?

下次一定要抽空做個腳本,這事用人干是真的頂不住= =

那最后,終于,要公布我們的測試最終得分了。。。

我讓10個大模型參加了完整版數學高考,第一名居然是它?

這個排名,真的讓我有點意外。。。

這里我插一句,我對天發誓,這篇文章不是廣告,我也和科大訊飛還有豆包沒有任何利益關系,在測試過程中也沒有任何弄虛作假或者不遵守規則。

但是實實在在的,就是這么發生了。

在我的測試中,訊飛星火豆包除了第 6 題錯,以其他題目全勝的姿態,145 分的超高分,并列奪得了第一名。

而 Qwen3,解答題全對,但是在填空題時,因為 roll 錯了 1 次對了 2 次,產生了失誤,丟了寶貴的 1.7 分,以 143.3 分,屈居第三。

Gemini2.5 pro,解答題拉了跨,139.7 分,位列第四。

混元 T1 和文心 x1,解答題失誤稍微多了一些,比 Gemini 2.5 pro 多錯了一點點,差了 2.7 分,并列屈居第五。

很有意思,太有意思了。

我其實很久沒就沒有測試測的這么開心過了。

2023 年,我第一次測 AI 高考數學題的時候,那時候大家只有嘲諷。

強如大模型,不識一二三四五。

短短兩年,對于高考來說,幾乎都能輕松達到一個優秀學生的地步。

AI 啊,進化還是太快了一點。

也許這就是我愛這份工作的原因吧。

它總能帶給我一些未知,一些驚喜,還有一年抵十年的回憶。

所以,這場 AI 高考,就到這里畫上句號吧。

天邊泛起肚白。

新的一天。

又到來了。

收藏 1
點贊 31

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。