国内精品伊人久久久,欧美xxxxx视频,欧美日韩精品一区

我讓10個大模型參加了完整版數學高考，第一名居然是它？

點贊 31

我讓10個大模型參加了完整版數學高考，第一名居然是它？

我集結了大部分主流AI，讓它們做一個完整的滿血版的數學高考，讓大家最直觀的，感受一下這些模型的數學能力水平。

讓大家看看，滿分 150 分，每個模型到底多少分，哪個模型能拿高考數學狀元。

更多模型測評：

肝了30小時，Flux Kontext是我用過最穩、最能干活的AI圖像模型！

大家好，我是言川。

閱讀文章 >

因為要做解答題了，和選則填空不太一樣，所以我還是單獨定了一下規則，規則如下：

1. 數學大題往往都有兩到三個小問，但是每個小問具體的賦分都不太一樣，邀請了朋友（高中老師）來估摸一下每個小問的分數，如下，都取后者：

我讓10個大模型參加了完整版數學高考，第一名居然是它？

2. 高考大題往往會按照步驟給分，但是主要我也看不懂步驟（勿噴），所以這里我們不妨對大模型嚴格一點，按照結果是否正確來給分。

3. 每道題任然使用大模型跑 3 次，根據正確比例給分。

4. 依然所有的文本題，都使用 LaTeX 編輯器轉成 LaTeX 文本格式，再扔給大模型進行回答。

我讓10個大模型參加了完整版數學高考，第一名居然是它？

5. 帶圖片的多模態題也加入測試，直接截圖進行作答，沒有多模態或者推理時不能傳圖的模型，取其他所有多模態模型得分的平均分。

以上。

在幾個朋友@東毅、@倒放、@云舒、@絳燁幫我 kuku 跑了好久之后，我們終于得出了結論。

這的，又一次干到了凌晨 4 點。

不過，最終的得分和結論，非常出人意料，也出乎我的意外。

先看對錯。

對的全部都是?，錯的就是?，如果是有部分對，就是??，沒有多模態的，就寫沒有多模態。

我讓10個大模型參加了完整版數學高考，第一名居然是它？

我說實話，這一片的綠，還是有點超出我的預期的，我本來以為，解答題會難住一堆大模型，沒想到，幾乎大部分都是對的，而單選題第 6 題，反而成了，所有大模型的噩夢。

涉及到圖片的理解，對于廣大高考學生，輕輕松松做一條輔助線就可以解決，但是所有的多模態大模型，幾乎全軍覆沒，也就 openai o3 在三次回答中，對了兩次。

我讓10個大模型參加了完整版數學高考，第一名居然是它？

DeepSeek-R1-0528 的表現不如其他的推理模型可能是因為他的推理思維鏈很長很長，而高考題并沒有那么復雜，所以導致，想著想著，就想歪了。。。

真的發現，有時候想的短一點，正確性可能會更高。

所有的答案，都在這了，我們是結結實實的，把每個大模型、每道題，跑了 3 次。。。

我讓10個大模型參加了完整版數學高考，第一名居然是它？

下次一定要抽空做個腳本，這事用人干是真的頂不住= =

那最后，終于，要公布我們的測試最終得分了。。。

我讓10個大模型參加了完整版數學高考，第一名居然是它？

這個排名，真的讓我有點意外。。。

這里我插一句，我對天發誓，這篇文章不是廣告，我也和科大訊飛還有豆包沒有任何利益關系，在測試過程中也沒有任何弄虛作假或者不遵守規則。

但是實實在在的，就是這么發生了。

在我的測試中，訊飛星火和豆包除了第 6 題錯，以其他題目全勝的姿態，145 分的超高分，并列奪得了第一名。

而 Qwen3，解答題全對，但是在填空題時，因為 roll 錯了 1 次對了 2 次，產生了失誤，丟了寶貴的 1.7 分，以 143.3 分，屈居第三。

Gemini2.5 pro，解答題拉了跨，139.7 分，位列第四。

混元 T1 和文心 x1，解答題失誤稍微多了一些，比 Gemini 2.5 pro 多錯了一點點，差了 2.7 分，并列屈居第五。

很有意思，太有意思了。

我其實很久沒就沒有測試測的這么開心過了。

2023 年，我第一次測 AI 高考數學題的時候，那時候大家只有嘲諷。

強如大模型，不識一二三四五。

短短兩年，對于高考來說，幾乎都能輕松達到一個優秀學生的地步。

AI 啊，進化還是太快了一點。

也許這就是我愛這份工作的原因吧。

它總能帶給我一些未知，一些驚喜，還有一年抵十年的回憶。

所以，這場 AI 高考，就到這里畫上句號吧。

天邊泛起肚白。

新的一天。

又到來了。

數字生命卡茲克

文章 45 人氣 92.0w

AI自媒體

+關注作者

點贊 31

復制本文鏈接文章為作者獨立觀點不代表優設網立場，未經允許不得轉載。

繼續閱讀本文相關話題

AIGC

學AI

AI導航

發表評論為下方 9 條評論點贊，解鎖好運彩蛋

以上留言僅代表用戶個人觀點，不代表優設立場

評論就這些咯，讓大家也知道你的獨特見解立即評論

菜單 優設網uisdc.com 優設網 - 學設計上優設

您還未登錄

登錄后即可體驗更多功能

我讓10個大模型參加了完整版數學高考，第一名居然是它？

2025/06/11 推薦： 數字生命卡茲克 評論有獎 閱讀本文需 5 分鐘

肝了30小時，Flux Kontext是我用過最穩、最能干活的AI圖像模型！

數字生命卡茲克

文章 45 人氣 92.0w

繼續閱讀本文相關話題

92.0w人氣 45文章

本文3套知識9圖

4步輕松掌握，AI繪制潮流線性旅行插畫教程！

AI生成的8張Labubu手機壁紙，附完整提示詞！

AI驅動UI風格探索！8組火星主題特斯拉飛行器操控界面！

文章目錄

文章目錄

你即將學會 AI工具 的知識

第二波！2025年6月精選實用設計干貨合集

1.4w 人閱讀

上一篇

你即將學會 Alegreya 的知識

被選為「十年最佳字體」居然可以免費商用？快收藏！

下一篇

發評論！每天贏獎品

點擊 登錄 后，在評論區留言，系統會隨機派送獎品

2012年成立至今，是國內備受歡迎的設計師平臺，提供獎品贊助 聯系我們

AI輔助海報設計101例

已累計誕生 737 位幸運星

發表評論 為下方 9 條評論點贊，解鎖好運彩蛋

↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓

言川Artie

阿真Irene

夏花生

釘釘設計

Ai了么

優設推薦官精選熱門話題

職場規劃

文章 576

平面設計

文章 883

用戶體驗設計

文章 577

UI設計

文章 1680

評論

收藏

分享

AI趨勢

入站必看

設計入門

進階提升

熱門資源

最新AI工具

300+實用AI工具全收錄

Midjourney

會上癮的AI繪畫工具

AI智能繪畫

讓AI助你一臂之力

Blender

稱心如意的3D設計法寶

Figma

令設計師愛不釋手

HMI設計指南

車載設計教科書

直播間設計

生意都在直播間啦

Stable Diffusion

最強開源AI繪畫工具

優設熱榜

每日必讀的行業消息

教你做字庫

每個公司都可有字庫

設計服務

一站式數字創意服務平臺

求職面試

為你用心整理的技巧

B端設計

開始探索B端設計

3D設計

技巧與工具全揭秘

菜單優設網 - 學設計上優設

2025/06/11 推薦：數字生命卡茲克評論有獎閱讀本文需 5 分鐘

你即將學會 AI工具的知識

點擊登錄后，在評論區留言，系統會隨機派送獎品

2012年成立至今，是國內備受歡迎的設計師平臺，提供獎品贊助聯系我們

發表評論為下方 9 條評論點贊，解鎖好運彩蛋