OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

滿血版o3和o4-mini深夜登場,首次將圖像推理融入思維鏈,還會自主調用工具,60秒內破解復雜難題。尤其是,o3以十倍o1算力刷新編程、數學、視覺推理SOTA,接近「天才水平」。此外,OpenAI還開源了編程神器Codex CLI,一夜爆火。不出所料,滿血版o3真的來了。

剛剛,OpenAI聯創Greg Brockman和首席研究官Mark Chen帶隊,開啟了20分鐘線上直播。

這次不僅有o3,還有下一代推理模型o4-mini。它們首次實現了「用圖像思考」,堪稱視覺推理的巔峰之作。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

如同AI智能體,兩款模型在不到1分鐘內,自主判斷并組合運用ChatGPT內置工具,生成了詳盡周全的答案。其中包括,搜索網頁、用Python分析上傳的文件及數據、對視覺輸入進行深度推理,乃至生成圖像。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

在Codeforces、SWE-bench、MMMU等基準測試中,o3刷新SOTA,不論是在編程、數學、科學,還是在視覺感知領域都樹立了新標桿。尤其是,對于圖像、圖表、圖形分析,o3表現尤為突出,能夠深入挖掘視覺輸入的細節。

 

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

 

在Codeforces中,新模型得分均超2700分,在全球參賽者中排名前200名,用奧特曼的話來說,「接近或達到天才水平」。不過,這個智力的代價是,需要投入o1十倍以上的算力。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

相較于滿血版o3,o4-mini則以小巧高效、高性價比的特點脫穎而出。

在AIME 2025測試中,o4-mini配合Python解釋器取得了99.5%高分,幾乎完美拿下了這項基準測試。而且,在數學、編程、視覺任務,以及非STEM領域,它的性能均優于o3-mini。此外,o4-mini支持遠超o3的使用額度,是高并發場景最優選。總而言之,o3和o4-mini都非常擅長編碼,由此OpenAI還開源了一個可在終端運行的輕量級編程 AI 智能體——Codex CLI。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

從今天起,ChatGPT Plus、Pro和Team用戶將第一時間體驗到o3、o4?mini和o4?mini?high,它們將取代o1、o3?mini和o3?mini?high。同時,這兩款模型也將通過Chat Completions API和Responses API,向所有開發者提供。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

推理模型,首次會用工具了

直播演示中,Greg先上了一個價值——有些模型就像是質的飛躍,GPT-4是其中之一,今天o3/o4-mini同樣是。他表示,o3讓他和OpenAI的同事見到了AI大模型能完成「從未見到的事」,比如,它自己就提出了一個很棒的系統架構想法。這兩款模型真正令人驚訝的地方,它們不僅僅是模型,更是一個「AI系統」。它們跟之前那些推理模型最大的區別,就是首次被用來訓練各種工具。它們會在CoT中使用這些工具來解決難題。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

人類最后考試中,o3模型足以媲美Deep Research表現,而且速率更快為了攻克了一個復雜難題,o3曾連續使用約600次工具調用。它們一次性生成的代碼片段,真正在代碼庫發揮效用。Greg表示,自己最珍視的一點,就是它們的軟件工程能力:它們不僅能編寫一次性的代碼,而且能真正在真實的代碼庫中工作!比如,它在瀏覽OpenAI代碼庫方面,就比Greg做得更好。這就是它極其有用的地方。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

而且,在指令跟隨、智能體工具使用評估中,與工具結合的o3和o4-mini準確性是最高的。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

外部專家評估顯示,o3在處理真實世界任務時,嚴重錯誤率比o1還降低了20%。之所以有如此大的進步,正是因為RL中持續的算法進步所驅動的。用Greg的話說,引擎蓋下最令人驚嘆的是,目前它還仍然是預測一個token,然后加入一點RL的AI,就已經做到這個地步。那么,在實操過程中,o3是如何結合使用工具解決復雜任務的呢?多模態團隊研究員Brandon McKinzie上傳了一張2015年完成的一個物理實習海報,讓ChatGPT估算質子同位標量電荷的數量。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

o3開始推理的同時,逐一分析圖片中內容,并確定Brandon提出問題的正確數量。實際上,海報截圖中并沒有覆蓋最終結果。于是,o3便開始聯網搜索查找最新的估算值,幾秒鐘內讀完數十篇論文,節省了大量時間。結果顯示,模型計算出了一個未經歸一化的值,并且乘以一個特定常數,又可以重新歸一化,最終結果與實際比較接近。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

后訓練團隊研究員Eric Mitchell為ChatGPT開啟了記憶功能, 然后讓o3去查找新聞,而且是與自己興趣有關的內容,同時還要足夠冷門。o3基于已有的了解——潛水和演奏音樂,主動思考并調用工具,找出了一些相關的有趣內容。比如,研究人員錄制了健康的珊瑚聲音,并用揚聲器播放錄音,加速了新珊瑚和魚類定居。同時,它還能繪制出可視化的數據,便于直接放入博客文章當中。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

也就是說,無論o3是用于前沿的科研領域,還是將模型集成到日常工作流中,都會非常有用。在解決AIME數學競賽問題時,o3被要求觀察2x2方格網格,并計算出滿足約束條件的顏色方案數量。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

它首先生成了一個暴力程序,然后用Python解釋器運行,并得到了正確答案,即82。即便如此,它的解題過程并不優雅簡潔,對此,o3自動識別后并嘗試簡化解決方案,找到更聰明辦法。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

它還會自動核查答案的可靠性,甚至最后給出了文字解決方案,方便向人類解釋。讓研究人員驚訝的是,訓練o3過程中并沒有使用類似策略,也沒有要求簡化,都是AI自主學習完成的。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

在編碼任務中,研究人員讓o3-high找出一個名為symbols軟件包的錯誤。首先,模型會主動檢查指令中,所說的問題是否存在,并嘗試了解代碼儲存庫的概況。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

然后,它發現一可以mro的解釋類繼承信息的Python結構,基于已有的世界知識,找到了問題所在。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

最后,o3通過瀏覽互聯網,找到了最優的解決方案——apply_patch。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

就推理成本來看,o3和o4-mini不僅是迄今為止最智能模型,相較于o1和o3?mini,更在效率和成本控制方面樹立了新標桿。在2025年AIME數學競賽上,o3推理成本和性能全面優于 o1,同樣地,o4-mini成本-性能也全面優于o3?mini。所以,如果你需要一個小而快的多模態推理模型,o4-mini將是極好的選擇。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

o3和o4-mini能夠自主選擇工具、計劃方法解決問題,無論是數學、商業、科學、體育還是視覺推理都沒問題。比如,在解決體育問題時,o3能聯網獲取最新數據,考慮了最近一個賽季和2022-23年聯賽ERA略升后回歸正常的情況。o1給出的數據是大概值,略有偏差,不夠精確,而且它錯誤地認為偷壘增加完全是因為投球計時器,忽略了基地墊擴大和限制牽制次數這些更直接的原因。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

用圖像思考,視覺推理新巔峰

更引人注目的是,o3和o4-mini在視覺推理上全面超越前代,成為o系列最新的視覺推理模型。它們通過在思維鏈(CoT)中用圖像進行推理,實現了視覺感知的重大突破。OpenAI首次實現了模型在其思維鏈中用圖像進行思考——而不僅僅只是看圖。

與早期的OpenAI o1類似,o3和o4-mini能在回答前思考更久,在回答用戶前內部會生成很長的思維鏈。不僅如此,o3和o4-mini可以在思考過程中「看」圖片。這種能力是通過工具處理用戶上傳的圖像來實現的,比如進行裁剪、放大、旋轉等簡單的圖像處理。更厲害的是,這些功能都是原生的,不需要依賴額外的專業模型。

在基準測試中,這種用圖像思考,無需依賴網絡瀏覽的能力,碾壓了前代多模態模型的性能。在STEM問答(MMMU、MathVista)、圖表閱讀與推理(CharXiv)、感知基元(VLMs are Blind)以及視覺搜索(V*)等領域,o3和o4-mini均創下了SOTA。特別是,在 V*基準測試上,兩款模型以96.3%準確率幾乎攻克了這項挑戰,標志著視覺推理技術重大飛躍。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

ChatGPT增強的視覺智能,能更徹底、精準、可靠地分析圖片,幫你解決更棘手的問題。它能將高級推理與網頁搜索、圖像處理等工具無縫結合,自動放大、裁剪、翻轉或優化你的圖片,哪怕照片不完美也能挖掘出有用信息。比如,你可以上傳一張經濟學作業的照片,得到一步步的解答,或者分享一個程序報錯的截圖,快速找出問題根源。這種方法開啟了一種新的測試時計算擴展方式,完美的融合了視覺和文本推理。這體現在它們在多模態基準測試中的頂尖表現,標志著多模態推理邁出了重要一步。

視覺推理實戰

用圖像思考可以與ChatGPT更加輕松的互動。你可以直接拍張照片提問,不用擔心物體擺放問題——不論文字是不是倒的,或者一張照片里有多道物理題。即使東西乍一看不太清楚,視覺推理也能讓模型放大看清細節。比如,一個放在桌子上幾乎與視線平行的筆記本,上面有兩行模糊的字,人看上去也很難直接認出來。而ChatGPT可以將圖片放大查看,發現字是倒著的后,還將其旋轉過來,最終成功將其給認了出來。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

OpenAI最新的視覺推理模型能跟Python數據分析、網頁搜索、圖像生成等工具配合,創意又高效地解決更復雜的問題,為用戶首次帶來了多模態智能體驗。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

編程智能體Codex CLI全開源

接下來,OpenAI表示,將展示一些codex遺產的延續,發布一系列應用程序,而它們,將定義編程的未來。除了新模型之外,OpenAI還開源了一項新的實驗性工具:Codex CLI,一個可在終端運行的輕量級編程AI智能體。它的作用,就是在需要的地方安全地部署代碼執行。它直接在本地計算機上運行,旨在充分發揮o3和o4-mini這類模型的強大推理能力,并將很快支持GPT-4.1?等更多模型的API調用。

通過向模型傳遞屏幕截圖或低保真草圖,并結合訪問本地代碼的權限,就能在命令行中體驗到多模態推理的強大功能。同時,他們也啟動一項100萬美元的資助計劃,用以支持使用Codex CLI 和 OpenAI 模型的項目。GitHub項目一經發布,Codex CLI已斬獲3.3k星,可見響應度之高。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

項目地址:https://github.com/openai/codex

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

現場,OpenAI演示人員參考了網上的帖子,使用Codex和o4 Mini做了一個很酷的圖片轉ASCII生成器。只需先截一張圖,拖進終端里,接下來就可以把它交給Codex。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

令人驚嘆的是,你可以實際看到它在思考,還可以直接運行工具。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

完成后,Codex創建了一個ASCII HTML文件,甚至還生成了一個可以控制分辨率的滑塊。也就是說,從此電腦上的任何文件,以及你正在處理的代碼庫,都可以放進Codex了!在現場,研究者們還成功添加了一個網絡攝像頭API。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

Scaling強化學習,依舊有效

在OpenAI o3的整個研發過程中,研究者觀察到一個現象:大規模強化學習同樣遵循著GPT系列預訓練時顯現的規律——即「投入越多的計算資源,就能獲得越好的性能」。他們循著這條Scaling路徑,這次將重點放在強化學習(RL)上,把訓練計算量和推理階段的思考量(或稱推理計算量)都提升了一個數量級,結果依然觀察到顯著的性能提升。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

技術報告:https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf

這驗證了只要給模型更多時間去「思考」,它的表現就會持續提高。相較于前代o1,o3在相同延遲和成本下展現出更高的性能。更令人興奮地是,當允許思考更長時間,其性能還會繼續攀升。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

此外,OpenAI通過強化學習訓練,讓o3和o4-mini掌握了工具使用的智慧——不僅學會「如何用」,更懂得「何時用」。它們不僅能完全訪問ChatGPT內置的工具,還能通過API中的函數調用功能接入用戶自定義的工具。這種能力讓模型在開放式場景時,更加游刃有余,尤其是在需要視覺推理和多步驟工作流的復雜任務中。而且,從前面諸多案例中,我們已經對模型工具調用的能力,獲得了關鍵一撇。那些提前拿到內測資格的大佬們,紛紛被o3震驚了。尤其是在臨床和醫學領域,它的表現堪稱現象級。無論是診斷分析還是治療建議,仿佛出自頂尖專家的手筆。

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

OpenAI震撼發布「天才級」推理模型o3與o4-mini!直逼視覺推理巔峰

不論是加速科學發現、優化臨床決策,還是推理跨領域的創新,o3正成為這場變革的主導者。

參考資料:

https://openai.com/index/thinking-with-images/
https://openai.com/index/introducing-o3-and-o4-mini/

文章來源:新智元

收藏
點贊 30

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。

榜上有名 聯系優設

行業風向標!13年助力企業品牌宣發

渠道豐富
場景多樣
搜索引擎
極速收錄
內容推廣
量身打造
品牌流量
助力曝光

文章目錄

發評論!每天贏獎品

點擊 登錄 后,在評論區留言,系統會隨機派送獎品

2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯系我們

本期獎品

發表評論

{{ moreBtnTxt }}

1 聯系優設

QQ直接交流

2 微信掃碼咨詢

返回頂部

榜上有名 聯系優設

行業風向標!13年助力企業品牌宣發

渠道豐富
場景多樣
搜索引擎
極速收錄
內容推廣
量身打造
品牌流量
助力曝光

聯系優設

量身打造推廣方案
新聞通稿投放量增價更優
優設微信二維碼
掃描上方微信號:uisdc5687
商務號添加請務必說明來意

基礎版

單篇發布

極速收錄品牌通稿

998 元/1篇
 

基礎版服務權益

  • 通稿在優設首頁新聞位曝光
  • 行業新聞首頁推薦位曝光
  • 發布當日添加最新資訊標識
  • 指導并優化通稿文章
 

優享版

套餐價!限時特惠!

12篇!每月都傳品牌好消息

6500 元/12篇
¥11976元/12篇
包含 基礎版 全部權益

優享版年度新增權益

 
限時特惠!節省超45%

大客戶尊享版

尊享價!絕無僅有!

產品引流及品牌曝光雙管齊下

15990
¥20000元
包含 優享版 全部權益

大客戶尊享版新增權益

  • 尊享優設主編定制推文1篇
  • 400W微博 @優設AIGC 發布推文
  • 定制產品視頻宣發(僅限AI產品)
 
絕無僅有!節省超20%
掃描左側二維碼 聯系優設

聯系優設

量身打造推廣方案
新聞通稿投放量增價更優
優設微信二維碼
掃描上方微信號:uisdc5687
商務號添加請務必說明來意

基礎版

單篇發布

極速收錄品牌通稿

998 元/1篇
 

基礎版服務權益

  • 通稿在優設首頁新聞位曝光
  • 行業新聞首頁推薦位曝光
  • 發布當日添加最新資訊標識
  • 指導并優化通稿文章
 

優享版

套餐價!限時特惠!

12篇!每月都傳品牌好消息

6500 元/12篇
¥11976元/12篇
包含 基礎版 全部權益

優享版年度新增權益

 
限時特惠!節省超45%

大客戶尊享版

尊享價!絕無僅有!

產品引流及品牌曝光雙管齊下

15990
¥20000元
包含 優享版 全部權益

大客戶尊享版新增權益

  • 尊享優設主編定制推文1篇
  • 400W微博 @優設AIGC 發布推文
  • 定制產品視頻宣發(僅限AI產品)
 
絕無僅有!節省超20%
掃描左側二維碼 聯系優設