全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

不知道還有多少人記得,AI 行業(yè)的六小虎。

行業(yè)內(nèi)都在說(shuō),他們已經(jīng)沉寂好久了。

上一次相關(guān)的項(xiàng)目發(fā)布,還是前一段時(shí)間我寫(xiě)的 MiniMax 聲音模型的更新,Speech-02。

而前晚凌晨將近 12 點(diǎn)的時(shí)候,又是 MiniMax,居然在 X 上,預(yù)告了他們一整周的發(fā)布計(jì)劃。

給我整不會(huì)了,不是,為什么總是選擇這么陰間的時(shí)間點(diǎn)發(fā)布啊。。。

而第一天(也就是前天),發(fā)布了他們 MiniMax Week 的第一個(gè)項(xiàng)目:開(kāi)源 MiniMax 首個(gè)推理模型 M1。

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

出手就開(kāi)源,還是秀的,看看跑分。

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

我先說(shuō)結(jié)論:“MiniMax M1 的上下文能力,是現(xiàn)在全球最厲害、最牛的、足以媲美 Gemini 2.5 Pro 的開(kāi)源模型。”

我愿敬稱為新一代源神。

在 AIME 2024 邏輯數(shù)學(xué)題目上(偏奧數(shù)思維)和 LiveCodeBench 編程題上、還有 SWE-bench Verified(真實(shí)世界代碼補(bǔ)全+修改),MiniMax M1 的表現(xiàn)只能說(shuō)中規(guī)中矩,有弱的、有強(qiáng)的。

而 TAU-bench(需要理解任務(wù)目標(biāo)、推理動(dòng)機(jī)的場(chǎng)景),M1 準(zhǔn)確率 62.8%,開(kāi)始媲美開(kāi)源模型。

但是,最離譜的來(lái)了,最后一個(gè),MRCR(4-needle)。

這個(gè)直接,屠榜了,真的就一瞬間,一柱擎天,直接跟 Gemini2.5Pro 肩并肩,我相信用過(guò) Gemini 2.5 pro 的伙伴,都知道,這玩意的上下文有多離譜,而現(xiàn)在,MiniMax M1 作為一個(gè)開(kāi)源的大模型,首次,在這個(gè)評(píng)測(cè)集上,能跟 Gemini 2.5 Pro 并駕齊驅(qū)了。

我特么。。。

很多人不知道 MRCR(4-needle)是個(gè)啥,我簡(jiǎn)單解釋一下。

AI 圈之前一直有一個(gè)測(cè)上下文能力的測(cè)試,叫做“大海撈針”。

X 上一個(gè)大佬 Greg Kamradt,為了弄明白當(dāng)年 Claude2.1 的 200K Token,究竟實(shí)測(cè)效果怎么樣,就調(diào)用 Claude 的 API 做了個(gè)壓力測(cè)試,從一段不同長(zhǎng)度的文本中,撈出特定的信息,而這個(gè)測(cè)試,花了他 1000 美金。

這圖我現(xiàn)在還有。

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

Claude-2.1 當(dāng)時(shí)紅了一片,200K 幾乎沒(méi)有蛋用,巨水無(wú)比。

而那一次,Kimi 在我的文章下留言,說(shuō)自己內(nèi)部測(cè)了一下,全綠。

后面的故事,大家也就都知道了。

后來(lái)呢,Gemini 覺(jué)得這個(gè)大海撈針測(cè)試太初級(jí)了,于是自己搓了一個(gè)新的測(cè)試方法,叫做 Michelangelo。

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

在這個(gè)論文里,他們提出了 Michelangelo 的幾個(gè)評(píng)估任務(wù),有 Latent List、IDK,而第三個(gè),就是 MRCR。

全稱叫 Multi-Round Co-reference Resolution,翻譯成中文叫多輪共指消解,反正非常拗口。

它主要考察一個(gè)模型在處理較長(zhǎng)的、多輪對(duì)話時(shí),能否準(zhǔn)確地理解和區(qū)分用戶要求中具體指的是哪一次對(duì)話、哪一個(gè)內(nèi)容。

比如用戶和 AI 進(jìn)行了一系列對(duì)話,用戶要求 AI 寫(xiě)一些東西,比如詩(shī)、謎語(yǔ)、文章。在這些對(duì)話中,會(huì)刻意插入多個(gè)看起來(lái)類(lèi)似的話題(比如多首關(guān)于企鵝的詩(shī))。

然后再讓 AI 回頭去重新找到某一次特定的話,比如用戶要求“再重復(fù)一遍第二首寫(xiě)企鵝的詩(shī)”,此時(shí)模型必須精準(zhǔn)識(shí)別這個(gè)“第二首”指的具體是哪一次回答的內(nèi)容。

這個(gè)事其實(shí)不簡(jiǎn)單,因?yàn)閷?duì)話很長(zhǎng),涉及多個(gè)話題和文體,非常考驗(yàn)?zāi)P偷纳舷挛睦斫饬Α?/p>

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

有些內(nèi)容在主題和格式上極其相似,比如“關(guān)于企鵝的第一首詩(shī)”和“關(guān)于企鵝的第二首詩(shī)”。模型必須能清晰區(qū)分、精準(zhǔn)回溯。

后面 OpenAI 在發(fā) GPT-4.1 的時(shí)候,也在 blog 里面提到,自己魔改了一個(gè)難度更高的 MRCR 的評(píng)測(cè)集,用來(lái)評(píng)估模型的上下文性能。

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

而“4-needle” 指的是,在同一段超長(zhǎng)上下文里同時(shí)埋下 4 個(gè)“針”(關(guān)鍵信息片段),然后在后續(xù)對(duì)話里以交錯(cuò)的方式把這 4 根針全部翻出來(lái)。

在這個(gè)任務(wù)下,MiniMax-M1,吊打了一切,只跟 Gemini 2.5 pro,差了那一點(diǎn)點(diǎn)的距離。

我翻了下技術(shù)報(bào)告,M1 之所以在上下文有這個(gè)性能,核心點(diǎn)還是在于他們之前開(kāi)源的基座模型 MiniMax-01。

得益于 MiniMax-01 Lightning Attention 線性注意力機(jī)制的應(yīng)用,M1 的時(shí)間和空間復(fù)雜度隨序列長(zhǎng)度增加近似線性增長(zhǎng),不像傳統(tǒng) Transformer 那樣呈平方級(jí)膨脹。

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

因?yàn)?Lightning Attention 機(jī)制,在推理生成長(zhǎng)度 64K token 時(shí),F(xiàn)LOPs 消耗不到 DeepSeek R1 的一半。

當(dāng)生成長(zhǎng)度達(dá)到 100K token 時(shí),M1 僅消耗其約 25%的 FLOPs。

非常的離譜。

而這個(gè) MiniMax-M1,跟之前開(kāi)源的基座模型 MiniMax-01 一樣,也是 456B 參數(shù),MoE 架構(gòu),實(shí)際激活 45.9B。

最長(zhǎng)上下文長(zhǎng)度為 100 萬(wàn)字,也就是 1M,是 DeepSeek-R1 的 8 倍。

這次開(kāi)源了兩個(gè)上下文長(zhǎng)度的推理模型,40K 和 80K。

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

80K 版本是在 40K 版本基礎(chǔ)上進(jìn)一步訓(xùn)練得到的增強(qiáng)版本。

這里注意一下,80K 和 40K 指的不是上下文長(zhǎng)度,上下文長(zhǎng)度是 1M,80K 和 40K 指的是 Extended Thinking 的上限。

GitHub:https://github.com/MiniMax-AI/MiniMax-M1

Hugging Face:https://huggingface.co/spaces/MiniMaxAI/MiniMax-M1

目前在 MiniMax 的官網(wǎng)上也上線了。

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

網(wǎng)址在此,可以直接用。

網(wǎng)址:https://chat.minimaxi.com/

我也第一時(shí)間,上去測(cè)了一下。

我的第一個(gè)任務(wù),就讓我開(kāi)了眼,因?yàn)槲抑皇牵⌒〉膰L試一下,沒(méi)想到效果,比我預(yù)期的還要好,我直接把 MiniMax-M1 的技術(shù)報(bào)告扔了進(jìn)去,讓它,給我逐字翻譯。

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

現(xiàn)在看著還比較正常對(duì)吧。

但是,馬上,離譜的事情來(lái)了。

他居然把圖,也給我...帶出來(lái)了。。。

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

甚至不僅有圖,還有,公式。

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

還把表格,直接拎出來(lái)翻譯了。

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

這效果,這體驗(yàn),真的無(wú)敵。

雖然中間,有部分的圖表丟失,還沒(méi)有達(dá)到 100%的完整度,但是這個(gè)效果,也已經(jīng)非常非常好了,關(guān)鍵的是文字,一個(gè)不落,全部都整整齊齊的給我翻譯出來(lái)了。

最搞笑的是,他還自作主張,在最后,可能覺(jué)得參考文獻(xiàn)翻譯出來(lái)沒(méi)什么用,直接自己給省略了。

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

我說(shuō)實(shí)話,這個(gè)參考文獻(xiàn),占了 5 頁(yè),對(duì)我來(lái)說(shuō),確實(shí)沒(méi)啥用。。。

在翻譯上,我又試了一個(gè)更有趣的場(chǎng)景,我扔了一個(gè)文檔過(guò)去,然后說(shuō):

“翻譯成中文,在括號(hào)里標(biāo)注一些符合我英語(yǔ)水平的原文英文詞匯或短語(yǔ)。我英語(yǔ)水平是大學(xué)六級(jí)。”

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

太有意思了,這個(gè)上下文準(zhǔn)確性,是真的牛逼。

然后我又做了一個(gè)測(cè)試,把我群里這一周的聊天記錄,導(dǎo)出出去也扔給了 MiniMax-M1,讓他把絳燁的聊天記錄都找出來(lái)。

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

他準(zhǔn)確的識(shí)別除了絳燁的微信 ID,然后找到了他的微信號(hào),扒出了他的所有聊天記錄。。。

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

這些鏈接,是真的能點(diǎn)的,我驚了,他還做了樣式重構(gòu)。。。

因?yàn)槌L(zhǎng)超準(zhǔn)的上下文,你還可以,跟大模型玩一局,真正的文字冒險(xiǎn)游戲,因?yàn)樗粫?huì)忘記你的出身,他會(huì)記得,一切。

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

推理模型+超長(zhǎng)且精準(zhǔn)上下文的擴(kuò)充,確實(shí)會(huì)帶來(lái),很多不一樣的花活玩法。

比如我還有一個(gè)特別狠的測(cè)試。

就是我手上有一個(gè) 34 個(gè)劉慈欣老師的小說(shuō)的合集,因?yàn)榇髣⒊耸廊私灾娜w之外,他其實(shí)還寫(xiě)過(guò)特別多的科幻中短篇小說(shuō),也特別好看。

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

比如我最?lèi)?ài)的《山》。

我現(xiàn)在,想把這些故事,安利給我的朋友們,我想,讓 AI 根據(jù)這 34 個(gè)故事,每一個(gè)故事都寫(xiě)一段故事總結(jié)+推薦語(yǔ)。

這個(gè)任務(wù),你要是扔給 DeepSeek。

你就會(huì)得到一個(gè)非常離譜的提示,DeepSeek 只閱讀了 8%。。。

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

而 MiniMax-M1,出色的完成了任務(wù)。

超長(zhǎng)上下文的魅力,此時(shí)體現(xiàn)的淋漓盡致。

不過(guò)我有一個(gè)更變態(tài)的任務(wù),還是給 MiniMax-M1 干宕機(jī)了。

就是...我讓它數(shù)本草綱目里一共有多少藥材= =

數(shù)了 8 分鐘,最后跟我說(shuō),有 400 中種,但其實(shí)答案是 1892 種= =

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

不過(guò)我也能理解,這個(gè)任務(wù),確實(shí)實(shí)在是太變態(tài)了。。。

除了上下文之外,我也測(cè)了些寫(xiě)作、編程、數(shù)學(xué)。

寫(xiě)作和數(shù)學(xué)就不詳細(xì)提了,寫(xiě)作這塊中規(guī)中矩,數(shù)學(xué)的高考題實(shí)在沒(méi)空完整做了,我覺(jué)得我需要抽空寫(xiě)一個(gè)腳本。

不過(guò)測(cè)了兩道大題,目前是都對(duì)的。

最后稍微吐槽一下編程這塊,就是前端審美,感覺(jué)還是有一些進(jìn)步空間的。

就...有一點(diǎn),不好看啊。

比如我昨天下午去參加了飛書(shū)多維表格的閉門(mén)會(huì),會(huì)議特別有價(jià)值,我想做個(gè)可視化網(wǎng)頁(yè)。

這是 Gemini 生成的。

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

這是 M1 生成的。

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

咱就是說(shuō),可以不這么直男審美的= =

總體來(lái)說(shuō),M1 模型,還是讓我有一點(diǎn)驚喜的,他們自己的新研究,確實(shí)卷出了一些很有意思的特性,也把開(kāi)源領(lǐng)域的模型水平,又拔高了一個(gè)層級(jí)。

還有 4 天時(shí)間,我現(xiàn)在有點(diǎn)期待 MiniMax 會(huì)繼續(xù)掏出什么有意思的大貨了。

以我對(duì) MiniMax 的了解,視頻模型總歸要來(lái)一個(gè)的吧,已經(jīng)有一段時(shí)間沒(méi)更新了,Video 01-Director 已經(jīng)是幾個(gè)月前的事了。

你 Hailuo 02(0616)都去打榜了,那你這 5 天里,得掏一下吧。

全球領(lǐng)先水平!MiniMax開(kāi)源首個(gè)推理模型M1

海螺的人物情緒表演、動(dòng)作表演,至今依然是我心中的白月光。

極度期待 Hailuo 02,在人物表演上,會(huì)帶給我什么樣的震撼。

聲音模型估計(jì)不發(fā)新的了,因?yàn)橐粋€(gè)月前 Speech-02 才發(fā)。

圖片和 3DMiniMax 不做,那在掏個(gè)音樂(lè)模型?這個(gè)符合 MiniMax 的氣質(zhì)。

這一周,希望 MiniMax 盡情撒貨吧。

讓 AI 的這一把火。

燒得更熱烈些。

收藏
點(diǎn)贊 26

復(fù)制本文鏈接 文章為作者獨(dú)立觀點(diǎn)不代表優(yōu)設(shè)網(wǎng)立場(chǎng),未經(jīng)允許不得轉(zhuǎn)載。