中國團隊打造!這才是現在最強的AI聲音模型!

幾個月前,我寫過一篇 MiniMax 的 AI 聲音模型。

我說,那就是當時最強的中文 AI 音頻。數據也有點小爆。

而在去年 12 月之后,至今將近半年時間,在 AI 聲音模型這塊,我覺得還是沒有能超越 MiniMax 的。

直到昨天,我看到 MiniMax 在 X 上發了他們新一代聲音模型的技術報告,Speech-02 來了。看來想突破 Speech-01 的上限,還是得他們自己。

中國團隊打造!這才是現在最強的AI聲音模型!

不過就是這數據是真的慘淡,看來大家最近關注的都是 Agent、MCP,AI 音頻關注的人,是真的少。。。

我大概翻了一下,跑分確實牛逼不少,主要是 WER 和 SIM 這兩數據。

中國團隊打造!這才是現在最強的AI聲音模型!

兩個維度,左邊是 WER,越低越好,代表這個模型講出來的話,有多準確。右邊是 SIM,越高越好,代表這個模型講出來的聲音,有多像原聲。

你可以簡單的理解成,左邊看的是 AI 說的對不對,右邊看的是 AI 像不像本人。

WER 的數據,除了一些歐美的小語種,主流語種幾乎都壓了目前世界公認最被推崇的 11Labs 一頭,特別是周邊的亞洲國家,日本、越南、泰國,幾乎都是純碾壓姿態,所有語種的 WER 指標幾乎平均都在 1~4 之間,很牛逼,他們這是正兒八經在多語種上發力了

而音色相似度上,上一代其實做的沒有 11labs 好,海外的很多反饋都是聲音沒有 11Labs 像,但是這一次,實現了全面超越,32 個語種,每一個在跑分上都比 11Labs 要強,我自己實測,也能明顯感覺到,相似度已經比 11labs 好了。

我又去看了一下 AI 音頻領域的盲測競技場。

意外的發現。

中國團隊打造!這才是現在最強的AI聲音模型!

MiniMax 這個新模型。

登頂了。。。

現在,這個新模型,MiniMax Speech-02,已經可以在 MiniMax 官網用了,目前只有海外版有聲音克隆,別問我為什么只有海外版有。

網址在此: https://www.hailuo.ai/audio

中國團隊打造!這才是現在最強的AI聲音模型!

我隨手用 MiniMax+即夢大師版,搓了一個有趣的郭小綱動畫,給大家直觀的感受一下,MiniMax 的 Speech-02 有多強。

當視頻在手機上無法加載,可前往PC查看。

我就扔了一段不到 1 分鐘的原聲進去復刻,說實話,這音調,這起伏,這音色,強的有點不像話了。

我第一次聽到的時候,真的感覺真假難分。

不僅郭小綱,還能讓,周小倫,來夸一夸我。

太像了。

你閉著眼睛,你是真的能感覺到,是周董,在你面前揮舞著手臂,用那獨特的強調跟你說,你還挺屌的。

還有之前艾爾登法環,預告片里面菈妮的配音我一直很喜歡。

我也讓 MiniMax 復刻了一下。

這是上一代 Speech-01-hd 的效果。

而這是,Speech-02-hd 的效果。

我相信,一定能非常輕松的感受到,情緒的差距。

說說咋用。

進入 Minimax 的 Audio 官網后,點擊左邊的 Voices。

中國團隊打造!這才是現在最強的AI聲音模型!

免費用戶,可以免費克隆 3 個聲音。

我是開了 5 刀的會員,所以可以創建 10 個。

中國團隊打造!這才是現在最強的AI聲音模型!

點進去以后,直接上傳你的素材,然后正常命名,選素材的主語言就行,超級簡單。

中國團隊打造!這才是現在最強的AI聲音模型!

上傳的語音最少上傳 10s 的音頻片段就可以克隆了,不過這個樣本其實不是特別夠,所以我一般推薦音頻素材最好在 30s 左右,當然你也可以更長,不過一般不需要超過 5 分鐘。

然后只需要十幾秒,一個新鮮的聲音模型,就克隆好了。

后續使用的時候,直接在右邊的聲音選擇界面里面找到自己的 tab,正常使用就行。

中國團隊打造!這才是現在最強的AI聲音模型!

一代的時候,這個聲音模型,只支持 12 種語言,分別是:

中文、粵語、英語、韓語、日語、印尼語、西語、葡語、法語、意大利語、俄語、德語。

但是這一次的 2 代,支持了 32 種語言。

而且在混合語種上,有更好的效果了。

比如我之前看到一個非常有意思的挑戰。

中國團隊打造!這才是現在最強的AI聲音模型!

文字是這樣的:

“皆さん,我在網絡上面看到有 someone 把三個國家的 language 混在一起去 speak。我看到之后 be like これは我じゃないか,私も try one try です”。

非常離譜。

我克隆了我自己的聲音,然后去試著念了一下。

這是上一代 Speech-01-hd:

我保證,你聽完以后也不知道它到底念了個啥,我就聽到一個 Speak。。。

再來聽聽 2 代的。

雖然日文那還有一點奇怪,但是,已經是能完整的區分出來念的明明白白的了好吧,這已經是,史詩級進步了。

我又搞了一個更復雜的,小皇四郎。

文本是這樣的:

“媽的,最煩裝逼的人了。剛回國,問他論文咋樣,他說:

“我要 restructure 一下 framework。”

我翻了個白眼,結果他又來一句:

“Ah non, pas de sucre, merci~”

然后切日語:「これはマジでイラっとするわ?」

再來西語:“?Qué pesado! Pero suena perfecto.”

最后還補一句英語:“Seriously. Stop pretending you’re special.”

我都想說:你到底是人,還是 AI?

哦,他是 MiniMax Speech two,新模型。”

當視頻在手機上無法加載,可前往PC查看。

真的,實在太好玩了。

雖然最后的中文,念的還是冒出了翻譯腔,但是進步已經巨大了。

而且,還有一個超級屌的點是,他們在講故事的場景中,如果你只用一個聲音的話,在一些不同角色那里,它甚至會有不同的音調變化和情緒變化。

這是我的一份故事文稿。

中國團隊打造!這才是現在最強的AI聲音模型!

我直接讓 Speech-02-hd 一鍵直出,然后我自己稍微剪了下,加了點音效,大家可以聽一聽這個情緒,還有角色的變化。

文稿中標黃的那幾句,大家應該能明顯的聽出來,是刻意壓低了音調,改了情緒。這可不是我處理的,是 MiniMax 直出的,這就非常牛逼了。

除了 C 端產品之外,我看了一眼 API,發現,他們已經第一時間把 Speech-02 給支持了。

中國團隊打造!這才是現在最強的AI聲音模型!

甚至,MCP 也弄好了。

中國團隊打造!這才是現在最強的AI聲音模型!

現在,你可以在任何 Agent 產品里,也可以接入這個逼真到爆炸的語音模型了。

我們也可以自豪的說一聲。

之前,中文 AI 語音,我們做到了世界最強,但是現在,可以把中文去掉了,整體上,我們都已經做到了世界最強。

這是一個被所有人低估的戰場。

大家都在盯著誰做出第一個像人一樣思考的 Agent,卻沒看到,那些 AI 說話的聲音,其實早已變得越來越跟真人無異。

而且,這一次,還是我們做出來的。

在 12 月份的那邊 MiniMax AI 音頻的文章中,我在最后寫道:

“也許,這就是屬于中文世界的 AI 時代的序章。而這一切,才剛剛開始。”

然后就是波瀾壯闊的春節。

隨后的故事,大家也都知道了。

一語成讖。

現在的 AI 世界,再也不是英語的獨角戲了。

我們從配角,走向主角。

然后不僅僅止步于起。

像 MiniMax,也用 AI,給世界,盡可能的帶來語言平權。

那些過去沒被在意的語言,過去只能在家族里、在小巷里、在廟宇里才能聽到的聲音,現在終于有機會,能被世界聽見了。

AI 沒有帶來統治。

反而是把人類的多樣性。

放進了未來。

收藏 18
點贊 47

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。