往期作者干貨:
中文,在 AI 世界,好像突然一夜崛起了。
一直以來,AI 繪圖和 AI 聲音,都有類似的痛點:
無法直出中文海報,以及克隆的中文聲音幾乎沒法聽。
而前者,隨著上周的即夢 v2.1,得到了很好的解決。后者,過往有 N 多產品試圖去解決,但是解決的都很差。
閉源的有 11labs,英文強到爆炸,中文幾乎沒法聽總是一股子大佐味。開源的,有 F5、GPT-sovits、ChatTTS 等等,但是不僅本地部署使用困難,出來的情緒說實話,也不咋地。
而這個周末,中文的語音克隆痛點,我發現,被解決了。
幸福來的如此突然。
我直接給大家聽一段我用克隆的 AI 唐國強老師,念滿江紅的語音。
震撼的我頭皮發麻。
玩了將近 2 年的 AI 聲音了,我也是第一次見,能用中文念詩,念的如此情緒飽滿的 AI 聲音。
而這,僅僅只需要,30 秒的音頻素材就可以。
給我 30 秒,我就可以,偷走你的聲音。
這個 AI 語音,來自 MiniMax 的海螺 AI。
嗯,就是那個把人物情緒表演拉滿,在海外 AI 視頻圈大殺特殺的海螺 AI。
周末我打開海螺 AI,準備跑幾個 case 視頻的時候,意外的發現,他們悄悄的居然在海外版上線了 Audio 模塊。
今年 1 月我就寫過一篇海螺 AI 聲音克隆的文章,但是那時候,只能在 AI 助手上,克隆你自己。
而現在,可以克隆任何人了。
在火速體驗完以后,我終于可以說:
這就是當今最強的,AI 中文語音克隆,沒有之一。
一周時間,AI 繪圖和 AI 聲音,中文世界兩開花。
這兩年,你知道我們是怎么過來的嗎。
突然有點淚目,兄弟們,過年了,真的。
海螺 AI Audio 網址在此: https://www.hailuo.ai/audio
最頂上左邊的就是 Audio,剛剛新上的聲音功能,最右邊那個就是之前爆火的 Video。
最爽的是,目前免費,不要錢。
海螺 AI 的 Audio 用起來也非常的簡單,最左邊的側邊欄,分為兩個 tab。
第一個是 Text to Speech(TTS),也就是你克隆完的聲音模型可以在這個地方進行文字生成音頻了。
第二個就是 Voices,可以在里面進行聲音的克隆。
我做個 case,給大家詳細演示一下。
我們先進入到 Voices 頁面。
直接點那個“創建您的聲音克隆”按鈕,目前每個人可以免費創建 3 個聲音。
你可以上傳語音,也可以直接錄音。
上傳的語音最少上傳 10s 的音頻片段就可以克隆了,不過這個樣本其實不是特別夠,所以我一般推薦音頻素材最好在 30s 左右,當然你也可以更長,不過一般不需要超過 5 分鐘。
這里我直接去 B 站,扒了一段唐國強老師在《三國演義》里面的朗誦片段。
扒出來的聲音素材是這樣的,你們可以聽一下。
情緒起伏很大,抑揚頓挫拉滿,非常完美的原始素材。
直接上傳到海螺 AI 里面去。
有個降噪選項,可選可不選,如果你的素材比較純凈干凈,可以不用。開的話可以幫你把一些背景音什么的都剔除掉。
最后需要選一下原始素材的語言,海螺 AI 支持 12 種語言,分別是:
中文、粵語、英語、韓語、日語、印尼語、西語、葡語、法語、意大利語、俄語、德語。
你的原始素材的語言是什么樣的,就選什么語言,克隆出來的聲音模型就會得到最好的效果,比如我上傳的這個唐國強老師的素材是中文的,就選中文就行。
很快,大概只要幾十秒的時間,唐國強老師的聲音,就克隆好了。
回到 TTS 界面。
點擊此位置,就可以切換到剛剛克隆完的唐國強老師的聲音模型。
我們直接,讓唐國強老師,來念一首李白的《將進酒》吧。
這首詩我太喜歡了,《長安三萬里》李白那一段上天入地,駕鶴登仙的演繹,更是將這首詩在我心中的地位,推向了最巔峰。
我們直接把《將進酒》的最后一段扔進去。
“主人何為言少錢,徑須沽取對君酌。五花馬,千金裘,呼兒將出換美酒,與爾同銷萬古愁。”
海螺有個非常牛逼的點是,可以支持切換情緒。
目前有六種情緒:開心、生氣、悲傷、驚訝、恐懼、厭惡。
《將進酒》的最后一段,在我的認知里,雖然一種憤慨,有一種激昂,但是底層情緒,確是悲涼的。
我只要一瞬,卻也要讓這世間,看到我這一瞬的光輝。
所以,在海螺 AI 的情感選擇上,我選了悲傷。
點擊生成,幾秒鐘的時間,一段語音,就出現在了你的面前。
為了更加形象的展示,我把這段音頻做了個照片驅動對口型,視頻看起來更直觀一些。
又比如,我們可以再克隆一個林黛玉的聲音。
讓她來催一催鮮蝦包。
這聲音,直接人麻了。
林黛玉的聲音和情緒,都被還原到了極致。
而這句話,如果讓 11labs 克隆林黛玉的聲音來念呢,我給你們聽一下,有多么的鬼畜。
這就是我在文章開頭,說的一股子大佐味。
不是說 11labs 不好,11labs 一直以來是世界上公認的最強的 AI 聲音產品,但是在中文表現上,真的是沒法用的狀態。
而這一次,海螺 AI 挺身而出,終于,補足了中文領域幾乎是空白的短板,把中文的聲音克隆的音色相似度和情緒,推上了巔峰。
成功率也極高,我想說的是,我上面所有的 case,全部是一遍直出,沒有抽過一次卡,這點,真的難能可貴。
再給大家看一個影視颶風 TIM 的例子。
影視颶風是我最喜歡以及最崇拜的頻道,沒有之一。相信看過影視颶風的觀眾也都無數次聽過 TIM 那句:
“Hello 大家好,我是 TIM,歡迎收看影視颶風。”
而這一次,我們讓 AI 來說這句話,讓大家聽聽,海螺 AI 的復刻有多么的強。
注意,為了避免擬合,所以我在上傳到海螺 AI 的 30 秒 TIM 的素材里,是沒有這句開場白的,都是他在聊一些別的東西。
AI 直出如下,讓李四維化身 TIM:
跟我記憶中已經聽過無數次的 TIM 的開場白,沒有任何區別。
這就是現在海螺 AI,能達到的程度。
這就是現在,最強的 AI 中文聲音克隆,沒有之一。
作為一個見證了這兩年 AI 發展的親歷者,這一周的感受格外強烈。
從即夢讓中文海報一夜之間"通關",到海螺 AI 讓中文語音克隆達到了前所未有的高度,我仿佛看到了中文 AI 能力的爆發時刻。
想想兩年前,我們還在為中文大模型和國際巨頭的差距而焦慮。
那時的 AI 世界,幾乎是英語的獨角戲。
中文的存在感,就像是一個可有可無的配角。
但現在,這個局面正在被改寫。
當我們能用 AI 輕松制作出中文海報,當唐國強老師的聲音能被完美克隆,當林
黛玉的語氣都能被精準還原。
也許,這就是屬于中文世界的 AI 時代的序章。
而這一切,才剛剛開始。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、轉發吧~謝謝你看我的文章,我們,下次再見。
歡迎關注作者的微信公眾號:數字生命卡茲克
復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。
發評論!每天贏獎品
點擊 登錄 后,在評論區留言,系統會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯系我們
AI輔助海報設計101例
已累計誕生 737 位幸運星
發表評論 為下方 6 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓