自從春節(jié)期間的 deepseek 出圈后,各家大模型就開始瘋狂內卷,真應了那句話,AI 一天,人間一年。尤其是到了近一個月,AI 圈更是打的火熱,各大 AI 大廠都在玩命更新,那在這些更新里到底哪個更好用呢?不知道大家能不能清楚,反正我是有點分不清,所以這個假期花了幾天時間,實驗對比了一圈,最終發(fā)現(xiàn)谷歌最新的模型 Gemini 2.5 Pro 成了最好用的。
先簡單介紹下這個模型,Gemini 2.5 Pro 是谷歌在 3 月 25 號發(fā)布的一個多模態(tài)模型,它能接受輸入音頻、圖片、視頻和文本,是谷歌當前最先進的思考型模型,能夠解決各種復雜問題。
它在各種專業(yè)評分上幾乎都是第一,比如在 LMArena 排行榜(衡量人類偏好)上就遙遙領先,幾乎是全模態(tài)第一。
Gemini 2.5 Pro 還在常見的編碼、數(shù)學和科學基準測試上也表現(xiàn)搶眼。
當然,只看評分其實沒啥概念,只知道很強,但我們普通用戶其實更關注的是到底能用在哪些地方,好不好用?
和上次我寫的教程《谷歌新出的生圖模型,沒想到把 ComfyUI 的學習難度瞬間降低了》一樣,它的使用同樣簡單,最近谷歌確實有點猛啊,快速出了很多好用的模型,而且都給咱們免費用。
先打開官方這個鏈接(需要魔法) :https://aistudio.google.com/prompts/new_chat
然后選擇 Gemini 2.5Pro Preview 03-25 這個模型
到這,你就已經可以免費使用上這個目前地表最強的 AI 思考模型了。
它的優(yōu)勢有很多:超長記憶能力,目前能記住 100 萬個 token,地表最強;它能看懂視頻,圖片,聽懂音頻等等,幾乎全能。
1. 能讀懂記住超長文本文件
看下最新的測試結果,谷歌最新的這個模型目前在長文本理解方面,完全沒有對手。
它現(xiàn)在能記住 100 萬個 Token 長度,什么概念呢?
想象一下,傳統(tǒng)的 AI 模型像一個記憶力有限的學生,一次只能記住幾頁書的內容、而 Gemini 2.5 Pro 就像一位博學的智者,能夠一口氣“讀”完并深刻理解一部巨著,比如《戰(zhàn)爭與和平》全集(約 70 萬 Token),甚至還有余力。
這不僅僅是能“裝下”更多信息,關鍵在于理解和關聯(lián)。
在日常工作中,經常需要同時讀懂大量文檔,并且每個文檔相互之間還需要關聯(lián)上,這種長文本的能力就非常需要。我們在實際工作中的對話往往是非常長的,聊到后面忘記前面是現(xiàn)在很多 AI 的通病。
假如你是一個項目經理,接手了一個歷史悠久、文檔堆積如山的大型軟件項目。里面有需求文檔、設計稿、會議紀要、郵件往來、甚至幾萬行歷史代碼。你想快速了解項目的來龍去脈、關鍵決策點和潛在風險。
你可以將這些文檔(總計可能幾十萬 Token)一次性“喂”給 Gemini 2.5 Pro。然后你可以直接提問:
“總結一下項目初期最重要的 3 個技術選型決策及其原因。”
“根據(jù)所有會議紀要,用戶反饋最集中的功能模塊是哪個?相關的討論出現(xiàn)在哪些文檔的哪部分?”
它馬上就能給你來個總結,我這里就不放示例了,你可以自己去試試看,非常有效。
再比如我把我過往寫的部分文章,一次性都丟給 Gemini 2.5 Pro,里面有圖有文字,希望它幫我分析出我最喜歡用的詞語頻次,并由此推測我的文風是什么樣的?適合寫什么類型的內容。
這是它給出的結果,可以說非常準確了。
對比 GPT4.5,效果立馬高下立判。
2. 聽懂音頻文件,總結錄音內容成文字
Gemini 2.5 Pro 不僅擅長處理文本,還能看圖,看視頻,聽聲音,并且得益于能記住超長的上下文,這種能力被提升到了新的高度。
我之前就經常苦惱于錄了一段長錄音,然后找音頻轉換文本的軟件,發(fā)現(xiàn)大多數(shù)收費都非常貴。現(xiàn)在用谷歌 Gemini,不僅免費還能直接幫我總結形成文字給我,非常實用。
上傳音頻文件,然后直接寫提示詞:“幫我把這一段錄音文件轉換為文字稿,并總結出其中的關鍵內容”
它能基于錄音的內容分析出的每一句文字內容,最后還幫我做了總結,整個過程大概就花了 3 分鐘就搞定了,非常效率。
3. 看懂視頻,找出視頻中的關鍵信息
可以上傳一段本地拍的視頻,也可以直接用網上的一個視頻鏈接(目前僅支持 youtube),它就能直接分析出視頻里的所有內容,甚至理解視頻中每一幀的畫面內容,這個能力真的太有用了。尤其像我習慣看長視頻教程的人,對我來說非常實用。
分析完成后,它會告訴我總結之后的結果
對于能解析本地拍的視頻,這個能力其實非常有用,比如在平時自己拍的一段視頻,希望能分析出視頻中自己的情緒變化。
比如還可以把 B 站的視頻下載下來,通過分析彈幕上的文本了解觀眾對哪個功能的討論最熱烈?主要觀點有哪些?針對視頻中的哪部分內容,什么畫面帶來的情緒變化等等。
比如還可以問“發(fā)布會上的老板是在哪個時間點開始介紹新產品?他強調了哪些核心賣點?” ,順便還讓它總結一下 35 分鐘到 45 分鐘這段 Q&A 環(huán)節(jié)的主要問題和回答。 甚至還能讓它總結出視頻中人物一共鼓掌了多少次。
它能像人一樣“看”視頻,理解畫面內容、識別語音、定位關鍵幀,甚至進行一定的情感分析,我們不需要再手動拉進度條或單獨做文字記錄了。
如果以上這些多模態(tài)能力,還不足以震撼到你我的話。更強悍的是當你實際用的時候,你就會發(fā)現(xiàn),它真的比其他模型更厲害,沒有對比就沒有傷害。
比如就單純在問答這塊的能力,我們來對比下試試。
我以星球里一位星友的提問為例
這是 deepseek 的回答:
這是谷歌 Gemini 2.0Pro 的回答。對比看的話,Gemini 更能抓住問題的重點,它似乎就是能讀懂你想問的。
我們在用其他像 GPT 和 deepseek 之類的 AI,你可能會發(fā)現(xiàn),它們往往會順著你的意思去回答,但 Gemini 會有自己的明確見解,能告訴你就要怎么做才好,能給出明確的建議,這是一個很好用的地方。因為我們通常是要找建議,還不只是看它幫我們分析,然后又不給結論。
比如再舉一個星友的提問,也是比較常見的問題。
先看下 deepseek 的回答
再看下 Gemini 的回答
對比看下來,我發(fā)現(xiàn) Gemini 的回答是更有人味的,更像是我自己的在回答,和朋友聊天一樣。
對于這一點來說,其實如果你自己不去真正用下的話,估計很難體會到,但我自己近段時間在用的時候是真切的體會到它的聰明、理性,對比其他工具來說,更加順暢好用,關鍵還免費。
所以,有了一個這樣能識別多模態(tài),好用實用的 AI 工具,趕緊用起來吧。
我在想,在如今的 AI 時代,最核心的不是去關注到這些 AI 的發(fā)展,關注到它每天的更新變化,更重要的是要真的去把它們用起來,只有真正用到實際生產中,才能讓 AI 給自己帶來真正的能量。
歡迎關注作者的微信公眾號:「彩云譯設計」
復制本文鏈接 文章為作者獨立觀點不代表優(yōu)設網立場,未經允許不得轉載。
發(fā)評論!每天贏獎品
點擊 登錄 后,在評論區(qū)留言,系統(tǒng)會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯(lián)系我們
AI輔助海報設計101例
已累計誕生 737 位幸運星
發(fā)表評論 為下方 9 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓