不知道大家最近刷到麥當勞用 AI 制作的宣傳片沒有,太火了啊!16 秒的視頻在推特上火出圈了,瀏覽量接近千萬,而且一直在增長。
這則廣告內容是關于日本麥當勞即將舉行的薯條優惠活動,視頻由 11 名 AI 生成的美女組成,她們以不同的風格和方式展示麥當勞薯條,最后以一名少女真正吃到薯條作為結尾。作者是知名 AI 藝術家 Kaku Drop 架空飴。
感覺這種 AI 宣傳視頻,以后也是一個趨勢了,而且從成本方面考慮,用AI來做廣告,也比找真人代言劃算多了。AI “代言人” 既便宜又不會塌房,還可以根據產品量身定做相匹配的代言人形象。
昨天,OpenAI 發布了名為 SearchGPT 的 AI 搜索產品,并開放候補名單,進行小范圍測試。這個從 5 月就開始傳言的產品正式亮相。
不過 SearchGPT 還沒全面開放,需要先申請加入 waitlist。
內測申請地址?? https://chatgpt.com/search
- 功能特點: - SearchGPT能夠快速生成帶圖片和來源的新聞,并附帶詳細屬性和超鏈接。 - 與傳統搜索引擎相比,SearchGPT能夠實時提供最新資訊。 - 支持多輪深度對話,根據搜索內容繼續提問和共享搜索結果。
OpenAI 表示,SearchGPT 旨在將模型的強大能力來檢索網絡的信息,為用戶提供快速及時的答案,并附有清晰和相關的來源。目前先向一小部分用戶開放,以獲取反饋意見。
近期,Stability AI 推出的一款創新性視頻生成模型 Stable Video 4D
模型下載:https://huggingface.co/stabilityai/sv4d
Stable Video 4D 的主要特點: - 高質量視頻內容:Stable Video 4D 能夠處理和生成高質量的視頻內容,滿足專業應用的需求。 - 合成數據集訓練:雖然目前主要基于合成數據集進行訓練,但 Stability AI 正在優化模型以適應真實世界的視頻場景。 - 相關模型:除了 Stable Video 4D,Stability AI 還發布了 Stable Video Diffusion 和 SV3D 等模型,它們支持從圖像或文本生成視頻,并在多視圖合成和高分辨率視頻生成方面表現出色。
個人感覺這個模型還挺強的,大家覺得有哪些實際應用場景啊?
OpenAI 今天發布了全新的 AI 模型“GPT-4o mini”,是一款擴大聊天機器人應用范圍的小型AI模型,它被標榜為功能強大且成本效益高的模型,并預留了未來整合圖像、視頻和音頻處理能力的空間。
作為多模態技術推進的一部分,GPT-4o mini 即時起服務于ChatGPT的免費、Plus及Team用戶,預計下周覆蓋Enterprise用戶。它是基于GPT-4o(5月發布,具備全面的多媒體處理能力和高速度)的精簡版,優化了成本和響應速度,能處理長達128K tokens的上下文,特別提升了對非英文內容的支持,知識庫更新至2023年10月。
在MMLU和MGSM基準測試中,GPT-4o mini表現出色,分別獲得了82%和87.0%的分數,優于同類模型。目前,該模型已具備文本和圖像處理功能,未來將擴展至視頻和音頻領域,大家覺得怎么樣?
戳鏈接查看詳情:GPT-4o mini
哈哈哈,這不是好起來來了嗎!!
百度公司最近推出了一款名為"文小言"的AI數字人社交APP。是基于文心大模型技術,可以通過手寫、語音和圖片等多種方式與數字人交流,享受其以語音、文字和肢體語言相結合的生動回復。最核心的是能夠與AI角色建立情感連接,享受不間斷的聊天體驗。
文小言的主要功能 1、有問必答:AI伙伴隨時在線,可以聊關于生活、感情、游戲、工作、歷史、新聞等話題。 2、海量角色:文小言提供多種角色選擇,包括傲嬌女友、溫柔空姐、健身教練、舞蹈老師等,滿足不同用戶的喜好。 3、沉浸互動:文小言支持全屏沉浸式聊天,包括語音、文字、圖片和視頻通訊。 4、實用專家:文小言提供專業行家的答疑解惑,涵蓋畫畫創作、生活妙招、旅行攻略、新聞時事、同城資訊等領域。 5、免費聊天:用戶可以不受時間限制地享受免費聊天服務。
近日有內幕爆出,蘋果公司不會在今年推出由 Apple Intelligence 驅動的全新 Siri。
蘋果會計劃在明年 1 月開啟全新 Siri 測試,并在 iOS 18.4 中推出正式版本。另外,Siri 的其他功能,例如新設計和 ChatGPT 集成,將于今年晚些時候推出。此前的報道中,Gurman 指出 Apple Intelligence 也將出現在 Vision Pro 上,但要到明年。
蘋果在 6 月舉辦的 WWDC 上推出了搭載 Apple Intelligence (Apple 智能)的全新 Siri,用戶在升級到 iOS 18 后,可以更自然地與 Siri 對話,新的 Siri 還能夠很好地理解上下文。
不過,全新 Siri 只支持 iPhone 15 Pro 及以上的設備,而即將推出的 iPhone 16 系列也將支持 Apple Intelligence。另外,Mac 和 iPad 設備需要搭載 M1 及以上的芯片才能使用 Apple Intelligence。
大家對新版的 Siri 有哪些期待呢?
近日,蘋果公司與瑞士洛桑聯邦理工學院(EPFL)聯合開源了一款名為4M-21的多模態視覺模型。該模型具有廣泛的通用性和靈活性,盡管只有30億參數,但它可以執行數十種任務,包括圖像分類、目標檢測、語義分割、實例分割、深度估計和表面法線估計等。
4M-21模型在21種不同的模態下進行訓練,能夠處理包括圖像、文本、音頻等多種模態的任務。這種多模態能力使其在跨模態檢索、可控生成和開箱即用性能方面表現出色。
4M-21還支持任意到任意模態的轉換,進一步擴展了其應用范圍。
4M-21模型的推出標志著從傳統單模態優化模型向多模態綜合處理能力的重大轉變,展示了蘋果在AI領域的強大實力和創新能力。
開源地址:https://github.com/apple/ml-4m/ 論文地址:https://arxiv.org/abs/2406.09406 在線demo:https://huggingface.co/spaces/EPFL-VILAB/4M
最近,Stability AI做出了一個重大決策,修改了其社區許可協議,允許Stable Diffusion 3 Medium(簡稱SD3-M)模型商業化使用。如果企業或個人開發者年收入不超過100萬美元(約726萬人民幣),只需向Stability AI提交申請,即可免費將SD3-M用于商業目的,如數據微調和生成式AI應用開發。
根據最新的協議,100萬美元的收入門檻是硬性條件,不論收入是否直接來自SD3-M的使用。Stability AI還承諾,將在未來幾周內發布一個更大版本的模型,并繼續與社區分享,意味著該模型將會持續開源。
SD3-M模型擁有20億參數,生成圖片時間平均為2至10秒,推理效率高,對硬件要求低,適合在多種設備上運行。相較于前幾代,它在圖片質量、文本語義、光影和色彩表現上有顯著提升,特別是在文本嵌入方面改進明顯,提高了字體識別和嵌入的準確性。
訓練過程中,SD3-M使用了包含10億張圖片的公開和合成數據集進行預訓練,另外還使用了3000萬張特定藝術風格和領域的圖片進行微調,以及300萬張偏好圖片。
開源地址:https://huggingface.co/stabilityai/stable-diffusion-3-medium 填寫申請地址:https://stability.ai/community-license
今天發現了一個聲音克隆的好東西,我剛剛挖到的Fish Speech這個工具,不僅生成速度快到飛起,而且克隆出的聲音也很真實,支持文字轉語音功能,非常的好用!
Fish Speech 是一款由fishaudio開發的全新文本轉語音(TTS)工具,具有強大的語音克隆能力。用戶只需提供一段參考語音,系統便能迅速進行語音克隆,無需繁瑣的訓練過程。
該工具支持中文、英語和日語等多種語言,并且在語音處理上的能力接近人類水平。 Fish Speech采用了先進的AI技術,包括VQ-GAN、Llama和VITS等,能夠將文本轉換成逼真的語音。它還采用了Flash-Attn算法,以提高處理大規模數據的效率和穩定性。這些技術使得Fish Speech不僅在語音合成方面表現出色,還在語音克隆方面具有顯著的優勢。
Fish Speech的語音克隆功能特別適合內容創作者使用,他們可以利用這一工具快速生成各種聲音效果,用于視頻配音、播客制作等場景。
試玩地址:https://fish.audio/zh-CN/