3月17日,特斯拉首席執(zhí)行官(CEO)馬斯克的AI創(chuàng)企xAI正式發(fā)布3140億參數(shù)的混合專家模型Grok-1。xAI官方網(wǎng)站稱,其遵照Apache 2.0協(xié)議開放模型權(quán)重和架構(gòu)。
我給大家整理一下重點:
- 開源聲明:xAI宣布其大模型Grok-1開源,并遵循Apache 2.0協(xié)議,模型權(quán)重和架構(gòu)已在GitHub上公開。 - 模型規(guī)模:Grok-1是一個擁有3140億參數(shù)的混合專家模型,成為目前參數(shù)量最大的開源大語言模型,超過了OpenAI GPT-3.5的1750億參數(shù)。 - Grok-1的特點:Grok-1被描述為一個能夠回答任何問題的AI,具有機(jī)智和叛逆的特點。它將用于自然語言處理任務(wù),包括問答、信息檢索、創(chuàng)意寫作和編碼輔助。 - 性能評估:Grok-1在HumanEval編碼任務(wù)和MMLU中顯示出強(qiáng)勁的性能,超過了包括ChatGPT-3.5和Inflection-1在內(nèi)的所有其它模型。 - 社區(qū)反響:開源后,Grok-1在GitHub上迅速獲得了9600星標(biāo),顯示出社區(qū)的高度關(guān)注和支持。
另外,我個人覺得馬斯克這項壯舉對行業(yè)的影響也是巨大的,以下是一些個人見解:
1. 技術(shù)創(chuàng)新的加速:Grok-1的開源可能會加速AI技術(shù)的創(chuàng)新。由于模型權(quán)重和架構(gòu)的開放,研究人員和開發(fā)者可以自由地訪問、修改和擴(kuò)展這個模型,從而推動新的研究和應(yīng)用的開發(fā)。 2. 知識共享與協(xié)作:開源模型鼓勵全球范圍內(nèi)的開發(fā)者和研究者共同參與到模型的改進(jìn)和優(yōu)化中來,促進(jìn)知識共享和技術(shù)交流,有助于提升整個行業(yè)的技術(shù)水平。 3. 商業(yè)競爭格局變化:Grok-1的開源可能會改變現(xiàn)有的商業(yè)競爭格局,尤其是對OpenAI等其他AI研究機(jī)構(gòu)和企業(yè)構(gòu)成挑戰(zhàn)。這可能會促使其他公司也采取更加開放的策略,以保持競爭力。 4. 安全性和倫理問題:開源AI模型也引發(fā)了關(guān)于安全性和倫理的討論。一方面,開源可以增加技術(shù)的透明度,有助于發(fā)現(xiàn)和解決潛在的安全問題;另一方面,也可能增加模型被濫用的風(fēng)險。 5. 教育和培訓(xùn)機(jī)會:Grok-1的開源為教育和培訓(xùn)提供了新的資源。學(xué)生和自學(xué)者可以直接訪問和學(xué)習(xí)最先進(jìn)的AI模型,這對于培養(yǎng)下一代AI人才具有重要意義。 6. 應(yīng)用開發(fā)的多樣性:開源模型使得個人和小型企業(yè)也能夠利用先進(jìn)的AI技術(shù),這可能會導(dǎo)致更多創(chuàng)新的應(yīng)用和服務(wù)的出現(xiàn),增加市場的多樣性。 7. 對開源與閉源的辯論:Grok-1的開源可能會加劇關(guān)于開源與閉源哪種模式更有利于AI發(fā)展的辯論。這將影響未來AI研究和商業(yè)化的路徑選擇。
大家對此有些什么看法,也可以評論區(qū)討論哦~ 更多詳細(xì)內(nèi)容,可以看看 xAI官網(wǎng)!
英偉達(dá)(NVIDIA)在2024年GTC大會上宣布的下一代人工智能超級計算機(jī)以及發(fā)布的最強(qiáng)AI加速卡——Blackwell GB200。
這款加速卡采用了新一代AI圖形處理器架構(gòu)Blackwell,由兩個B200 Blackwell GPU和一個基于Arm的Grace CPU組成。黃仁勛在GTC大會上提到,盡管Hopper架構(gòu)已經(jīng)非常出色,但市場需要更強(qiáng)大的GPU。
以下是大會紀(jì)要: - 產(chǎn)品發(fā)布:英偉達(dá)發(fā)布了Blackwell GB200,這是一款新一代的AI加速卡,旨在大幅提升人工智能相關(guān)的計算性能。 - 性能提升:Blackwell GPU的AI性能可達(dá)20petaflops,而前代H100的性能為4petaflops。這意味著Blackwell GPU在AI性能上有顯著提升。 - 技術(shù)規(guī)格:Blackwell GPU采用臺積電的4納米工藝制造,包含2080億個晶體管,通過NVLink 5.0技術(shù)連接兩個獨(dú)立制造的裸晶(Die)。 - 性能對比:英偉達(dá)表示,GB200包含兩個B200 Blackwell GPU和一個基于Arm的Grace CPU,其推理大語言模型性能比H100提升30倍,成本和能耗降至25分之一。 - 企業(yè)應(yīng)用:英偉達(dá)提供成品服務(wù),包括GB200NVL72服務(wù)器,該服務(wù)器配備了36個CPU和72個Blackwell GPU,以及一體化水冷散熱方案,能夠提供總計720petaflops的AI訓(xùn)練性能或1,440petaflops的推理性能。 - 市場合作:亞馬遜、谷歌、微軟和甲骨文等公司計劃在其云服務(wù)產(chǎn)品中提供NVL72機(jī)架。亞馬遜AWS已計劃采購由2萬片GB200芯片組建的服務(wù)器集群。
Devin是首個AI程序員,它能夠通過借用其創(chuàng)造者的賬號與客戶公司的CTO進(jìn)行交流,并根據(jù)回復(fù)調(diào)整代碼方案。
事情發(fā)生在辦公軟件Slack,截圖中的akshat是AI基礎(chǔ)設(shè)施創(chuàng)業(yè)公司Modal Labs的CTO Akshat Bubna。
Devin的開發(fā)商是Cognition,而Modal Labs是它的首批客戶之一。在一次交流中,Devin詢問了關(guān)于密鑰生命周期的問題,特別是密鑰更新后傳播到正在運(yùn)行的應(yīng)用程序所需的時間。盡管Devin已經(jīng)查閱了大量文檔,但仍然沒有找到關(guān)于密鑰傳播時間的明確信息。通過與Modal Labs的CTO交流,Devin了解到更新的密鑰不會使已經(jīng)運(yùn)行的容器失效,但新啟動的容器將會讀取更新后的值。
Devin能夠自主把任務(wù)拆解成一系列子步驟,并一步步執(zhí)行,甚至在遇到障礙時能夠查閱文檔并修改后續(xù)計劃。
大家覺得這波修復(fù)BUG屬于什么水平,優(yōu)秀的程序員也不過如此了吧?感興趣的小伙伴可以看看詳細(xì)的過程→ 原文鏈接
谷歌發(fā)布的一個名為 VLOGGER 的項目。這個項目能夠根據(jù)輸入的圖片和音頻生成對應(yīng)人物講話的視頻。但是個人感覺 VLOGGER 看起來沒有阿里巴巴發(fā)布的 DreamTalk 和 EMO 自然,大家覺得呢?
VLOGGER 主要特點: 1. 3D運(yùn)動的擴(kuò)散模型:它可以根據(jù)一張人物圖像生成由文本和音頻驅(qū)動的說話人視頻。 2. 創(chuàng)新的架構(gòu):項目包含一個創(chuàng)新的基于擴(kuò)散的架構(gòu),通過時間和空間控制來增強(qiáng)文本到圖像模型的能力。 3. 高質(zhì)量視頻生成:能夠生成高質(zhì)量、可變長度的視頻,并通過人臉和身體的高級表示進(jìn)行便捷控制。 4. 廣泛的適用性:與之前的工作相比,VLOGGER不需要為每個人單獨(dú)訓(xùn)練模型,不依賴人臉檢測和裁剪,能生成完整的圖像(包括臉部和身體),適用于廣泛場景,如軀干可見或身份多樣化,這對于正確合成具有溝通能力的虛擬人至關(guān)重要。
項目地址:https://enriccorona.github.io/vlogger/
Midjourney的新功能“角色參照”(Character Reference)終于正式上線了,它為用戶提供了在生成圖像時保持角色特征一致性的可能。這個功能特別適合那些需要在多個圖像中維持相同角色外觀的創(chuàng)作者,例如在制作漫畫、動畫或游戲角色設(shè)計時。
以下是該功能的詳細(xì)介紹和使用方法:
適用型號: - Midjourney V6 - Niji6
功能狀態(tài): - Midjourney V6目前處于alpha測試階段,這意味著功能可能還會有調(diào)整和優(yōu)化。 - V6的beta版即將推出,屆時可能會有更多的用戶可以體驗到這一功能。
使用方法: 1. 在輸入提示詞(prompt)后,通過添加--cref URL來指定一個參照圖像鏈接,以此保持生成圖像中的角色特征。 2. 如果需要混合多個圖像的角色特征,可以使用--cref URL1 URL2的格式。 3. 通過--cw [強(qiáng)度值]來調(diào)整參照的強(qiáng)度,默認(rèn)值為100。強(qiáng)度較高時,生成的圖像會更詳細(xì)地參照臉部、發(fā)型和著裝;而強(qiáng)度較低(如0)時,主要參照臉部特征,適合用于變換服裝或發(fā)型的場景。
效果提示: - 使用Midjourney創(chuàng)作的圖像作為參照圖像通常會得到更好的效果,而使用真人照片可能會導(dǎo)致生成的圖像出現(xiàn)扭曲。 - 功能的參照精確度有限,生成的圖像會具有類似但不完全一致的角色特征。
效果對比: - 與Midjourney V6相比,Niji6在使用“角色參照”功能時可能會有更好的效果。
注意事項: - 由于功能目前處于alpha測試階段,可能會出現(xiàn)不穩(wěn)定或效果不如預(yù)期的情況。
小伙伴們,Microsoft Copilot 的重大更新!定制 Copilot GPT 現(xiàn)已推出。這意味著你可以在微軟的工具里創(chuàng)建自己的 GPT 并共享它們~
具體方法如下:
→ 創(chuàng)建Copilot GPT ①訪問官網(wǎng):https://copilot.microsoft.com/ ②點擊右側(cè)的“查看所有 Copilot GPT” ③然后選擇“創(chuàng)建新的 Copilot GPT”
→設(shè)置你的Copilot ①關(guān)注 creation chat ②設(shè)置名稱、任務(wù)等 ③流程與 ChatGPT Plus 相同,無需個人資料照片
→配置你的Copilot ①可以單擊“配置”選項卡 ②在這里你可以直接選擇名稱、描述、提示... ③你還可以添加知識文件并啟用/禁用互聯(lián)網(wǎng)訪問和 Dall-E 3
→發(fā)布和使用 ①在發(fā)布之前單擊“預(yù)覽”按鈕進(jìn)行嘗試 ②你只能為自己或任何有鏈接的人發(fā)布你的Copilot ③它將自動添加到右側(cè)的 GPT 列表中
好消息,近日字節(jié)跳動推出了一種新型工具——分辨率適配器 ResAdapter,這個工具旨在解決在使用Stable Diffusion等文本到圖像模型生成超出訓(xùn)練分辨率的圖像時出現(xiàn)的肢體異常和畫面崩壞問題。
ResAdapter能夠與現(xiàn)有的IPadapter和Controlnet模型兼容,并且可以直接生成動態(tài)分辨率的圖像,提高了圖像處理的效率。
項目簡介中提到,盡管像Stable Diffusion這樣的模型能夠創(chuàng)造出高質(zhì)量的圖像,但在生成非訓(xùn)練分辨率的圖像時存在限制。ResAdapter通過利用廣泛的分辨率先驗,即使只有0.5M的容量,也能生成高分辨率且保持原有風(fēng)格的圖像。
ResAdapter在提高分辨率方面與擴(kuò)散模型配合得很好,并且可以與其他模塊兼容,用于創(chuàng)建不同分辨率的圖像。
項目介紹地址:res-adapter.github
ComfyUI 的 LayerDiffusion 透明圖層生成插件已經(jīng)發(fā)布,但目前只支持生成。該插件主要包含兩個節(jié)點,其中一個遮罩節(jié)點需要安裝 comfyui-tooling-nodes 插件。
LayerDiffusion 項目已經(jīng)在 forge 的擴(kuò)展上可以使用,經(jīng)過測試,其功能強(qiáng)大,不僅支持直接生成透明的圖片元素,還可以在已有圖片上生成與環(huán)境融合的透明圖片。
插件下載地址:https://github.com/huchenlei/ComfyUI-layerdiffusion
昨天晚上,Anthropic 正式推出了 Claude 3 系列模型,包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。
這些模型在多個方面超越了GPT-4,包括推理、數(shù)學(xué)、編碼、多語言理解和視覺處理等。
以下是Claude 3系列模型與同行在多個能力評估基準(zhǔn)上的對比:
可以看到,其中Claude 3 Opus模型性能完全碾壓GPT-4,以及Gemini 1.0 Ultra。
Claude 3 Sonnet在部分基準(zhǔn)上,比如GSM8K、MATH等超越了GPT-4。Claude 3 Haiku可以與Gemini 1.0 Pro相抗衡。
GPT-4是否真的已經(jīng)過時?Claude 3的橫空出世是否意味著我們即將進(jìn)入一個全新的AI時代?
Claude 3 體驗地址:https://claude.ai/chats
近日,在布魯克林舉行的Hot Pod峰會上,Adobe發(fā)布了名為“Project Music GenAI Control”的全新AI音樂創(chuàng)作工具原型。該工具利用生成式人工智能技術(shù),幫助用戶無需專業(yè)音頻制作經(jīng)驗即可創(chuàng)作和編輯音樂。
用戶只需輸入文本描述,例如“歡快的舞蹈”或“憂傷的爵士樂”,Project Music GenAI Control就能生成對應(yīng)風(fēng)格的音樂。更重要的是,用戶還可以使用集成的編輯控件自定義生成的音樂,調(diào)整重復(fù)模式、速度、強(qiáng)度和結(jié)構(gòu)。該工具可以重新混音音樂片段,并生成循環(huán)音頻,非常適合內(nèi)容創(chuàng)作者制作背景音樂和配樂。
Adobe 表示,Project Music GenAI Control還能夠“基于參考旋律”調(diào)整生成的音頻,并且可以延長音頻片段的長度,以滿足固定動畫或播客片段等所需時長。目前,用于編輯生成音頻的實際用戶界面尚未公布。
“這些新工具最激動人心的功能之一不僅僅是生成音頻” Adobe研究院高級研究科學(xué)家Nicholas Bryan在新聞稿中表示,“它們就像Photoshop一樣,賦予創(chuàng)作者深度控制權(quán),讓他們可以塑造、調(diào)整和編輯音頻,就像像素級控制圖像一樣?!?/p>
Project Music GenAI Control由Adobe與加州大學(xué)和卡內(nèi)基梅隆大學(xué)計算機(jī)科學(xué)學(xué)院合作開發(fā),目前該項目仍處于“早期實驗”階段,未來可能會被整合到Adobe旗下的現(xiàn)有編輯工具Audition和Premiere Pro中。目前該工具尚未向公眾開放,也未公布發(fā)布時間。
近期,阿里巴巴智能計算研究所提出了一種新的生成式框架 EMO,是一種富有表現(xiàn)力的音頻驅(qū)動的肖像視頻生成框架,用戶只需提供一張照片和一段音頻文件,EMO就能生成會說話唱歌的AI視頻,實現(xiàn)無縫對接的動態(tài)小視頻,最長時間可達(dá)1分30秒左右。這項技術(shù)的應(yīng)用場景非常廣泛,從電視劇角色的語音合成到音樂視頻中的虛擬表演者,都有可能被AI技術(shù)所取代。
EMO框架使用Audio2Video擴(kuò)散模型,通過三個階段的技術(shù)處理,包括幀編碼、音頻編碼和去噪操作,以及參考注意力和音頻注意力機(jī)制,來生成富有表現(xiàn)力的人像視頻。
目前,EMO 框架上線到 GitHub 中,相關(guān)論文也在 arxiv 上公開。
GitHub:https://github.com/HumanAIGC/EMO
論文:https://arxiv.org/abs/2402.17485
太瘋狂了,還沒有從 Sora 和 Pika 的 Lip Sync 的震驚中走出來,今天又發(fā)現(xiàn)一個 AI 驅(qū)動的電影生成和視頻剪輯平臺:LTX Studio。
LTX Studio 提供的可視化專業(yè)視頻控制臺,可以幫助用戶進(jìn)一步優(yōu)化視頻的細(xì)節(jié)達(dá)到商業(yè)級視頻,并且附帶語音解讀而Sora目前無法提供。
核心功能: ?支持通過文字直接生成復(fù)雜的劇情視頻,包含語音、音效以及視頻畫面,支持編輯畫面內(nèi)容。 ?支持通過故事板組織和剪輯生成的視頻,你可以自定義演員場景和造型。
加入等待列表:https://ltx.studio
今天,全球最大開源平臺之一GitHub在官網(wǎng)宣布——GitHub Copilot Enterprise正式全面發(fā)布。
GitHub Copilot Enterprise核心模塊之一GitHub Copilot,是一款基于OpenAI的GPT-4模型,并結(jié)合自身積累十多年真實、安全可靠的代碼數(shù)據(jù)開發(fā)而成,開發(fā)人員通過文本提示就能獲取、審核、擴(kuò)展代碼等功能。 其核心功能及亮點如下:
1. 基于OpenAI的GPT-4模型:GitHub Copilot Enterprise利用了先進(jìn)的語言模型,結(jié)合了GitHub的大量代碼數(shù)據(jù),為開發(fā)人員提供智能的代碼輔助。 2. 文本提示代碼生成:開發(fā)人員可以通過簡單的文本提示,讓GitHub Copilot Enterprise幫助生成、審核和擴(kuò)展代碼。 3. 減少重復(fù)性工作:根據(jù)調(diào)查,大多數(shù)開發(fā)人員表示使用GitHub Copilot可以減少在重復(fù)性編碼任務(wù)上的精力。 4. 節(jié)省搜索時間:GitHub Copilot Enterprise可以幫助開發(fā)人員減少在搜索信息上的時間,提高工作效率。 5. 深度了解企業(yè)代碼庫:GitHub Copilot Enterprise能夠簡化代碼導(dǎo)航和理解,加速代碼部署、問題解決和代碼現(xiàn)代化。 6. 集成ChatGPT聊天功能:開發(fā)人員可以通過自然語言與GitHub Copilot Enterprise交流,提出關(guān)于代碼的問題,并獲取幫助。 7. 個性化代碼建議:GitHub Copilot Enterprise可以根據(jù)企業(yè)的特定代碼庫和標(biāo)準(zhǔn)提供個性化的幫助和建議。 8. 快速審核拉取請求:通過分析拉取請求的差異,GitHub Copilot Enterprise可以幫助審核人員快速了解變更,節(jié)省時間并提供有價值的反饋。 9. Bing搜索引擎集成:為了幫助開發(fā)人員減少信息搜索時間,GitHub Copilot Enterprise集成了Bing搜索引擎,提供大規(guī)模的專業(yè)數(shù)據(jù)搜索。 10. 微調(diào)功能:GitHub Copilot Enterprise將推出基于用戶個人代碼庫的微調(diào)功能,使得生成的代碼更加個性化,進(jìn)一步幫助開發(fā)者提高效率。 11. 價格和訂閱:GitHub Copilot Enterprise的月費(fèi)為39美元,提供了個人和商務(wù)版,包括無限的消息、交互、歷史記錄以及基于存儲庫的語義搜索等功能。
使用地址:https://github.com/features/copilot/plans