OpenAI 周五在其官網上發表了博客文章,名為“駕馭合成聲音的挑戰和機遇”, 這也是 OpenAI 在官網首次展示了全新自定義音頻模型“Voice Engine”。
用戶只需要提供15秒左右的參考聲音,通過Voice Engine就能生成幾乎和原音一模一樣的全新音頻,在清晰度、語音連貫、音色、自然度等方面比市面上多數產品都強很多。
除了能合成音頻之外,OpenAI 還展示了Voice Engine很多其他際商業用途,例如,一位失去聲音表達能力的女孩,在Voice Engine幫助下能像以前一樣正常發音說話。
全文內容:OpenAI 官網
Voice Engine 應用場景: 1. 閱讀助手:可以通過自然且富有情感的聲音為非閱讀者和兒童提供閱讀輔助,實時個性化響應,與學生互動。 2. 內容翻譯:可以翻譯視頻和播客等內容,使創作者和企業能夠以流利且原汁原味的聲音觸達全球更多受眾。 3. 服務全球:改善偏遠地區的必要服務。 4. 幫助言語障礙人士:為言語障礙人士提供治療應用,以及為有學習需求的人士提供教育增強功能,使殘疾人能夠進行交流。 5. 幫助病人恢復聲音:幫助患有突發性或退行性言語障礙的患者恢復聲音。
近日,在布魯克林舉行的Hot Pod峰會上,Adobe發布了名為“Project Music GenAI Control”的全新AI音樂創作工具原型。該工具利用生成式人工智能技術,幫助用戶無需專業音頻制作經驗即可創作和編輯音樂。
用戶只需輸入文本描述,例如“歡快的舞蹈”或“憂傷的爵士樂”,Project Music GenAI Control就能生成對應風格的音樂。更重要的是,用戶還可以使用集成的編輯控件自定義生成的音樂,調整重復模式、速度、強度和結構。該工具可以重新混音音樂片段,并生成循環音頻,非常適合內容創作者制作背景音樂和配樂。
Adobe 表示,Project Music GenAI Control還能夠“基于參考旋律”調整生成的音頻,并且可以延長音頻片段的長度,以滿足固定動畫或播客片段等所需時長。目前,用于編輯生成音頻的實際用戶界面尚未公布。
“這些新工具最激動人心的功能之一不僅僅是生成音頻” Adobe研究院高級研究科學家Nicholas Bryan在新聞稿中表示,“它們就像Photoshop一樣,賦予創作者深度控制權,讓他們可以塑造、調整和編輯音頻,就像像素級控制圖像一樣。”
Project Music GenAI Control由Adobe與加州大學和卡內基梅隆大學計算機科學學院合作開發,目前該項目仍處于“早期實驗”階段,未來可能會被整合到Adobe旗下的現有編輯工具Audition和Premiere Pro中。目前該工具尚未向公眾開放,也未公布發布時間。
VanceAI是一個綜合性AI圖像處理和創作平臺。它提供AI圖像增強功能,包括圖像放大、銳化、降噪、背景移除和老照片修復,智能提升圖片質量。同時,平臺還包括卡通化、素描轉換和AI圖像生成等創意工具。
VanceAI 利用AI技術提高圖像編輯效率,為電商、設計和攝影等領域提供專業解決方案。平臺支持在線使用和桌面版軟件,滿足個人和企業的多樣化需求。
VanceAI提供了一系列強大的AI驅動的圖像處理工具,主要功能包括: 1. 圖像增強:通過AI算法自動優化圖像質量,提升清晰度和細節表現。 2. 圖像放大:將低分辨率圖像智能放大,保持清晰度的同時增加圖像尺寸。 3. 圖像銳化:增強圖像邊緣和細節,使模糊的圖像變得更加清晰。 4. 降噪處理:有效去除圖像中的噪點,提高圖像整體質量。 5. 背景移除: - 智能識別并移除圖像背景 - 保留主體對象,便于進一步編輯或合成 6. 背景生成:利用AI技術為圖像創建新的背景,實現創意合成效果
4月24日,蘋果開源了大語言模型OpenELM。這與微軟剛開源的Phi-3 Mini類似,是一款專門針對手機等移動設備的模型。
以下是一些重點信息的摘要: 1. 開源OpenELM: 蘋果公司開源了一個名為OpenELM的大語言模型,這與微軟開源的Phi-3 Mini類似,是專為移動設備設計的模型。 2. 模型參數: OpenELM提供了四種不同參數規模的模型,分別是2.7億、4.5億、11億和30億參數。 3. 功能: 該模型能夠執行生成文本、代碼、翻譯、總結摘要等功能。 4. 預訓練數據: 盡管最小的模型只有2.7億參數,但蘋果使用了1.8萬億tokens的數據進行預訓練,這是其小參數下仍能表現出色的原因之一。 5. 深度神經網絡庫CoreNet: 蘋果同時開源了用于訓練OpenELM的深度神經網絡庫CoreNet,該庫在開源后不久就在GitHub上獲得了超過1100個星標。 6. 蘋果的開源策略: 蘋果通常在手機領域采取閉源策略,但此次開源可能是為了吸引用戶,未來可能會推出閉源產品實現商業化。 7. 技術貢獻: 蘋果不僅發布了模型權重和推理代碼,還發布了完整的訓練和評估框架,包括數據準備、模型訓練、微調和評估流程,以及多個預訓練檢查點和訓練日志。 8. OpenELM架構: OpenELM的架構,包括其技術創新點,如無編碼器的transformer架構、層級縮放策略、不使用全連接層中的可學習偏置參數等。 9. 訓練流程與數據集: 蘋果使用CoreNet作為訓練框架,Adam優化算法,以及動態分詞和數據過濾的方法。
開源地址:https://huggingface.co/collections/apple/openelm-instruct-models-6619ad295d7ae9f868b759ca?ref=maginative.com CoreNet地址:https://github.com/apple/corenet?ref=maginative.com 論文地址:https://arxiv.org/abs/2404.14619
哎呀,昨晚 Meta 發布被稱為最強開源的 Llama 3 系列模型了,大晚上扔了個炸彈啊!說實話,這事兒也不算太意外,畢竟 Meta 總是喜歡搞點大動作。他們這次帶來的就是那個自稱“有史以來最牛”的開源大模型——Llama 3系列。 咱們設計師,又可以借助這個新模型好好發揮一番了!
一起看看這個 GPT-4 級模型,它能干得過 GPT-4 么?
Llama 3模型的特點 - 規模與性能:Meta開源了兩款不同規模的Llama 3模型,分別是8B和70B參數規模。Llama 3 8B在性能上與Llama 2 70B相當,而Llama 3 70B則在性能上媲美甚至超越了其他頂尖AI模型。 - 技術改進:Llama 3在預訓練和后訓練方面都有所改進,優化了模型的一致性和響應多樣性,降低了出錯率。 - 多模態與多語言:未來幾個月,Meta將推出具備多模態、多語言對話和更長上下文窗口的新模型,其中包括超過400B的模型,預計將與現有的頂尖模型競爭。
Llama 3的性能測試 - 基準測試:Llama 3在多個測試中得分超越了其他同類模型,顯示出其在推理、代碼生成和遵循指令等方面的突破性提升。 - 人類評估數據集:Meta開發了一套新的高質量人類評估數據集,用于準確研究模型性能。
開源與閉源的辯論 - 開源優勢:Meta堅定地支持開源路線,認為這有助于推動社區和公司雙方的創新。 - 未來展望:盡管Llama 3為開源模型贏得了一場勝利,但關于開源與閉源的辯論仍在繼續。未來,可能會有更高性能的模型出現,為這場辯論帶來新的轉折。
附上 Llama 3 體驗地址:https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct