Dynamic Typography這個標題動畫方案,簡直是神器啊!你想啊,在你設計的標題里,加個SVG小動畫,立馬就能抓住觀眾的眼球!
詳細介紹: 一個名為“動態(tài)排版(Dynamic Typography)”的自動化文字動畫方案,它結合了變形字母表達語義和根據(jù)用戶指令添加動態(tài)效果這兩項技術難題。 我們的方法采用了矢量圖形表示和端到端的優(yōu)化框架,使用神經位移場技術將字母轉換成基本形狀,并配合逐幀動態(tài)效果,確保動畫與文字的意圖保持一致。 通過形狀保持技術和感知損失正則化,我們確保了動畫在整個制作過程中的可讀性和結構完整性。
用了 Dynamic Typography,你的設計肯定能讓人眼前一亮,贊不絕口!
項目地址:Dynamic Typography
谷歌發(fā)布了一套完整的機器學習工程師課程,共計15門課,學習時長達300小時,而且完全免費!
這套課程全面講解了機器學習系統(tǒng)的設計、搭建、投產、優(yōu)化以及后續(xù)的運轉和維護工作,內容既深入又實用。
具體學習內容包括: - 機器學習基礎,深入剖析機器學習的核心原理和方法。 - 特征工程,教授如何高效處理和轉換數(shù)據(jù),進而提升模型的性能。 - 生產級機器學習系統(tǒng)的構建與部署,讓你了解如何將模型應用到實際生產環(huán)境中。 - 計算機視覺與自然語言處理的專業(yè)知識,涵蓋圖像和語言數(shù)據(jù)的深度分析及應用。 - 推薦系統(tǒng)的構建技巧,探討打造個性化推薦引擎的要點。 - MLOps的實操指南,從模型的部署、監(jiān)控到維護,全方位掌握機器學習操作。 - 還將詳細介紹TensorFlow、Google Cloud和Vertex AI等工具和平臺,助你輕松應對機器學習項目的開發(fā)與部署。
課程地址:https://www.cloudskillsboost.google/paths/17
Stability AI 開發(fā)者平臺 API 現(xiàn)已支持最新版本的 Stable Diffusion3(SD3)及其增強版本 Stable Diffusion3Turbo。
SD3模型的亮點在于其對字體和提示的遵循能力,這在人類偏好評估中得到了突出體現(xiàn)。為了實現(xiàn)這一目標,SD3采用了新的多模態(tài)擴散變換器(MMDiT)架構,該架構改進了對圖像和語言表示的權重分離處理,從而顯著增強了模型的文本理解和拼寫能力。這使得SD3在理解和執(zhí)行用戶的文本提示時更為精準,生成的圖像更加符合用戶的預期。
Stability AI在不斷提升服務質量,盡管SD3模型已經通過API對外提供,但公司仍在持續(xù)對模型進行優(yōu)化。Stability AI計劃在不久的將來開放模型權重,允許擁有Stability AI會員資格的用戶自行托管,這將增強用戶的自主性和靈活性。
Stability AI與Fireworks AI的合作確保了API平臺的高速和可靠性,公司承諾提供99.9%的服務可用性,這對于企業(yè)用戶來說尤為重要,因為他們在使用開發(fā)者平臺進行關鍵的生成型AI工作時,需要確保服務的穩(wěn)定性和可靠性。
至于能不能和 Midjourney v6 相媲美或者超越 V6 ,大家不妨多體驗,試試看!
API文檔:https://top.aibase.com/tool/stable-diffusion-3-api 體驗地址:https://sdxlturbo.ai/stable-diffusion3
哎呀,昨晚 Meta 發(fā)布被稱為最強開源的 Llama 3 系列模型了,大晚上扔了個炸彈啊!說實話,這事兒也不算太意外,畢竟 Meta 總是喜歡搞點大動作。他們這次帶來的就是那個自稱“有史以來最牛”的開源大模型——Llama 3系列。 咱們設計師,又可以借助這個新模型好好發(fā)揮一番了!
一起看看這個 GPT-4 級模型,它能干得過 GPT-4 么?
Llama 3模型的特點 - 規(guī)模與性能:Meta開源了兩款不同規(guī)模的Llama 3模型,分別是8B和70B參數(shù)規(guī)模。Llama 3 8B在性能上與Llama 2 70B相當,而Llama 3 70B則在性能上媲美甚至超越了其他頂尖AI模型。 - 技術改進:Llama 3在預訓練和后訓練方面都有所改進,優(yōu)化了模型的一致性和響應多樣性,降低了出錯率。 - 多模態(tài)與多語言:未來幾個月,Meta將推出具備多模態(tài)、多語言對話和更長上下文窗口的新模型,其中包括超過400B的模型,預計將與現(xiàn)有的頂尖模型競爭。
Llama 3的性能測試 - 基準測試:Llama 3在多個測試中得分超越了其他同類模型,顯示出其在推理、代碼生成和遵循指令等方面的突破性提升。 - 人類評估數(shù)據(jù)集:Meta開發(fā)了一套新的高質量人類評估數(shù)據(jù)集,用于準確研究模型性能。
開源與閉源的辯論 - 開源優(yōu)勢:Meta堅定地支持開源路線,認為這有助于推動社區(qū)和公司雙方的創(chuàng)新。 - 未來展望:盡管Llama 3為開源模型贏得了一場勝利,但關于開源與閉源的辯論仍在繼續(xù)。未來,可能會有更高性能的模型出現(xiàn),為這場辯論帶來新的轉折。
附上 Llama 3 體驗地址:https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct
各位設計師小伙伴,現(xiàn)在用Midjourney、DALL·E 3、Stable Diffusion 這些AI模型來生成圖片的時候,如果生成的圖片樣式并不完全符合你的設計需求,大家都是怎么處理的啊?
常規(guī)操作,你得用 PS、Adobe Lightroom這些軟件來調整。不過說實話,這樣挺費時的,也不太符合現(xiàn)在AI時代的高效率要求。
近日「AIGC開放社區(qū)」就為大家介紹一款最近公測的高效圖片無限重生樣式的免費試用AI平臺——Freepik。這個平臺現(xiàn)在是公測期,而且提供免費試用。
你只需要把圖片上傳到Freepik,選擇3D、繪畫、懷舊、卡通、超現(xiàn)實等樣式,就能在幾秒內快速實現(xiàn)。
對于我們這些設計師來說,F(xiàn)reepik簡直就是個神器,強烈推薦給大家試試!
Freepik免費試用地址:https://www.freepik.com/pikaso/reimagine
昨天,谷歌在官網宣布從5月15日起,將向所有谷歌相冊用戶免費提供Magic Editor、Photo Unblur和Magic Eraser三款生成式AI編輯工具。
通過這三款強大的AI圖像編輯工具,用戶可以輕松將模糊的圖片變高清,實現(xiàn)一鍵PS/調色/光影,刪除圖片多余內容等。而在此之前,這三個是谷歌Pixel手機獨有功能。
功能介紹: 1. Magic Editor:這是一款強大的AI圖像編輯工具,它可以幫助用戶輕松實現(xiàn)一鍵PS/調色/光影,改變圖片中的物體位置等。這項功能最初在2023年10月4日隨Pixel 8系列手機發(fā)布。Magic Editor的優(yōu)勢在于它的細節(jié)調整和融合度比傳統(tǒng)的PS工具更強,而且操作簡單,無需深度的專業(yè)知識。不過,需要注意的是,所有谷歌相冊用戶每月只能使用10次Magic Editor,如果想要更多使用次數(shù),用戶需要購買Pixel 8手機或開通Google One計劃(2TB及以上)。 2. Photo Unblur:這是一款專用于去除圖片模糊的工具。用戶在拍攝圖片時可能會因為手抖、環(huán)境等因素導致圖片模糊,Photo Unblur能夠一鍵還原圖片的清晰度,讓模糊的圖片變高清。 3. Magic Eraser:這是一款圖片擦除工具,可以幫助用戶去除照片中不希望出現(xiàn)的元素,如行人或物體。對于不熟悉PS技術的用戶來說,Magic Eraser提供了一種簡單快捷的解決方案,一鍵完美去除圖片中的障礙物。
哪款你最期待呢?評論區(qū)說出你的想法吧~
OpenAI 發(fā)布了GPT-4-Turbo 正式版,這是一個帶有視覺能力的模型,能夠處理128k的上下文。
這個模型現(xiàn)在已經全面開放,可以通過“gpt-4-turbo”來使用,最新版本為“gpt-4-turbo-2024-04-09”。
GPT-4-Turbo模型的基礎能力得到了顯著提升,它不僅能夠處理文本輸入,還能夠識別和理解圖片。這一特性使得GPT-4-Turbo在多種應用場景中具有更廣泛的應用潛力。例如,它可以用于自動編碼、圖像識別和營養(yǎng)分析等領域,為用戶提供更加豐富和便捷的服務。
GPT-4-Turbo的價格與之前的版本保持一致,這使得用戶能夠以相對較低的成本使用這一先進的AI技術。同時,OpenAI還提供了詳細的接口信息和使用限制,幫助開發(fā)者更好地理解和利用這一模型。
大家覺得這個新功能怎么樣,實用性高嗎?
4月10日凌晨,谷歌在官網正式發(fā)布了Gemini1.5Pro,現(xiàn)在可在180多個國家/地區(qū)使用。
Gemini 1.5 Pro 不僅能夠生成創(chuàng)意文本和代碼,還能理解、總結上傳的視頻和音頻內容,并且支持高達100萬tokens的上下文。
在Google AI Studio開發(fā)平臺中,用戶可以免費試用Gemini 1.5 Pro,并且它支持中文提示。這使得用戶能夠通過簡單的操作,上傳視頻或音頻文件,并獲取內容的深度總結。例如,用戶可以上傳一個視頻并詢問影片的內容,Gemini 1.5 Pro能夠快速解析并提供答案。
Gemini 1.5 Pro還提供了音頻理解功能,能夠快速解析音頻文件并總結其內容。這對于需要處理大量視頻和音頻內容的用戶來說,無疑是一個巨大的幫助,因為它可以節(jié)省大量的時間。
谷歌還對Gemini API進行了性能優(yōu)化,包括系統(tǒng)指令、JSON模式以及函數(shù)調用優(yōu)化,這些改進顯著提升了模型的穩(wěn)定性和輸出能力。系統(tǒng)指令功能允許用戶根據(jù)特定需求控制模型的行為,JSON模式可以幫助開發(fā)者從文本或圖像中提取結構化數(shù)據(jù),而函數(shù)調用優(yōu)化則支持開發(fā)者實現(xiàn)更全面的查詢響應。
詳情點此查看: https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html
音頻理解能力: https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb
近日,PixVerse 上線了只需要一張圖片就可以生成 ID 一致的視頻,但是目前只支持真實風格的文生視頻。個人感覺 PixVerse 的視頻清晰度目前是最好的,大家可以去試一試,ID 保持的不錯,可用成都也很靠譜了!
??下面是一些使用技巧: 1、創(chuàng)建角色的時候最好使用正臉的圖片,同時不要有大角度的轉頭。 2、發(fā)型是無法保持的,只能保持面部特征。 3、生成視頻的提示詞最好不要有面部描述,不然會影響 ID 還原的效果。 4、生成視頻的提示詞最好不要有側身、抬頭等詞,不然面部或者眼睛出問題的幾率會增大。
PixVerse 官網: https://app.pixverse.ai/
by:微博@歸藏的AI工具箱
繼上線視頻生成功能后,Dreamina 又上線了一個新功能——智能畫布。該功能集成了 mj、sd 和 PS 的功能,讓用戶能夠在一個平臺上完成多種操作,無需在不同的軟件之間切換。Dreamina 智能畫布的核心特點之一是支持多圖層的 AI 可控能力,如:邊緣保持,支持超清、重繪、摳圖、擴圖等豐富的后編輯能力。
以下是 Dreamina 功能概況: - 智能畫布功能:Dreamina的智能畫布支持多圖層的AI可控能力,包括邊緣保持、超清重繪、摳圖、擴圖等后編輯能力。這意味著用戶可以像使用Photoshop一樣操作多個圖層,并通過AI生成新的圖片。 - 提高工作效率:智能畫布的智能化操作方式不僅提高了工作效率,還降低了操作難度,使得更多用戶能夠輕松上手。 - 應用場景: - 制作小程序產品宣傳圖 - 生成品牌的創(chuàng)意宣傳海報 - logo創(chuàng)意玩法,將品牌logo嵌入圖片中 - 對小企業(yè)和個人店鋪的優(yōu)勢:對于宣傳費用有限的小企業(yè)和個人店鋪,Dreamina提供了一個免費制作宣傳圖的工具。
→ 官方使用教程文檔
哇塞,W&B團隊真是太牛了!他們開發(fā)的這個開源工具OpenUI,簡直是我們設計師的福音啊!你只需用文字描述一下你想要的UI界面,OpenUI就能立刻幫你渲染出效果,實時呈現(xiàn)你的設計想法。
更神奇的是,你還可以通過聊天的方式隨時修改設計,而且它能輕松將HTML轉換成React、Svelte、Web Components等各種前端框架的代碼。這簡直就是設計界的神器啊!
我試了試,發(fā)現(xiàn)它現(xiàn)在用的是GPT模型,效果還挺不錯的。雖然項目還有些小瑕疵,但已經很有潛力了,絕對值得繼續(xù)深入研究。對于我們設計師來說,這絕對是個能大大提升工作效率的好幫手!
OpenUI 線上試玩戳這里!
OpenAI 周五在其官網上發(fā)表了博客文章,名為“駕馭合成聲音的挑戰(zhàn)和機遇”, 這也是 OpenAI 在官網首次展示了全新自定義音頻模型“Voice Engine”。
用戶只需要提供15秒左右的參考聲音,通過Voice Engine就能生成幾乎和原音一模一樣的全新音頻,在清晰度、語音連貫、音色、自然度等方面比市面上多數(shù)產品都強很多。
除了能合成音頻之外,OpenAI 還展示了Voice Engine很多其他際商業(yè)用途,例如,一位失去聲音表達能力的女孩,在Voice Engine幫助下能像以前一樣正常發(fā)音說話。
全文內容:OpenAI 官網
Voice Engine 應用場景: 1. 閱讀助手:可以通過自然且富有情感的聲音為非閱讀者和兒童提供閱讀輔助,實時個性化響應,與學生互動。 2. 內容翻譯:可以翻譯視頻和播客等內容,使創(chuàng)作者和企業(yè)能夠以流利且原汁原味的聲音觸達全球更多受眾。 3. 服務全球:改善偏遠地區(qū)的必要服務。 4. 幫助言語障礙人士:為言語障礙人士提供治療應用,以及為有學習需求的人士提供教育增強功能,使殘疾人能夠進行交流。 5. 幫助病人恢復聲音:幫助患有突發(fā)性或退行性言語障礙的患者恢復聲音。