優(yōu)設(shè)問答你的職場經(jīng)驗(yàn)書

大白(●—●) 邀你回答

2025/05/29

不是AI行內(nèi)人,也想了解AI領(lǐng)域最新動態(tài)?這份AI行業(yè)最常見到的技術(shù)詞語詞典收好了!

Techcrunch整理了一份AI行業(yè)最常見到的技術(shù)詞語詞典,搞懂這些,或許能幫初學(xué)者們輕松邁入AI世界的大門。

- AGI 通用人工智能 通用人工智能(AGI)是一個有些模糊的概念,通常指在多數(shù)任務(wù)上比普通人更強(qiáng)大的AI。OpenAI將其定義為“在最具經(jīng)濟(jì)價值的工作上超越人類的高度自主系統(tǒng)”。谷歌DeepMind則認(rèn)為AGI是“在大多數(shù)認(rèn)知任務(wù)上至少與人類能力相當(dāng)?shù)腁I”。

- Chain of Thought 思維鏈 思維鏈推理意味著讓AI像人一樣一步步思考,把一個大問題拆解成多個小步驟。雖然慢一點(diǎn),但在邏輯推理或編程這種需要嚴(yán)謹(jǐn)思考的場景里,答案會更準(zhǔn)確。現(xiàn)在的大語言模型經(jīng)過優(yōu)化,在處理復(fù)雜問題時,就是靠這種“思維鏈”來提高準(zhǔn)確性。

- Deep learning 深度學(xué)習(xí) AI能自我優(yōu)化學(xué)習(xí)的關(guān)鍵技術(shù)。它模仿人腦神經(jīng)元連接方式,搭建多層人工神經(jīng)網(wǎng)絡(luò),使AI算法能夠建立比簡單機(jī)器學(xué)習(xí)系統(tǒng)更復(fù)雜的關(guān)聯(lián)關(guān)系。 深度學(xué)習(xí)模型能自己識別數(shù)據(jù)里的重要特征,而無需人類預(yù)先定義,還能從錯誤中學(xué)習(xí),不斷改進(jìn)。

- Diffusion 擴(kuò)散模型 擴(kuò)散技術(shù)是眾多藝術(shù)、音樂和文本生成AI模型的核心。受物理學(xué)啟發(fā),先“故意”一步步往數(shù)據(jù)里加噪聲,直到數(shù)據(jù)面目全非。然后,AI學(xué)習(xí)如何“逆向擴(kuò)散”,把這些被破壞的數(shù)據(jù)還原回來,從而獲得從噪聲中“創(chuàng)造”出全新數(shù)據(jù)的能力。

- Distillation 知識蒸餾 一種“師父帶徒弟”的學(xué)習(xí)方法。讓一個大型(“老師”)AI模型處理問題,然后把它的答案用來訓(xùn)練一個更小、更高效的(“學(xué)生”)模型,讓學(xué)生模型學(xué)會老師的行為。這樣就能用更小的模型,實(shí)現(xiàn)接近大型模型的性能。

- Fine-tuning 微調(diào) 微調(diào)是指對已訓(xùn)練的AI模型進(jìn)行進(jìn)一步訓(xùn)練,通過輸入新的專業(yè)化數(shù)據(jù),優(yōu)化其在特定任務(wù)或領(lǐng)域的性能表現(xiàn),使其超越原始訓(xùn)練的重點(diǎn)范圍。很多AI公司都在用這個技術(shù),把大型語言模型“微調(diào)”成適合自己行業(yè)的產(chǎn)品,提升實(shí)用性。

- GAN 生成對抗網(wǎng)絡(luò) 讓AI能“以假亂真”的關(guān)鍵技術(shù)。它由兩個互相競爭的神經(jīng)網(wǎng)絡(luò)組成:生成器負(fù)責(zé)創(chuàng)造數(shù)據(jù),判別器負(fù)責(zé)鑒別真?zhèn)巍>拖褚粓觥柏堊嚼鲜蟆钡挠螒颍瑑烧卟粩鄬梗孉I能自動生成極其逼真的數(shù)據(jù),無需人工干預(yù)。GAN適合用于生成圖片或視頻。

- Hallucination 幻覺 “幻覺”是AI行業(yè)對模型虛構(gòu)內(nèi)容的專業(yè)術(shù)語,特指AI生成錯誤信息的行為。這顯然是影響AI質(zhì)量的核心問題。

- Neural Network 神經(jīng)網(wǎng)絡(luò) 神經(jīng)網(wǎng)絡(luò)是指支撐深度學(xué)習(xí)的多層算法結(jié)構(gòu),是推動生成式AI工具全面爆發(fā)的技術(shù)基礎(chǔ)。盡管這個概念由來已久,GPU的崛起也讓這個概念迎來了爆發(fā)。GPU被證明非常適合訓(xùn)練具有更多層次的算法,使得基于神經(jīng)網(wǎng)絡(luò)的AI系統(tǒng)在語音識別、自動駕駛導(dǎo)航和藥物研發(fā)等多個領(lǐng)域?qū)崿F(xiàn)了遠(yuǎn)超以往的性能表現(xiàn)。

- Transfer Learning 遷移學(xué)習(xí) 把一個已經(jīng)訓(xùn)練好的AI模型拿來當(dāng)起點(diǎn),開發(fā)一個針對不同但相關(guān)的任務(wù)的新模型。這樣可以節(jié)省大量開發(fā)時間,尤其是在新任務(wù)數(shù)據(jù)量不多的時候非常有用。但要注意,模型可能還需要在新領(lǐng)域的數(shù)據(jù)上進(jìn)行額外訓(xùn)練才能表現(xiàn)最佳。

- Weights 權(quán)重 權(quán)重是AI訓(xùn)練的核心要素,它決定了在訓(xùn)練系統(tǒng)所用數(shù)據(jù)中,不同特征(或輸入變量)的重要程度,直接影響AI模型的最終輸出。訓(xùn)練開始時權(quán)重是隨機(jī)的,但隨著學(xué)習(xí)的深入,它們會不斷調(diào)整,讓AI的預(yù)測越來越準(zhǔn)。

這份詞典由Techcrunch定期維護(hù),有需要的朋友可以收藏:https://techcrunch.com/2025/05/25/from-llms-to-hallucinations-heres-a-simple-guide-to-common-ai-terms/

ps:轉(zhuǎn)自量子位

點(diǎn)贊 30 回答 1

劉謙Designer 邀你回答

2024/01/05

視頻生成領(lǐng)域的 “ChatGPT 時刻”,什么時候會到來?

今年接觸了太多 AI 工具了,AI 繪畫的先不說,光是視頻生成就已經(jīng)讓我震驚不已。今天刷到了一個 VideoPoet 作者的專訪,分享的一些關(guān)于視頻生成領(lǐng)域的觀點(diǎn)非常有意思,其中關(guān)于視頻生成領(lǐng)域的 “ChatGPT 時刻”的解讀前瞻性十足,大家感興趣的可以了解一下!

以下是引用: “ 視頻生成的“ChatGPT 時刻”,我覺得大概是,哪怕模型生成的還是比較短的片段,比如 2-5s,但這個生成是可控的,人類也很難分辨是 AI 生成還是人類制作。從用戶角度,只需要幾美分的代價,就能獲得一個可以被送到好萊塢專業(yè) studio 的樣片。如果類比的話,可以類比到圖像領(lǐng)域 stable diffusion 1.x 或 2.x 版本,肯定還有再提升的空間,但已經(jīng)到了能使用的程度,而且能激發(fā)很多應(yīng)用。

我的預(yù)測是,到 2024 年底或 2025 年初,我們可能會到這個時刻。并且我認(rèn)為,實(shí)現(xiàn)這個時刻肯定也需要 diffusion 參與,并且 diffusion 在未來一段時間,比如 1 到 2 年內(nèi),可能仍然是主流,扮演很重要的角色。這里說的 diffusion 已經(jīng)包含了 transformer。

“ChatGPT 時刻”意味著模型到了一個相對穩(wěn)定的階段,但后面還會再改,只不過是在這個基礎(chǔ)上做小的改動,可能一開始版本只能做到逼近好萊塢,有一些缺點(diǎn),但可以商業(yè)化運(yùn)用了,但要達(dá)到真正穩(wěn)定需要更長時間。隨后還可能仍會迭代升級。

現(xiàn)在市場上所有的視頻生成都達(dá)不到這個標(biāo)準(zhǔn),所以我認(rèn)為視頻生成的方法可能還需要進(jìn)一步迭代,有可能要達(dá)到“ChatGPT 時刻”需要新的模型和方法,它不一定是全新的模型或者架構(gòu),可能是現(xiàn)在市場上的某個技術(shù)路線或者方案再往前走一步。”

點(diǎn)贊 37 回答 4

大白(●—●) 邀你回答

2024/06/18

你還在等 Sora 嗎?Runway 深夜發(fā)布 Gen-3 模型,AI 視頻這個月大爆炸啊!

大家還記得 Sora 是什么時候發(fā)布的嗎?2 月份,當(dāng)時 OpenAI 發(fā)布之后,一夜之間就把 AI 視頻生成界攪得天翻地覆啊,但是現(xiàn)在一點(diǎn)消息都沒有了,反倒是其他平臺遍地開花,特別是這個月,簡直太爆炸了~

昨天深夜,Runway 放出醞釀了半年的全新版本 Gen-3 Alpha,也讓我們再次見證了這些巨頭的底蘊(yùn)。

Runway Gen-3 Alpha 特點(diǎn)如下: 高保真視頻生成:能夠生成接近真實(shí)世界質(zhì)量的視頻內(nèi)容,具有高度的細(xì)節(jié)和清晰度。 精細(xì)動作控制:模型能夠精確控制視頻中對象的動作和過渡,實(shí)現(xiàn)復(fù)雜場景的流暢動畫。 逼真人物生成:特別擅長生成具有自然動作、表情和情感的逼真人類角色。 多模態(tài)輸入:支持文字轉(zhuǎn)視頻、圖像轉(zhuǎn)視頻、文字轉(zhuǎn)圖像等多種創(chuàng)作方式。 先進(jìn)工具:支持運(yùn)動畫筆、相機(jī)控制和導(dǎo)演模式等專業(yè)創(chuàng)作工具。 增強(qiáng)的安全措施:引入新的內(nèi)部視覺審核系統(tǒng)和 C2PA 標(biāo)準(zhǔn),確保內(nèi)容的安全性和可靠性。 高質(zhì)量訓(xùn)練:使用高描述性的、時間密集的字幕進(jìn)行訓(xùn)練,使模型能夠理解和生成具有豐富時間動態(tài)的視頻。

現(xiàn)在還在內(nèi)測中,后期可以體驗(yàn)的時候再給大家分享地址!

點(diǎn)贊 30 回答 2

大白(●—●) 邀你回答

2024/04/10

一鍵自動寫影評,谷歌重磅發(fā)布Gemini 1.5 Pro,功能太強(qiáng)大了吧?

4月10日凌晨,谷歌在官網(wǎng)正式發(fā)布了Gemini1.5Pro,現(xiàn)在可在180多個國家/地區(qū)使用。

Gemini 1.5 Pro 不僅能夠生成創(chuàng)意文本和代碼,還能理解、總結(jié)上傳的視頻和音頻內(nèi)容,并且支持高達(dá)100萬tokens的上下文。

在Google AI Studio開發(fā)平臺中,用戶可以免費(fèi)試用Gemini 1.5 Pro,并且它支持中文提示。這使得用戶能夠通過簡單的操作,上傳視頻或音頻文件,并獲取內(nèi)容的深度總結(jié)。例如,用戶可以上傳一個視頻并詢問影片的內(nèi)容,Gemini 1.5 Pro能夠快速解析并提供答案。

Gemini 1.5 Pro還提供了音頻理解功能,能夠快速解析音頻文件并總結(jié)其內(nèi)容。這對于需要處理大量視頻和音頻內(nèi)容的用戶來說,無疑是一個巨大的幫助,因?yàn)樗梢怨?jié)省大量的時間。

谷歌還對Gemini API進(jìn)行了性能優(yōu)化,包括系統(tǒng)指令、JSON模式以及函數(shù)調(diào)用優(yōu)化,這些改進(jìn)顯著提升了模型的穩(wěn)定性和輸出能力。系統(tǒng)指令功能允許用戶根據(jù)特定需求控制模型的行為,JSON模式可以幫助開發(fā)者從文本或圖像中提取結(jié)構(gòu)化數(shù)據(jù),而函數(shù)調(diào)用優(yōu)化則支持開發(fā)者實(shí)現(xiàn)更全面的查詢響應(yīng)。

詳情點(diǎn)此查看: https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html

音頻理解能力: https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb

點(diǎn)贊 17 回答 3

128位高手大咖在線答疑解惑

說清楚

完整的描述具體問題和細(xì)節(jié)

1

耐心等

回答問題需要認(rèn)真思考,請耐心等待

2

巧咨詢

還有疑問?及時追問獲取更多答案

3
我要提問