爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

大家好,我是言川。在開篇先說下寫這篇文章的背景。熟悉我的朋友應該都知道,我目前是與優設平臺聯合發起了一個 AI 俱樂部,這個俱樂部主要是幫助會員們掌握 AI 技術的。但是我最近發現了一個“非常嚴重”的問題,不少會員寶子們來問我什么是 AIGC、什么是智能體、AIGC 能應用到哪些場景中......確實我也發現了,現在兩極分化太嚴重了,真正懂 AIGC 的人數量極少,大部分人還是處于似懂非懂的狀態。

于是,為了解決大家對 AIGC 知識的不足,我耗時 36h,寫下了這篇累計 2W 字的 AIGC 科普文章。由于本文比較長,大家可能一時會難以吸收,所以建議大家收藏起來反復觀看。并且,我在文末給大家準備了一份福利,記得一定去看看。

為什么要讀這篇文章?我把我的經驗分享給你。

我在往期分享的文章中,大部分內容是在 AI 應用層分享經驗知識,對 AIGC 原理的經驗分享較少。而面對 AI 技術不斷的發展,我們在應用層的學習是遠遠跟不上技術更新的速度。但現在 AIGC 的技術框架是比較成熟的,我們能看到的新技術、新功能,大部分都是在以往經過驗證且成熟的技術架構上更新。所以,當你從底層原理去學習并理解 AI 技術(如大模型、智能體、多模態等),不論將來 AI 如何革新甚至革命,你都能游刃有余的應對,重要的是培養一個深度學習、思考的習慣。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

所以本篇文章,就是給大家進行掃盲的。而我也會盡量用人能聽懂的話語、大量的舉例來幫助你更好的學習。

一、AIGC 介紹及發展經歷

為什么 AIGC 能在近 2 年突然爆發,并且影響普通人和傳統行業。這一切都不是突然出現,而是隨著人工智能產業的多年發展,技術實現從感知智能升級為認知智能。

感知智能主要聚焦在視覺、聽覺以及嗅覺等信號的處理,它使得機器能夠像人類一樣處理這些信號。

認知智能則更加關注語言推理,它聚焦在理解和生成語言的能力上。認知智能使得機器能夠進行復雜的閱讀理解任務并與人類進行有效的對話,這就 AIGC 實現智能產品化的重要形式。

如果要更加深入的了解 AIGC,我們則需要從它的前世今生開始說起。

1. 什么是 AIGC

從零開始掃盲,第一個問題,什么是 AIGC?AIGC 是 AI Generated Content 的縮寫,直譯即是生成式人工智能。

在 AIGC 出現之前,我們生產內容的方式是 PGC(專家生產內容)和 UGC(用戶生產內容)。而 AIGC 則是利用人工智能技術自動生成內容的新型生產方式,而這種生產方式被行業內定義為 Web 3.0 互聯網形態。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

按照模態劃分(指的是 AIGC 技術能夠處理和生成的內容類型),AIGC 又可以分為文本生成(如 ChatGPT、Kimi 等)、圖像生成(如 StableDiffusion、Midjourney 等)以及視頻生成(如可靈 AI、Sora 等)。當然還有一個模態劃分,也是未來 AI 大模型的發展趨勢,叫做多模態。多模態指的是同時處理來自不同模態的信息,如文本、圖像、音頻等。也就是說一個 AI 大模型,能同時處理多種內容生成類型。

自 2022 年 OpenAI、Midjourney、StableDiffusion 等先進 AI 工具的推出以來,AIGC 得到了快速發展,內容由 AI 生成的比例呈指數級上升,這標志著內容生產模式正從 PGC 和 UGC 向 AIGC 轉型。

此外,2022 年 12 月 16 日,Science 雜志發布了 2022 年度科學十大突破,其中 AIGC 赫然在列,標志著其重要性和影響力。AIGC 的火爆是技術積累與發展策略雙重變革的產物,因此 2022 年更應該是 AIGC 的“應用元年”。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

2. AIGC 發展歷程

正如前文提到的,AIGC 技術并不是突然出現,而是隨著 AI 技術迭代而迎來爆發式增長。我們可以將 AIGC 的發展分為四個階段,早期萌芽階段、沉淀積累階段、快速發展階段以及產品爆發階段。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

第一階段:早期萌芽(1950s-1990s)

1950 年,艾倫·圖靈首次提出“圖靈測試”,給出判定機器是否具有“智能”的實驗方法。但由于該時期受限于科技水平的發展,AIGC 僅限于小范圍的實驗。

直到 1957 年,萊杰倫·希勒和倫納德·艾薩克森完成了一部由計算機創作的音樂作品。但直到 80 年代末至 90 年代中期,高昂的成本投入以及難以商業化的問題,導致資本投入有限,所以在這個階段,AIGC 并沒有出現顛覆性的成果。是不是有點像前幾年很火熱的元宇宙概念,成本高、商業落地難。

第二階段:沉淀積累(1990s-2010s)

從這個階段開始,AIGC 開始從實驗性質轉向實用性。因為自 2006 年開始,深度學習算法取得重大突破,同時 GPU、CPU 等算力設備性能不斷提升,互聯網得到快速發展,為各類人工智能算法提供了海量訓練數據。

到 2007 年,世界首部完全由人工智能創作的小說《1 The Road》問世,給 AIGC 研究方向一記強力的定心針。

2012 年,微軟公開展示了一個全自動同聲傳譯系統,通過深度神經網絡(DNN)可以自動將英文演講者的內容通過語音識別、語言翻譯、語音合成等技術生成中文語音。如后續各大手機廠商推出的語音助手的 sir、小愛同學等,但此時的 AI 還不能被稱為 AIGC。

第三階段:快速發展(2010s-2021)

自 2014 年以來,生成式對抗網絡(GAN)等深度學習算法的提出和持續迭代,標志著人工智能生成內容(AIGC)進入了一個新的時代。在這一階段,AIGC 領域呈現出多樣化的內容生成,其效果逐漸趨向逼真,甚至達到了令人類難以辨識的程度。同時,各大廠商推出的相關產品或功能也進一步證明了 AIGC 正快速發展的趨勢。

2017 年,微軟人工智能少女“小冰”推出了世界首部 100%由人工智能創作的詩集《陽光失了玻璃窗》。

2018 年,英偉達推出的 StyleGAN 模型能生成高分辨率圖片。目前最新的模型 StyleGAN-T,能夠在短時間內由文本生成大量圖像。

2019 年,DeepMind 發布了 DVD-GAN 模型用以生成連續視頻,在草地、廣場等明確場景下表現突出。

2021 年,OpenAI 推出了 DALL-E,并于一年后推出了升級版本 DALL-E-2,主要應用于文本與圖像的交互生成內容。

第四階段:產品爆發(2022-至今)

直到 2022 年(你沒看錯,準確來講 AIGC 產品的爆發是在 2022 年下半場),多款 AI 產品橫空出世。Stability AI 在 2022 年 8 月發布了 Stable Diffusion 模型,而 OpenAI 于同年 11 月 30 日推出了人工智能聊天工具 ChatGPT。圖像生成工具 Midjourney 的 V1 模型更早在 2022 年 2 月首次亮相。

起初,AIGC 的討論主要集中在科技圈,但隨著 2023 年新年假期結束,GPT-4 模型在 3 月份橫空出世,其多模態輸入和媲美甚至超越人類的表現在專業領域引起了廣泛關注。經國內外媒體大肆報道宣傳,使得 AIGC 開始進入互聯網從業者、企業高管、投資者等更多人的視野。圖像生成工具如 Midjourney 和 Stable Diffusion 也開始在設計領域掀起波瀾。而我也正是在這個時期,開始學習并在自媒體平臺上分享 AI 繪畫經驗。

寫到這里也是頗為感觸,我也是吃到了 AI 發展的紅利期,往往機會就是出現在風口上,能否敏銳的抓住風口,是每一個創業者、媒體人必修的能力。

2023 年,隨著市場反饋和 AIGC 發展趨勢,成百上千的 AI 產品涌現,新創業者和老牌企業紛紛向 AIGC 轉型,AI 時代正式到來,市場競爭也變得激烈。盡管最初 AI 在視頻生成領域表現不佳,但 2024 年初 Sora 的出現標志著 AI 視頻領域的競爭正式開始。直到現在(2024 年 10 月寫文),市面上已出現多款 AI 視頻產品,如 Runway ML、Pika、LumaAI、可靈 AI、海螺、即夢、清影等,涵蓋了音樂生成、數字人、語音合成等相關技術,AIGC 在視頻生成領域的技術也日益成熟。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

AI 時代的到來迫使每個人都必須擁抱 AI 技術。從市場角度來看,AIGC 的發展仍處于初期階段,目前正處在一個探索和驗證的階段,如同拿著錘子找釘子。AI 大模型就像一把強大的“錘子”,而找到合適的“釘子”并有效地使用這把“錘子”是我們需要不斷嘗試和驗證的。

3. AIGC 發展必備條件

從上述的發展歷程我們可以觀察到,AIGC 從初期“智能”概念的提出,到 2022 年生成式 AI 工具的爆發,歷經 70 多年,絕非偶然。它至少具備五項條件:模型訓練技術創新、合成數據驅動訓練、GPU 芯片支持以及產業生態的成熟,下面我將從這四項條件逐一展開分析。

條件一:模型訓練技術創新

人工智能行業與其他行業有所區別,人工智能領域依賴于開放科學和不斷的技術創新。什么意思呢?就是說優質模型的開源能夠加速技術進步,例如 OpenAI 開源的 CLIP 多模態預訓練模型,它結合了自然語言理解和計算機視覺分析,使得模型訓練可以直接利用互聯網上帶有文字描述的圖片素材,這大幅降低了數據獲取的門檻。

同時也為 CLIP 模型的開源,也為圖像生成模型如 Stable Diffusion 提供了技術基礎。而 Stable Diffusion 的開源則進一步推動了這一趨勢,降低了用戶使用 AIGC 進行創作的門檻。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

條件二:合成數據驅動訓練

傳統的模型訓練面臨數據標注費時費力、準確率低、樣本數量不足等問題。生成式 AI 的發展使得模型可以產生合成數據,這些數據又可以反哺模型訓練,形成加速飛輪,顯著提高了訓練效率和模型的性能。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

條件三:GPU 芯片支持

AI 大模型的訓練需要強大的計算能力,通常依賴于 GPU 芯片服務器。隨著芯片產業的不斷進步,硬件能力也日益增強,足以支撐起模型訓練的算力需求,這是 AIGC 發展的關鍵因素。

NVIDIA 在芯片技術上的領先地位,特別是在 AIGC 爆發期,使其成為全球最有價值的公司之一。老黃(黃仁勛)也因此吃到時代的紅利,個人身價在 2024 年達到了 1090 億美元,排名全球富豪榜第 13 位。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

條件四:產業生態的成熟

隨著 AIGC 的技術進步,AIGC 產業生態逐漸成型。整體而言,目前 AIGC 產業生態可劃分為三部分:上游預訓練模型開發、中游的模型開發及銷售、下游的 AI 服務應用。

① 上游基礎設施

這包括數據服務板塊、算力、模型開發訓練平臺/計算平臺等算法基礎平臺。這一層的門檻很高,預訓練模型開發需要巨大的資金和專業知識,因此有能力做預訓練模型的公司主要是頭部科技企業和獨角獸公司。

② 中游模型層

模型層包括底層通用大模型、中間層模型和開源社區。中游主要指的是模型的開發和優化,包括底層通用大模型的構建、中間層模型的開發,以及開源社區的貢獻。這些模型是 AIGC 產業的核心,它們通過各種算法和技術處理上游提供的數據,生成高質量的內容。

③ 下游應用層

應用層則是在文本、音頻、圖像、視頻四類模態的基礎上,發展出了策略生成和跨模態生成,并在金融、數據分析、設計等多個行業實現了商業應用。

下游主要是將中游的模型應用到具體的行業和場景中,如文本生成、音頻生成、圖像生成、視頻生成等,以及跨模態生成,即將一種模態的內容轉換成另一種模態,例如將文本描述轉換為圖像。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

二、AI 的技術理論

AIGC 技術與 AI 的發展密不可分,所以我們需要理解 AI 技術的演進才能更容易的吸收 AIGC 的技術原理。

1950 年,艾倫·圖靈發表了一篇劃時代的論文《計算機器與智能》,文中提出了著名的圖靈測試:“如果一臺機器能夠與人類展開對話,而保證其機器身份不被識破,那么就可以認為這臺機器具有智能。

雖然此時圖靈已經從理論角度給出了機器擁有智能的可能性,但 AI 正式發展成一門專業學科則是在 1956 年的達特茅斯會議,在這次會議上,“人工智能”的名稱與概念正式確立,因此這次會議也被廣泛認為是人工智能誕生的標志,開啟了人工智能領域曲折向上的技術發展之路。

如果我們繼續深挖下去,并要理解后面出現的多種 AIGC 技術相關的專業名詞(如深度學習、神經網絡、生成式對抗網絡等),就需要先對早期人工智能誕生的三種發展流派有所了解。

1. AI 技術發展的三種流派

在人工智能誕生早期,出現了三大流派:符號主義、聯結主義和行為主義。這三大流派就類似江湖上的武林幫派,比如武當派、少林派、峨嵋派等。這些流派相愛相殺、互相競爭又互相合作。這三種流派共同構成了人工智能早期的理論基礎,并影響了后來人工智能的發展。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

① 符號主義

符號主義認為人類的一切活動(包括智力和體力)都是符合某種邏輯的,所有信息都可以抽象為各種符號。而人類的認知過程可以看作是運用邏輯規則操作這些符號的過程,所以符號主義又叫邏輯主義。但是一旦涉及到非邏輯思維,那么它可能就會干瞪眼,沒辦法進行推理了。

② 聯結主義

聯結主義認為智能的關鍵不在于讓電腦等機器實現智力活動,而是應該模仿人腦的結構,即神經元之間的聯結,所以聯結主義又叫仿生學派。這派觀點認為智能是大腦中神經元網絡共同處理信息的結果,通過計算機模擬神經網絡的工作模式來實現人工智能。但是這個是有賴于人類對自身神經系統的了解程度,到目前為止我們還沒法對這個神經系統完全了解。

③ 行為主義

行為主義起源于控制論,強調模擬人在控制過程中的智能行為和動作。這就有點像我們人與人之間的交流、溝通、沖突、合作出現的這種自適應機制。但是限于時代和科技發展,行為主義直到上世紀末,隨著智能控制與機器人逐漸興起才引起重視。

總結一下,符號主義擅長知識推理、聯結主義擅長知識建模、行為主義擅長感知+行動。而三者的融合發展,或許才是未來人工智能發展的大勢所趨。

那么是哪些技術促進 AI 生成的內容發展呢?你可能在某篇文章、某條視頻或某條論文里刷到過這些詞匯,如機器學習、監督學習、無監督學習、深度學習、強化學習等等,那么它們有什么關系呢?別急,下來我會一一來解釋,當你理解了這些技術原理,那么你將對 AI 會有一個更深入的認識。

2. 機器學習理論

① 機器學習介紹

1950 年,也是本文出現多次的老前輩圖靈,在他的論文《計算機器與智能》中提出了“學習機器”的概念,強調與其去編程模擬成人的大腦,還不如選擇更簡單的兒童大腦,通過輔之以懲罰和獎勵的教學過程,讓機器在學習后具備智能。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

舉個栗子,如果我們通過編程代碼告訴電腦,圖片里有紅色的物體說明是蘋果,圖片里有黃色的物體說明是香蕉。那程序對水果類的判斷就是通過人類直接明確編寫的邏輯達成的,而這不屬于機器學習,因為機器并沒有進行學習。

再舉個栗子,如果我們給電腦喂大量的蘋果和香蕉的圖片,讓電腦自行識別判斷,總結規律,從而能對未見過的圖片進行預測和判斷,這才是機器學習。

機器學習模型的訓練過程可分為以下四步:

  1. 數據獲取:需要收集和準備用于訓練模型的數據。這些數據可以來自數據庫、文件、網絡等,數據的質量會直接影響模型的性能;
  2. 特征工程:從原始數據中提取出有助于模型做出預測的特征,目的是使數據更適合機器學習算法處理,從而提高模型的性能;
  3. 模型訓練:使用特征工程處理過的數據來訓練模型,并根據算法生成模型;
  4. 評估與應用:將訓練好的模型應用在需要執行的任務上并評估其表現,通常涉及到使用測試集(在訓練過程中未見過的數據)來評估模型的準確性和其他性能指標。如果模型的性能達到了預期,它就可以被部署到實際應用中,用于做出預測或決策。

② 監督學習與無監督學習

機器學習又可以簡單的劃分為監督學習和無監督學習,它們在訓練數據的類型和學習目標上有所不同。

監督學習:

監督學習的目標是學習輸入數據和輸出標簽之間的映射關系,以便能夠對新的、未見過的數據做出準確的預測。

監督學習好比,在學校里,小言每次做完題目后,老師會進行題目進行批改,讓小言知道每道題是否答對。

監督學習通常用于分類和回歸問題。

  1. 分類:在分類問題中,模型的目標是預測離散的類別標簽。比如用一些貓和狗的圖片對應貓狗的標簽進行訓練,然后用模型未見過的圖片預測是貓還是狗。
  2. 回歸:在回歸問題中,模型的目標是預測連續的數值。比如用一些房子特征的數據(房子面積、客廳、陽臺等),然后用模型未見過的房子圖片預測房價。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

無監督學習:

無監督學習的目標是發現數據中的模式和結構,而不是對數據進行預測。

無監督學習好比老師把大量的題目直接丟給小言同學,讓小言在題海中自己發現題目規律,當題量足夠大的時候,小言雖然不能完全理解每道題,但也會發現一些知識點的固定的選項表述。

無監督學習通常用于聚類和關聯規則學習問題。

  1. 聚類:在聚類問題中,模型的目標是將數據進行分組,使得同一組內的數據點相似度高,不同組之間的數據點相似度低。
  2. 關聯規則學習:關聯規則學習中,模型尋找數據特征之間的關聯規則。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

③ 感知器與神經網絡算法

在機器學習領域,監督學習和無監督學習是兩種最基礎且易于掌握的方法。而監督學習就是感知器算法的典型案例之一,它是構建人工神經網絡的基石。

我們通過一個例子來簡化感知器的工作原理,這其中不涉及復雜的數學公式。

想象小言在大學選修了一門課程,他想通過收集過往學生的成績數據來預測自己是否會掛科。他首先設定了一個評分公式:第一次作業(占 30%)+第二次作業(占 30%)+考試(占 40%)=課程評分。如果評分達到或超過 60 分,就及格;否則,掛科。

小言嘗試將這個公式應用于收集的數據,但發現要么所有人都不及格,要么所有人都及格。這說明他需要調整作業和考試的權重。通過不斷調整,小言最終找到了合適的權重,能夠準確預測學生是否會掛科。

這個過程可以由一個簡單的感知器程序來完成。在這個程序中,作業和考試的成績作為輸入節點,相當于神經元接收信息。判斷是否掛科的輸出節點也是一個神經元。計算合格與否的函數稱為激勵函數。輸入和輸出節點之間的信號傳遞由評分公式計算,信號的強弱由成績對應的權重決定。通過調整這些權重,模型學會了如何分類。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

人工神經網絡是一種多層感知器,它不僅包括輸入層和輸出層,還引入了多個隱藏層。這些隱藏層的神經元可以與輸入層和輸出層的神經元相連,每個連接都有一個特定的權重系數。這樣的設計使得網絡能夠捕捉到更復雜的數據模式和關系。

隱藏層的引入是為了處理現實世界中的復雜性。在現實世界中,問題往往不是簡單的黑白對立,而是存在許多灰色地帶和變化。隱藏層使得神經網絡能夠學習這些復雜的變化,從而提高模型的預測能力和泛化能力。通過在隱藏層中增加更多的神經元,網絡可以學習更復雜的函數映射,解決更復雜的問題。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

總結來說,感知器算法通過調整輸入權重來學習分類任務,而人工神經網絡則在此基礎上進行更復雜的學習。在訓練過程中,需要平衡經驗風險和結構風險,以達到最佳的學習效果。

④ 強化學習算法

強化學習是 AIGC、大模型最核心的技術之一。2016 年 3 月,由谷歌 DeepMind 公司開發的人工智能程序 AlphaGo 在五局三勝制的比賽中以 4 比 1 的總比分戰勝了世界圍棋冠軍李世石。而這臺 AI 程序訓練的過程就結合了強化學習的技術,自我對弈不斷提高自己的水平。

簡單介紹下強化學習,強化學習是機器學習的一個分支,它主要關注如何在環境中采取行動,來達成長期累計收益最大化的目標。與監督學習和無監督學習不同,強化學習不是直接從數據中學習,而是通過智能體(Agent)與環境(Environment)的交互來學習。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

我們用一個《超級馬里奧》游戲的例子來說明強化學習的概念,在這個游戲例子中,智能體就是馬里奧,環境是整個《超級馬里奧》的游戲世界。

  1. 智能體:馬里奧是玩家控制的角色,他需要在游戲世界中做出各種決策,比如跳躍、奔跑、收集金幣等。
  2. 環境:包括不同的關卡、敵人、障礙物、金幣、道具等。馬里奧在這個世界中進行探索和交互。
  3. 狀態:狀態描述了游戲世界在任何給定時刻的具體情況。對于馬里奧來說,狀態可能包括他的位置、速度、是否處于無敵狀態、敵人的位置、金幣的數量等。
  4. 行動:行動是馬里奧可以執行的操作,比如:向右移動、向左移動、跳躍、靜止不動、蹲下、使用道具等。
  5. 獎勵:獎勵是馬里奧執行行動后從環境中獲得的反饋。比如收集金幣+200 分、擊敗敵人+100 分、到達旗桿:+1000 分(并進入下一關)、掉入深淵或被敵人擊中:-1 條命。
  6. 目標:馬里奧的最終目標是完成所有關卡,救出公主。在強化學習中,這個目標可以被轉化為最大化累積獎勵,比如通過盡可能多地收集金幣、擊敗敵人和快速通關。
  7. 策略:策略是馬里奧根據當前狀態決定采取的行動的規則。一個好的策略會告訴馬里奧在特定狀態下應該采取哪個行動以最大化獎勵。
  8. 價值:價值函數預測從某個狀態出發,遵循特定策略所能獲得的累積獎勵。例如,馬里奧可能會評估在某個位置跳躍的價值,以確定這是否是一個高價值的行動。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

所以強化學習的過程又可以分為以下幾點:

  1. 觀測:馬里奧觀測當前關卡的狀態。
  2. 決策:根據觀測到的狀態和學習到的策略,馬里奧決定是跳躍、奔跑還是收集金幣。
  3. 執行:馬里奧執行選定的行動。
  4. 反饋:環境對馬里奧的行動給出反饋,比如得分增加或生命減少。
  5. 學習:馬里奧根據反饋更新其策略,比如如果跳躍總是導致掉入深淵,他可能會學習到在那個位置應該奔跑而不是跳躍。

通過這個過程,馬里奧(智能體)學習如何在《超級馬里奧》(環境)中導航,以最大化他的得分(獎勵),并最終達成救出公主的目標。

常見的強化學習應用場景如智能駕駛、智能機器人、游戲世界(如 NPC)以及 AIGC 大模型等。那通過這個章節的介紹,你是不是就能理解為什么 AlphaGo 能戰勝世界圍棋冠軍。因為人是會疲憊、犯錯的,而機器程序如一臺永動機,只要不斷電,它就能一直學習下去。

⑤ 深度學習算法

在機器學習中,選擇合適的特征對模型訓練至關重要。但在某些情況下,如圖像和文本處理,直接提取有效特征非常困難。機器需要學習的是數據中的深層關系,而非簡單的表面特征。人類無法處理這種深層特征提取,因此需要依賴深度神經網絡來自動完成這一任務。

深度學習是一種機器學習技術,它使用具有多層結構的深度神經網絡來模擬人腦處理信息的方式,從而學習數據中的復雜模式和關系。作為機器學習的一個分支,深度學習特別擅長處理和分析大規模數據集。深度學習與無監督學習、監督學習及強化學習的關系如圖:

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

最后總結一下,深度學習算法可以結合監督學習、無監督學習和強化學習來提高模型性能,而目前大部分 AIGC 模型的主體基本上都是深度強化學習模型。

3. Transformer 架構

Transformer 架構是一種深度學習模型,由 Google 公司于 2017 年在論文“Attention is All You Need”中提出的網絡架構。該架構最初的設計目的是解決 RNN(Recurrent NeuralNetwork,循環神經網絡)串行輸入、串行編解碼導致的運行速度緩慢的問題,以顯著提升機器翻譯的效率。得益于 Transformer 優秀的并行處理能力,越來越多的模型以 Transformer 為基礎進行構建,包括 GPT 系列模型和 BERT 模型。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

目前市面上大部分的大語言模型都是基于 Transformer 架構開發的,它相當于是大模型的基座,無比重要。如果要對 Transformer 進行詳細說明,可能需要重新寫一篇文章才行,本文大家先對 Transformer 有一個基礎的認知即可。

三、AIGC 大模型介紹

1. 文本生成模型

① 大語言模型介紹

這個小節我們介紹大語言模型,也可能是大家最熟悉的詞匯。簡單介紹一下,大語言模型(Large Language Model)簡稱 LLM,是大模型的一個子集,專門指在自然語言處理領域中使用的、參數數量巨大的模型。其中自然語言指的是人類在日常生活中用來交流的語言。

再介紹下大模型,大模型通常指的是在機器學習和人工智能領域中,擁有大量參數的模型,比如深度學習模型、神經網絡模型等。

所以我們前面介紹的技術原理都是與大語言模型息息相關的,由多種技術的結合、演進、嘗試,就發展成為如今的 AIGC 時代。大語言模型的應用例子有非常多,比如國外的 ChatGPT、Claude、LaMDA 等,國內的文心一言、豆包、Kimi 等。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

但并不是所有的 AIGC 都是屬于大語言模型,像生圖的擴散模型就不屬于這一類,它并不輸出文本,后文會介紹。

② 大語言模型生成原理

給大語言模型輸入文本內容,它能返還相應的輸出完成具體任務。完成的任務可以是文章總結、論文改寫、信息生成、語言翻譯等。

大語言模型首先需要通過大量的文本進行無監督學習,以 GPT 3 為例,它的訓練數據有多個互聯網文本語料庫。覆蓋線上書籍,新聞文章,科學論文,維基百科,社交媒體帖子等等,借助海量的訓練文本數據。從而更好的理解文本的含義,并生成更準確的預測。

但大語言模型的大指的不僅僅是訓練數據巨大,而是參數數量巨大。參數是模型內部的變量。可以理解為是模型在訓練過程中學到的知識參數,決定了模型如何對輸入數據做出反應,從而決定模型的行為。在過去的語言模型研究中發現,用更多的數據和算力來訓練具有更多參數的模型,很多時候能帶來更好的模型表現。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

比如要 AI 學習做一道中式菜,只允許 AI 調整鹽、胡椒和基本調料的量,與允許 AI 調整鹽、胡椒、各種香料(如孜然、肉桂、姜黃)、不同的食材(如肉類、蔬菜、豆類)、烹飪方法(如炒、煮、烤)以及火候和時間,后者由于可以調整的變量更多,更能讓 AI 模仿做出更豐富的菜肴。

當前語言模型的參數數量已經達到了過去模型的數萬甚至數百萬倍。以 OpenAI 的 GPT 系列為例,GPT-1 擁有 1.17 億個參數,GPT-2 的參數數量增至 15 億,而 GPT-3 的參數量更是激增至 1750 億。這種參數規模的增長賦予了大型模型更廣泛的應用能力,它們不再局限于單一或少數任務,而是能夠處理多種復雜的語言處理任務。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

在此之前,為了執行總結、分類、信息提取等不同任務,我們可能需要訓練多個專門的模型。但現在,一個大型模型就能夠勝任這些任務,顯著提高了效率和靈活性。基于這種強大能力的 AI 聊天助手,如 Chad GPT、Cloude、Kimi、文心一言等,都是大語言模型應用的實例,它們能夠提供更加豐富和智能的交互體驗。

而提到大語言模型,就繞不開 Transformer 架構,2017 年由谷歌的研究人員在論文《Attention Is All You Need》中首次提出。這種架構徹底改變了自然語言處理(NLP)領域,特別是在處理序列到序列(seq2seq)任務時,如機器翻譯、文本摘要、問答系統等。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

③ 大語言模型關鍵技術

大語言模型的發展離不開多種技術的支持,這些技術在大模型的開發和應用中扮演著至關重要的角色,它們使得模型能夠更加智能、靈活地處理各種復雜的任務和挑戰。

  1. 遷移學習:通過將一個領域的知識遷移到另一個領域,提高模型在新任務上的性能。
  2. 零樣本學習:使模型能夠識別從未見過的數據類別,增強模型的泛化能力。
  3. 小樣本學習:通過少量樣本進行學習,與提示詞結合使用,提高模型的輸出質量。
  4. 持續學習:在一系列任務上訓練模型,保留舊任務知識的同時學習新任務。
  5. 多任務學習:并行學習多個任務,共享表征信息,提高模型的泛化能力。
  6. 強化學習:通過人類反饋來調整模型行為,使其與人類價值觀對齊。
  7. 上下文學習:模型根據測試集的輸入生成預測結果,而不需要針對特定任務調整參數。
  8. 思維鏈:通過詳細的推理過程提示詞激發模型的多步推理能力。
  9. 提示工程:通過設計合適的提示詞來引導模型生成更好的結果,而不需要修改模型參數。

④ 主流的 AI 生文模型

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

免死金牌:以上信息均為個人整理,旨在輔助讀者更深入地理解相關章節內容。請注意,這些資料不涉及任何商業目的或用途。

2. 圖像生成模型

① GAN(生成對抗網絡)介紹

介紹 Diffusion 模型之前,我們需要先對有所了解,它是早期在生成圖像領域被大量應用的算法之一,并且至今仍然被許多 AIGC 應用所采用。

生成對抗網絡(Generative Adversarial Networks,簡稱 GAN)是一種深度學習模型,由 Ian Goodfellow 等人在 2014 年提出。GAN 通過模擬生成數據與判別數據之間的對抗過程,用于生成新的數據樣本,這些樣本在統計上與真實數據不可區分。GAN 的核心思想是利用兩個神經網絡,生成器(Generator)和判別器(Discriminator)之間的競爭來提高生成數據的質量。

生成器的作用是接收隨機噪聲作為輸入,并生成盡可能接近真實數據的樣本。在圖像生成的例子中,生成器會嘗試創建看起來像真實圖片的圖像。生成器的目標是欺騙判別器,使其認為生成的樣本是真實的。

判別器的任務是區分生成器生成的樣本和真實樣本。它接收生成的樣本和真實樣本作為輸入,并輸出一個概率值,表示輸入樣本是真實的概率。判別器的目標是盡可能準確地識別出哪些樣本是生成的,哪些是真實的。

GAN 的訓練過程可以看作是生成器和判別器之間的一場對抗游戲:

固定生成器,更新判別器:在這個階段,生成器的參數保持不變,判別器通過比較真實樣本和生成樣本來學習如何更好地區分它們。判別器的目標是最大化其正確分類真實樣本和生成樣本的能力。

固定判別器,更新生成器:在這個階段,判別器的參數保持不變,生成器通過嘗試生成更高質量的樣本來欺騙判別器。生成器的目標是最小化判別器將其生成的樣本分類為假的概率。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

這兩個步驟交替進行,直到生成器生成的樣本足夠好,以至于判別器無法區分真假樣本。

GAN 在多個領域都有廣泛的應用,尤其是在圖像生成領域。它可以用來生成高質量的圖像,如人臉、風景、藝術作品等。此外,GAN 也被用于圖像到圖像的轉換、風格遷移、數據增強、圖像超分辨率等領域。盡管 GAN 在文本生成方面也有所嘗試,但由于其對離散數據的處理能力相對較弱,因此在文本領域的應用不如圖像領域廣泛。

① Diffusion 模型介紹

Diffusion 模型又叫“擴散模型”,是一種應用于細粒度圖像生成的模型,它通過模擬物理擴散過程來生成數據,特別是在圖像生成領域表現出色。比如大家所熟知的 StableDiffusion、Midjourney、DALL·E 2 等 AI 繪畫工具,就是在 Diffusion 模型和 Clip 模型(后文介紹)技術上開發的。

前文出現的《太空歌劇院》圖像,底層技術模型就涉及 Diffusion 模型。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

Diffusion 模型的核心思想是模擬一個從有序到無序再到有序的過程。具體來說,這個過程包括兩個主要階段:

正向擴散:從一個清晰的數據點(例如一張圖像)開始,逐漸添加噪聲,直到數據完全變成噪聲。這個過程可以看作是一個逐步破壞數據結構的過程,每一步都讓數據更加無序。

逆向擴散:從噪聲數據開始,逐步去除噪聲,恢復出原始的清晰數據。這個過程需要模型學習如何從噪聲中恢復出有意義的結構。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

一句話總結,Diffusion 模型的核心思想是學習從噪聲中逐步恢復出清晰圖像的過程,從而實現高質量的圖像生成。

② CLIP 模型介紹

CLIP 模型是由 OpenAI 在 2021 年發布的一種多模態預訓練神經網絡,它通過對比學習的方式,將圖像和文本映射到同一個向量空間中,從而使得模型能夠理解圖像和文本之間的語義關系。

CLIP 模型結構包含兩個主要部分:

  1. 文本編碼器(Text Encoder):用于將文本轉換為低維向量表示,通常采用 Transformer 架構。
  2. 圖像編碼器(Image Encoder):用于將圖像轉換為類似的向量表示,可以是卷積神經網絡(深度學習算法)或視覺變換器。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

③ Diffusion 模型生成原理

CLIP 模型與 Diffusion 模型是相互結合使用的,主要體現在 AI 繪畫和圖像生成領域。CLIP 模型通過對比學習的方式,將圖像和文本映射到同一向量空間中,使得模型能夠理解圖像和文本之間的語義關系。而 Diffusion 模型則通過模擬物理擴散過程來生成數據,特別適用于圖像生成任務。

在結合使用時,CLIP 模型的文本編碼器部分通常被用來將用戶的文本輸入轉換為一系列的特征向量,這些特征向量捕捉了文本的語義信息,并可以與圖像信息相結合,以指導圖像的生成過程。

Diffusion 模型則利用這些文本特征向量作為條件,生成與文本描述相匹配的圖像。這種結合可以實現文本引導的圖像生成,即根據文本提示生成相應的圖像內容。

例如,在 Stable Diffusion 模型中,CLIP 模型的文本編碼器被用來將用戶的文本輸入轉換為特征向量,這些向量與隨機噪聲圖像一起被送入模型的后續部分,如圖像信息創建器和圖像解碼器,以生成與文本描述相匹配的圖像。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

此外,CLIP 模型還可以用于圖像引導的文本生成,以及視頻內容生成等更復雜的任務。隨著多模態模型的發展,CLIP 可能與視頻生成模型結合,產生復雜的圖像或視頻內容,這在未來的電影、游戲、廣告等領域具有廣泛的應用潛力。

總的來說,CLIP 模型與 Diffusion 模型的結合,為 AI 繪畫和圖像生成領域帶來了新的可能性,使得模型能夠更好地理解和生成與文本描述相匹配的圖像內容。

④ 主流的 AI 生圖模型

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

免死金牌:以上信息均為個人整理,旨在輔助讀者更深入地理解相關章節內容。請注意,這些資料不涉及任何商業目的或用途。

3. 視頻生成模型

① 視頻生成模型介紹

AI 視頻模型的熱潮在 2024 年 2 月被點燃,當時 OpenAI 推出了 Sora,這是一個創新的文生視頻模型,能夠生成長達一分鐘、高清晰度且連貫性高的視頻內容,這在視頻生成領域是一個重大的技術突破。

緊隨其后,國內 AI 視頻工具迅速發展。截至 2024 年 10 月,快手推出的 AI 視頻生成器——可靈AI,已經能夠生成長達2分鐘、30fps幀率的高清視頻,分辨率高達1080p。

在模型技術層面,視頻生成類模型的底層技術框架與圖像生成較為相似,主要包括 GAN(生成對抗網絡)、Transformer、Diffusion 模型三種路徑,其中 Diffusion 模型為當前主流生成模型。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

這三類技術前文都有提到,本節不再重復贅述。

② 主流的 AI 生視頻模型

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

免死金牌:以上信息均為個人整理,旨在輔助讀者更深入地理解相關章節內容。請注意,這些資料不涉及任何商業目的或用途。

3. 多模態模型

① 多模態模型介紹

簡要說明,多模態模型是一種能夠處理和理解來自多種不同信息源的數據,如文本、圖像、視頻、音頻和傳感器數據等。

例如,一個多模態的情感分析系統可能會同時分析文本內容、音頻語調和面部表情來確定一個人的真實情感狀態。多模態學習的關鍵優勢在于能夠通過不同模態的數據互相補充和增強,從而提高學習算法的性能和準確性。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

② 主流的多模態模型

目前大部分主流的大語言模型都在往多模態發展,故以下模型大部分與生文模型重合。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

免死金牌:以上信息均為個人整理,旨在輔助讀者更深入地理解相關章節內容。請注意,這些資料不涉及任何商業目的或用途。

四、大模型時代的 AI Agent

1. Agent 的發展歷程

Agent(代理)也被叫做智能體,能夠感知其環境并采取行動以實現某種目標的實體。智能體可以是軟件程序、機器人、或其他形式的系統。

如大語言模型(LLM)一樣,智能體也有它的發展歷程,我們可以分為以下 4 個階段:

  1. 符號智能體:采用邏輯規則和符號表示來封裝知識并促進推理過程。
  2. 反應型智能體:不使用復雜的符號推理,主要關注智能體與其環境之間的交互,強調快速和實時的響應。
  3. 基于深度強化學習的智能體:通過與環境的交互進行學習,以獲得最大的累積獎勵。
  4. 基于大模型的智能體:利用規模龐大、數據豐富的語言模型或多模態模型,展現出了前所未有理解和生成能力。

如前文舉例的《超級馬里奧》游戲例子,其中馬里奧就是一個智能體。但游戲里的智能體與大家所熟知 coze 搭建的智能體不同,它屬于基于深度強化學習的智能體。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

基于大模型的智能體目前的最新一代智能體,也是本章節主要介紹的核心內容——Agent,后文將基于大模型的智能體簡稱為LLM Agent。

② LLM Agent 技術原理

LLM Agent 是大型語言模型作為核心組件,通過整合規劃、記憶、工具使用和行動執行等能力,以實現復雜任務的自主完成。這些智能體能夠模擬人類的思考和決策過程,靈活調用各種工具和資源,以達成預設的目標和任務。它們在技術架構上從面向過程轉變為面向目標,通過感知、思考與行動的緊密結合,完成復雜的任務。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

LLM Agent 的核心優勢在于其強大的自然語言理解和生成能力,以及通過持續學習和自我改進,適應不斷變化的社會需求和環境的能力。

③ 旅游助手 Agent 例子說明

以“旅游助手”為例,按照拆分、規劃、記憶、工具使用、行動執行、思考與決策、持續學習與自我改進這七個步驟,來說明一個基于 LLM 的旅游助手智能體如何工作:

拆分:用戶向“旅游助手”提出需求:“我計劃下個月去巴黎旅游一周,預算大約是 5000 元,我對藝術和歷史特別感興趣。” “旅游助手”通過自然語言理解能力解析用戶的請求,拆分出多個子任務/關鍵信息,如目的地(巴黎)、旅行時間(一周)、預算(5000 元)和興趣偏好(藝術和歷史)。

規劃:根據用戶的需求,“旅游好助手”開始規劃行程。它首先確定旅行的日期,并根據預算和興趣,篩選出符合要求的景點、餐廳和住宿選項。

記憶:“旅游助手”回顧用戶以往的旅行記錄和偏好,比如用戶之前提到過喜歡安靜的住宿環境,或者對某些食物過敏,這些信息將被納入行程規劃中。

工具使用:為了獲取最新的景點信息和用戶評價,“旅游助手”可能會調用在線旅游平臺的 API,或者使用搜索引擎來獲取相關信息。它還可能使用匯率轉換工具來幫助用戶了解預算在當地的購買力。

行動執行:“旅游助手”根據規劃和獲取的信息,為用戶預訂機票、酒店和景點門票,并生成詳細的行程單,包括每天的行程安排、交通方式和餐飲推薦。

思考與決策:在整個規劃過程中,“旅游助手”會不斷思考和調整策略。例如,如果發現某個景點臨時關閉,它會迅速尋找替代方案,并根據用戶的興趣偏好做出最佳決策。

持續學習與自我改進:在用戶完成旅行后,“旅游助手”會請求用戶對行程的滿意度進行反饋。據用戶的反饋,智能體會學習哪些方面做得好,哪些方面需要改進,以便在未來為用戶提供更好的服務。此外,智能體還會分析其他用戶的旅行數據,以發現新的旅游趨勢和用戶偏好,從而不斷優化其旅行規劃算法。

簡而言之,Agent 通過將復雜的旅游規劃任務分解為多個子任務,利用大語言模型和預設的規則(例如提示詞),來逐步生成和優化規劃方案。通過這一過程,智能體能夠精準地輸出我們期望的旅游規劃結果,從而簡化我們的準備工作并提升旅行體驗。

④ 智能體搭建平臺

對于初創團隊和普通用戶來說,訓練大型語言模型可能是一個挑戰,但現在搭建定制化的智能體變得相對容易。國內有多個平臺提供智能體搭建服務,本章節主要推薦兩個目前主流的智能體搭建平臺,Coze 和文心智能體。

Coze(扣子)

Coze(扣子)是由字節跳動推出的 AI 大模型智能體開發平臺,它提供了一個集成了插件、知識庫、數據庫、記憶、工作流等多功能為一體的 Agent 開發環境。

工具鏈接: https://www.coze.cn/home

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

文心智能體

文心智能體平臺是由百度開發的一款集成了多種 AI 技術的開放平臺,旨在為開發者提供強大的智能化服務和解決方案。該平臺支持開發者根據自身行業領域和應用場景,選擇不同類型的開發方式,打造大模型時代的產品能力。

工具鏈接: https://agents.baidu.com/center

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

五、AIGC 的應用趨勢

丹妮拉·魯斯(Daniela Rus)說過:“深入每個行業,你會發現人工智能正在改變工作的性質。”隨著人工智能生成內容(AIGC)技術的進步和普及,它已在多個行業領域展現出其活躍的身影,包括媒體、影視、電商和教育等行業。在本章節中,我將詳細介紹在我所熟悉的領域,AIGC 應用的趨勢,以幫助大家更好地理解這些行業中的應用現狀,并預見它們未來的發展趨勢。

1. AI+媒體行業

在媒體行業,AIGC 技術正成為信息獲取、整理和文案改寫的重要工具。正如我寫這篇文章時,就借助 Kimi、秘塔 AI 等工具進行知識信息的查找以及總結。在 AI 技術出現之前,我撰寫文章需要人工搜索關鍵詞,收集資料,效率低不談,知識內容的準確度也很難去判斷。并且設計師出身的我,在寫這類文章時,就是活脫脫的“草臺班子。”

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

通過使用 AIGC 工具,我能迅速找到一手信息源,并利用 AI 將大量信息轉化為簡短的介紹,從而在短時間內快速學習和整理這些信息,然后結合自己的語言理解進行撰寫,大幅提高了寫作效率。

并且這種方式也可應用于新聞資訊領域。在傳統新聞生產模式中,記者需要在現場通過觀察、詢問、記錄來獲取準確信息,而 AI 能在這個環節上進行高效賦能。例如,在采訪過程中,記者可以使用科大訊飛的 AI 轉寫工具實時生成文字稿、自動撰寫摘要、調整文風、精簡文本等,從而提高工作效率,確保新聞產出的時效性。

但 AI 在該領域尚未實現完全的“去人工化”。在撰寫文稿時,AI 的表現可能較為刻板和單調,缺乏人類在語境敘述方面的靈活性和豐富性。可能智能體是一個解決方案,但目前智能體也存在一定的局限性,這個后面有機會我們再聊。目前還是 AI+人的協作方式,但可以預見的是,隨著 AIGC 技術的繼續發展,傳媒或將向智媒全面升級。

2. AI+電商行業

我認為 AIGC 在電商行業的賦能是最明顯的。AIGC 可以為商家提供大量的創意營銷素材,在電商廣告領域對這些創意營銷素材有著海量的需求。比如使用 Midjourney 生成高質量素材、StableDiffusion 設計合成營銷圖等。

市面上有許多 AI 工具,能夠實現一鍵模特換裝和產品圖設計。商家只需要上傳產品圖和模特圖,就能迅速獲得一張模特穿著產品的展示圖。在電商服飾領域,頭部企業通常需要在 2-3 周內上線一款新品,而面對成百上千的需求時,傳統的制作方式會耗費大量時間和成本。而 AI 技術的加持,極大地提高了工作效率,降低了成本。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

隨著直播電商的競爭愈演愈烈,AI 數字人的需求量迎來了爆發式增長。不知道大家有沒有發現,在美團等平臺上,許多店鋪的直播中出現的“主播”并非真人,而是由數字人代替,他們能夠實現 24 小時不間斷的直播。當然你要是與他進行互動,可能會讓你失望。目前還只能作為暫時播講的替代,而在情緒表達和互動方面無法有效地觸動用戶,因此這些由數字人主導的直播轉化率通常不會很高。但還是那句話,AI 還在進步,未來尚未可知。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

3. AI+影視行業

自 2024 年 3 月 22 日央視頻推出國內首部 AI 全流程制作的微短劇《中國神話》以來,AI 在視頻制作領域的應用迎來了迅猛發展,AI 視頻創作工具如雨后春筍般涌現。

AI 技術正深刻地改變影視行業的各個環節,從劇本創作到后期制作,再到特效增強,AI 的深度融合為影視制作帶來了革命性的變化。利用 AI 文本生成工具,可以輔助創作劇本,以及如剪映等工具自動化剪輯的方式,極大提升了影視工作者制作效率,還進一步激發了他們的創意。雖然此時的 AI 視頻效果并不盡如人意,但趨勢以來。

爆肝2W字!用奶奶都能看懂的文字帶你了解AIGC的前世今生

4. AI+教育行業

“教育興則國家興,教育強則國家強”。伴隨著技術的爆炸式發展,教育這一古老的行業也迎來了顛覆性的未來。2017 年,我國首個國家級人工智能規劃《新一代人工智能發展規劃》出臺,文中明確提出,要利用智能技術加快推動人才培養模式、教學方法改革,構建包含智能學習、交互式學習的新型教育體系。

AI 在教育領域的應用正在逐步改變傳統的學習方式和教學模式。通過圖像和語音識別、自然語言處理等技術,AI 不僅能夠生成和整理學習資料,使得學習資源更加豐富和易于獲取,還能通過收集學習者的數據,提供個性化的學習畫像和計劃,幫助學生了解自己的學習狀態。

對于老師來說,AI 的應用能夠減輕他們的負擔,通過自動化批改作業和考卷等重復性工作。盡管在實際的應用場景存在問題,但大勢所趨,AI 發展加政策雙管齊下,我們有理由相信,借助人工智能,人類將打造更好的“以人為中心的”的教育,實現所有人終身、全面的發展。

六、結語

在歷經 14 天高強度的學習以及撰寫后,終于是將本篇文章畫上了句點。在寫之前,我對 AI 技術也是半懂狀態,為了保證信息的準確性,也是瘋狂折磨 AI 幫我查閱各種資料,而我也每每熬到深夜(甚至是通宵)才關掉電腦。在過程中,也在對朋友們吐槽,我好像在“考研”,因為 AI 技術的底層原理是確實難啃,而要對這些信息進行整理更是讓我“癲狂”,因為我總不能直接將 AI 寫的文本信息直接復制粘貼吧......而且 AI 寫的信息,確實會存在邏輯錯誤的情況。

但我在開始之前,就已經做好準備了,我一直崇尚費曼學習法,通過學+寫的方式進一步消化知識。這樣我在后續的分享中,也能更加深度的去分享知識經驗了。希望大家閱讀本文能夠對 AIGC 技術有一個基本的認知,同時我也知道本文一時間難以消化,所以建議大家先收藏起來日后,遇到相關知識點可以來查閱。

福利來啦!如果你想學習更多 AI 設計相關知識,可以加入我主理的《優設 AI 俱樂部》,成為優設會員將尊享 12 大權益。星球內沉淀有 2000+優質 AI 學習資料,AI 提示詞、AI 工具庫、AI 商業設計案例、AI研究報告......

現在加入,除了尊享 1 年期限的優設會員服務以外,還額外贈送超 5GB 的免費商用字體包,再次強調,此字體包均通過人工審核檢查,確保無版權可免費商用才會給到大家。所以,我們送出的字體包,請放心使用。下單后加言川微信「ychuanzs」領取~

參考文獻:

  1. 杜雨、張孜銘著《AIGC:智能創作時代》
  2. 張成文著《大模型導論》
  3. 中國 AIGC 市場研究報告-甲子光年
  4. AIGC 應用與實踐展望報告-甲子光年
  5. 中國 AI Agent 行業研究報告-甲子光年
  6. AIGC 產業應用研究報告,一文讀懂 AIGC 的前世今生-億歐網
收藏 76
點贊 72

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。