背景介紹
隨著虎牙平臺的直播內容日益豐富,越來越多的用戶會對直播中的精彩鏡頭更加關注,那么如何讓用戶快速甚至實時地回顧到直播中的精彩鏡頭成了值得關注的問題。直接的人工剪輯需要耗費大量人力,我們希望通過設計算法來自動剪輯,將好看的精彩鏡頭實時呈現給觀眾,同時精彩鏡頭作為直播過程中沉淀下來的優質內容,也能夠在后續不同的產品形態上發揮作用。
什么是AI實時剪輯
所謂AI實時剪輯,主要是通過AI識別技術實時分析直播視頻流內容,自動捕捉直播過程中的精彩高能看點,通過一定的剪輯規則,實時剪輯出精彩視頻片段入庫,通過建立直播到視頻的自動化生產能力,達到實時沉淀直播平臺高價值內容的目的。直播過程雖然可以產生大量的錄像內容,但由于直播時間長,導致直播錄像中冗余內容較多,精彩看點分布比較稀疏,不足以吸引眼球,相較于短視頻存在較大劣勢,無法直接產生沉淀或分發價值。AI實時剪輯相當于把直播過程中的精彩內容實時沉淀為看點稠密的短視頻內容,提升存量內容的價值。
圖1 直播內容實時沉淀
有哪些應用場景
剪輯片段作為平臺沉淀下來的優質內容,可以直接分發推薦或者二次加工,以不同的產品形態,助力內容生產。
1)直播間推薦。實時看點內容,可滿足用戶實時回顧精彩看點的需求,提升用戶的觀看體驗。如圖2所示,在王者榮耀主播直播間,實時推薦主播在直播過程中展示的精彩操作或游戲內容片段,用戶可以選擇性地在直播間切換直播和精彩點播內容,加強了用戶在直播間的內容互動。這些精彩看點的實時呈現,從平臺內容生態來說,在某種程度上是對直播內容的補充,同時精彩看點產量也是對主播輸出的一種隱式激勵,激勵主播持續產出高質量的直播內容,形成良性循環。
圖2 直播間實時推薦
2)二次加工內容生產。一方面,AI剪輯內容作為短視頻生產的優質素材渠道,可通過二次加工做站內投放,助力視頻內容生產。比如“王者TOP10”,視頻后臺自動將王者榮耀熱門直播間中發生的Top高能片段(加轉場動畫)整合成視頻集錦。另一方面,直播到視頻的自動化生產能力,可極大提升運營類素材內容的獲取效率和實時性。素材生產的流水線作業不僅提供了更加豐富的素材來源,也極大地減少了人力物力的投入,達到為平臺降本增效的目的。
AI剪輯技術實踐
主要的實踐難點和挑戰來自兩個方面,1)如何搭建直播到視頻的自動化生產流程,2)如何實現精彩識別和剪輯算法。
直播到視頻自動化生產流程
首先需要建立一套完備的直播到視頻的實時生產通道,保證多品類剪輯在工程上的可擴展性。如圖3所示,涉及到三個環節。1)音視頻環節拉取CDN錄制流并完成解碼;2)AI算法,對視頻流進行精彩識別分析和剪輯信息結構化生成;3)視頻后臺入庫,基于剪輯結構化信息,調用CDN裁剪接口,生成精彩視頻片段并存入至視頻庫。視頻后臺和音視頻均拉取CDN錄制流,保證了時間戳與視頻內容的統一對齊。AI算法將剪輯與識別分離,識別能力統一分發調度,做無狀態任務處理,保證識別結果簡單通用。剪輯邏輯統一后置,按品類生成精彩片段和標簽,統一協議輸出至視頻后臺。生產流程可快速支持新品類上線,在協議完備的前提下,音視頻和視頻后臺的上下游接口無需做任何變動。
圖3 直播到視頻自動化生產流程
多品類精彩識別與剪輯算法
由于直播內容的差異性,精彩識別算法是分品類進行的,我們將重點介紹王者榮耀、斯諾克賽事和足球賽事。
游戲品類:王者榮耀
預定義精彩片段類型20多種,主要為王者游戲中的高能事件(比如三連決勝/高能團戰/殘血反殺等)。對于游戲直播而言,精彩片段是相對于玩家視角來講的,只有玩家視角的內容才能體現在直播視頻流中,因此,核心的挑戰點是要獲得玩家視角下的精彩片段。
識別階段,識別框架融合了包括特征匹配、圖像分類、目標檢測、OCR在內的多種視覺技術(圖4),識別出包括玩家英雄、擊殺雙方英雄、英雄陣營、英雄位置、播報文本等在內的多種對局基礎信息。核心點在于:1)預處理模塊,布局分析獲取游戲區域,確保游戲畫面的一致性,排除直播模板情況下非游戲區域的噪聲干擾。2)技能區域分支,通過技能圖標特征確定玩家英雄,過濾所有非玩家視角的事件。3)播報區域分支,通過攻防雙方的英雄頭像特征獲得英雄類型和所屬陣營,播報文本由OCR識別。4)血條檢測分支,通過血條的位置和顏色可以確定英雄位置和陣營,左右顏色統計確定大致血量(滿血還是殘血),為場上局勢提供更豐富的語義。
圖4 王者基礎識別項生產
剪輯階段如圖5所示,通過識別項的邏輯組合推導出精彩事件,同時獲取事件相關聯的英雄、局勢、事件起止時間點等信息,比如“高能團戰”事件,業務定義是“畫面至少出現3V3,且5s內主播擊殺”,算法則需要綜合以下信息進行邏輯推導:a)畫面中敵我英雄人數信息;b)擊殺事件信息;c)擊殺方是否為主播玩家英雄。新生產的事件會送至各自隊列緩存,緩存區上可利用時序上的上下文信息確定片段起止時間點,以及進行英雄等附屬標簽的糾錯,提升精彩事件內容的精度。
圖5 識別項生成精彩片段
體育品類:斯諾克賽事
對于斯諾克賽事,我們預定義了6 種精彩事件類別,主要為斯諾克賽事中發生的不同擊球和進球方式,具體包括白球進袋、扎桿、翻袋、解球、長臺進球以及其他進球,這些均為斯諾克賽事專用術語,這里不再一一解釋。核心目標是對這些特定類型的擊球或進球片段在直播視頻流中進行定位和標簽識別,首先想到的是嘗試通過視頻分類模型來進行建模,做逐個視頻片段的7分類任務(6種事件+其他類別)。但從結果上來看,在保證一定精度的前提下,直接視頻分類的結果對各類精彩事件的召回非常低,原因在于斯諾克球在直播畫面上的占比非常小,直接使用視頻分類模型很難捕捉到不同擊球或進球方式的視覺特征差異。
圖6 斯諾克賽事及轉場動畫示例
為了提升對精彩事件的召回,我們觀察了各類斯諾克賽事視頻,發現精彩事件通常會伴隨著如圖6所示的轉場動畫,也就是導播會對斯諾克賽事中的關鍵事件做一個視頻回放,統計發現這種回放片段可以定位出絕大部分精彩事件。轉場動畫過后的視頻回放過程中導播會拉近鏡頭與球臺的距離,讓整個回放畫面更加聚焦在選手的擊球方式和球的運行軌跡上。基于這種先驗信息,我們設計了如圖7所示的兩階段的算法來提升對精彩事件的召回。第一階段,通過特征模型建立動畫庫,通過匹配視頻片段特征來粗定位精彩事件的位置,通常由于單一賽事的動畫一致性較好,動畫匹配的精度較高,這一階段相當于通過高精度的匹配方案過濾了絕大部分的非精彩事件片段;第二階段基于動畫定位結果獲取回放視頻片段的起止時間點,利用回放視頻片段數據訓練視頻分類模型,為回放片段打上不同類別的細分標簽。第一階段的匹配過程過濾了大部分噪聲,相當于簡化了第二階段對細分類別的識別難度。
圖7 兩階段精彩識別算法
通過上述兩階段識別算法可以獲得回放片段的事件類別,但是如果要輸出一個完整的視頻內容片段,需要找到真實內容的起止時間點。我們設計了一套如圖8所示的流程,通過引入鏡頭切分模塊來保證視頻內容的完整性,圖示中藍圈和紅圈分別代表回放內容的起始點和結束點,藍色三角形為鏡頭切分點。剪輯模塊實時獲取動畫打點模塊、細分標簽模塊和鏡頭切分模塊的結果,來確定目標片段的起止點。具體來說,將回放內容的結束點作為目標片段的結束點,結合預定義的各類型片段的期望時長,按期望時長往前回溯粗定位一個起始點,比如回溯20s,然后再從20s的位置再往前找到最近的一個鏡頭切分點,將這個鏡頭切分點作為事件內容的起始點,在一定程度上保證了精彩片段內容在鏡頭維度的完整性。
圖8 斯諾克精彩識別與剪輯
體育品類:足球賽事
對于足球賽事,我們預定義了如圖9所示的17種精彩事件類型。主要識別難點包括:1)細粒度的問題:黃牌紅牌,關鍵信息視覺區域小,顏色也容易跟球場上其他物體撞色;依靠檢測費時費力費標注,也很難收集到非常多的樣本;2)視覺區分度的問題:部分事件有較為復雜的判斷邏輯,甚至球迷僅憑畫面信息也很難分辨,需要借助更多模態的能力來識別;3)視角差異:實際賽事直播中會放置多個相機,導播會根據賽事情況進行切換,因此直播畫面包括了不同視角的畫面,算法需要能做到對不同視角均有較好的識別能力。
圖9 足球賽事精彩事件17種類型
為了降低打點算法的識別難度,整個算法過程分成兩個階段:特征模型和打點模型(圖10)。第一個階段的目標是提取更好的多模態特征,第二個階段是依賴于提取到的特征,進行打點模型的學習。特征模型階段,使用足球賽事數據對特征模型分別進行精調,使提取出的特征更加適應到足球的場景。特征模型的選取上,充分利用差異化的預訓練和架構的原則,提取盡可能豐富的多模態特征。打點模型階段,采用三層Transformer編碼器對輸入的多模態特征進行時序建模,做18類的分類預測(17種事件+一種背景)。
圖10 兩階段事件打點框架
除了基本的事件打點模型之外,兩方面的輔助技術可進一步提升事件的準召。1)模板匹配。對于一些特殊的事件,直播畫面中會在固定位置出現固定模式的展示信息。例如,黃/紅牌會出現“Yellow Card”/ “Dismissal”,換人會出現特定的logo。對于前者,采用OCR技術識別特定字符,并通過模糊匹配減緩錯符漏符的負面影響。對于后者,采用模板匹配技術,模板與特定位置的圖像塊進行互相關系數計算來確定是否匹配成功。2)語音識別(ASR)。利用足球賽事直播過程中伴隨的主播解說語音,通過ASR技術,將語音信號轉化為文本,通過設置事件關鍵詞列表來進行匹配,得到基于ASR技術的事件打點結果。例如,對于“解圍”事件,采用關鍵詞“解圍”、“成功破壞”、“防守成功”等關鍵詞來進行匹配。圖11展示了上述打點模型和輔助技術的融合,針對不同事件,使用不同的融合方案。拿到精彩事件的打點結果之后,為保證剪輯片段的完整性,同樣采用類似斯諾克賽事的剪輯方案,結合鏡頭切分和各類型片段的期望時長來確定最終剪輯片段起止時間點,這里不再贅述。
圖11 輔助技術融合
總結展望
基于虎牙在實時內容創作技術領域的持續創新,AI剪輯實現了直播內容的二次創作,已累計沉淀了數百萬的原始視頻素材。未來考慮從兩個方面去拓寬AI剪輯的業務影響,一方面,我們可以將成熟的AI剪輯能力開放給主播,將原本PGC工具以某種低成本的方式延伸至UGC,提升平臺主播的創作效率和積極性,加強平臺內容的豐富度。另一方面,我們希望補齊短視頻自動化加工能力,包括自動生成標題和自動配樂等,通過自動化剪輯和加工能力整合形成AIGC短視頻內容生產閉環,在未來的內容生產上發揮更大的價值。
發評論!每天贏獎品
點擊 登錄 后,在評論區留言,系統會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯系我們
AI輔助海報設計101例
已累計誕生 737 位幸運星