從不同行業場景出發,解鎖音視頻技術議題

自COVID-19爆發以來,雖然打破了人們工作、生活的節奏,但也在一定程度上催化了音視頻技術的加速發展。這種加速發展不止是技術的縱向迭代,也是向不同場景發起了一次橫向觸達。當許多在物理層面受到限制的活動,如:社交、購物、娛樂、工作等,我們都可以通過線上的方式來進行,甚至越來越依賴這種方式。當然在這背后少不了技術者們的支持。對此,我們做了一個回顧,無論是國內還是國外,看看技術人們在音視頻技術這個垂直賽道上更看好哪些具體技術的發展吧。另外,在這些內容的基礎上,我們延伸到了本次 8月5日開始的LiveVideoStackCon 2022 音視頻技術大會 上海站,一起看看有哪些大佬和內容會出現吧。

下文匯集了海內外的技術人們從音視頻技術的不同方向出發,來聊一聊他們看好哪些技術的前景。

流媒體技術

“我們之前說過,未來也將重申:視頻正在顛覆商業。醫療領域正在依賴于連接視頻的醫療設備、遠程手術能力和配備了AI監控的智能醫院。無論是在家還是在醫院,對醫療護理而言,流媒體技術都已變得至關重要。

在消費領域,隨著實體店的關門,數字購物平臺正在蓬勃發展。那些繼續吸引顧客的實體店使用虛擬試衣間等店內娛樂消費技術來吸引顧客。

然后是像谷歌這樣的科技巨頭,它們已經將視頻融入商業戰略的方方面面:從服務(Youtube和Google Meet)到流媒體產品(Chromebook、Pixel和Nest等)。即使是Facebook(現已更名為Meta)也已將全部戰略轉移到了AR和VR這樣的視頻技術上。

同時,流媒體技術為用戶提供廣泛的可訪問性,將更多權力賦予給創作者。區塊鏈、加密、Web3等正在驅動去中心化。接著,避開大公司的新型盈利模式將會發展起來。”

——摘自《2022 海外流媒體十大技術趨勢》

從不同行業場景出發,解鎖音視頻技術議題

“技術+行業場景”這個方面也是我們一直所關注的。因此,我們在LiveVideoStackCon 2022 上海站特別推出了「音視頻+」專題, 從不同行業場景出發,看看音視頻技術的滲透力有多強。

從不同行業場景出發,解鎖音視頻技術議題

了解更多該專題詳情請掃碼

AI與視頻編解碼

LiveVideoStack: 您認為基于AI的編解碼器將很快超越傳統編碼器嗎?還是兩種編碼器將共存很長時間?

Leonardo Chiariglione:傳統的數據處理技術仍然會大顯身手,但在很多領域,它已經走到了發展的盡頭。而人工智能,才剛剛開始。

幾天前,我發表了一篇文章(參見https://blog.chiariglione.org/the-governance-of-the-mpai-ecosystem/)。文中,我寫道:“如果一臺AI機器通過仔細訓練后,可以發現某些特定的編碼模式比其他模式更通用,那么它將很可能會比人類按照概率論機制所推導的編碼模式取得更好的壓縮率。” AI可以像人類那樣根據經驗解釋新事物,因此機器積累經驗的能力必然會隨著處理和存儲能力的增加而增加。然而,不要指望AI視頻編碼將在短期內超越傳統視頻編碼。技術雖然發展很快,但是對過去技術的投資如此巨大,新技術的部署必然需要長久的時間。

激動人心的未來就在眼前。”

——摘自《對話MPEG創始人Leonardo Chiariglione: MPEG精神將在MPAI中延續》

LiveVideoStack: 對于音視頻技術的未來發展,還可能會有哪些令人期待的創新?在AI與視頻編碼技術結合上,未來有可能會出現哪些突破?

張昊:我非常期待基于AI的圖像視頻編碼技術的創新。目前基于傳統視頻編碼框架提升壓縮率已經越來越困難,我們期待一個新的框架。目前AI視頻編碼還達不到最新傳統編碼標準(比如VVC)的水平,但是這個方向最近不斷有新的研究成果發布出來,相信性能提升會加快。要是未來AI編碼成為業界廣泛采用的方案,那編碼器的優化可能會需要與以往不同的技術。當然,在完全的AI編碼成為現實之前,可能會有一個中間狀態,比如結合傳統架構和AI模塊的編碼技術和標準。這要求編碼工程師既要懂傳統編碼,也要了解AI的相關知識。

目前端對端的AI+視頻編碼,雖然成果不斷涌現,但是短期內可能還很難大幅度超過VVC的性能。但基于傳統編碼框架,加入一些編碼效率更高的AI模塊(比如濾波、預測),是有可能在短期內提升壓縮率的。因此我看好基于傳統編碼框架+AI這條思路的技術進展。”

——摘自《中南大學張昊:我非常期待基于AI的圖像視頻編碼技術的創新》

從不同行業場景出發,解鎖音視頻技術議題

無論是AI視頻編碼,還是AI+傳統視頻編碼框架,其本質上還是希望在高效編碼的同時獲得高清的圖像視頻。在本次上海站大會的「視頻編解碼性能優化與實現」專題,將會從不同的編碼方式入手,如:面向機器智能的數據編碼、基于視頻的高維視覺數據高效編碼等,來解決不同視頻應用場景所出現的問題。

從不同行業場景出發,解鎖音視頻技術議題

了解更多該專題詳情請掃碼或長按二維碼

音頻

LiveVideoStack: 對于未來想從事音頻工作的同學,您有哪些建議和意見?

王晶:相比計算機視覺、通信網絡、人工智能等概念較大的發展方向,目前專門從事音頻信號處理或者音頻相關技術的研究人員并不太多,但實際的工作崗位需求還是挺大的,尤其是高水平研究人員相對欠缺。事實上,從事音頻工作的人員由于對信號處理和計算機編程能力都需要兼顧,也很容易過渡到其他技術崗位。音頻領域(廣義上包括語音和音頻處理)當前和計算機技術、通信網絡、人工智能、虛擬現實甚至生物醫學等結合都非常緊密,相比傳統單純從信號處理或計算機編程的角度來看,很多實際應用問題的解決更傾向于需要交叉學科基礎。

對于未來想從事音頻工作的同學們,尤其是想在理論結合實踐上有技術突破,建議首先學習數字信號處理、信息論、計算機編程、通信網絡、人工智能等基礎知識,然后深入掌握音頻信號處理的各類常用算法和典型應用場景,研究課題或者工作內容的選擇可以針對實際應用場景的需求開展具體研究。目前網絡上開源代碼和學習材料非常多,尤其是基于AI的聲音處理技術,建議同學們在系統學習基礎知識的同時多加編程實踐練習,以便更好地理解算法思路,至少應當獨立完成一到兩個案例的實現。進入研究生學習階段的同學則需多關注領域內的頂級會議和刊物,參加一些學術或者行業會議與同行進行交流,善于發現研究中的問題,并利用所學知識進行分析和解決。”

——摘自《對話王晶:音頻人才亟待培養,高水平研究人員尤其欠缺》

從不同行業場景出發,解鎖音視頻技術議題

在擁有理論基礎的前提下,實踐就顯得尤為重要。尤其是在面臨不同場景時,同一種音頻技術又將會起到不同的作用。在本次上海站大會「聲臨其境—音頻沉浸體驗」專題,將涵蓋三種場景:影視、遠程會議和3D在線互動場景。而在不同場景下又會用到哪些技術呢?等你來一同探索吧~

從不同行業場景出發,解鎖音視頻技術議題

了解更多該專題詳情請掃碼

傳輸網絡

“RTC技術領域有其自身的特點,關注用戶側感受和訴求是從事這方面技術人員很容易忽視的。例如:流媒體在用戶側的感受并不敏感,技術上HEVC/AV1比AVC提高多少倍壓縮效率,用戶側感受到的可能是手機燙不燙手,耗不耗電。宣傳固然重要,但技術不應該忽略用戶感受去談先進性。

技術迭代不是一個數字比武過程,不是誰的數字指標高就會成為主流技術的,技術迭代過程是一個趨同效應,能契合某一類大規模應用場景往往會成為主流或者標準,作為從業人員不應該死盯技術指標上,用更高的技術指標去打敗行業先行者是非常困難的,所以在固有領域里面盲目的技術精進也是一種故步自封,后來者應該盡力找到技術更廣闊的應用場景形成新趨勢。

后疫情時代RTC成為內卷嚴重的領域,一方面終端能力沒有升級,另一方面疫情期間帶來的應用場景流量出現了消退的跡象,巨頭橫行,而新場景還沒有出現。但高分辨率、實時虛擬現實等高碼率應用剛剛萌芽,超大碼率會讓UDP協議給kernel帶來的負擔越來越大,高帶寬與低延遲、大并發的矛盾將會在新的場景更加尖銳,新一代的RTC架構有可能會出現TCP/UDP孿生模式。”

——摘自《歷經5代跨越25年的RTC架構演化史》

LiveVideoStack:QUIC/HTTP3越來越流行, 甚至有人提出讓WebRTC通過QUIC來傳輸,您如何看待RTP基于QUIC傳輸?RTP OVER QUIC 是一個好主意嗎?

Ron Frederick:QUIC是一個非常有趣的協議,同TCP相比,它有很多優勢,尤其是傳輸實時數據的時候(QUIC可以使數據包按照任何順序得到處理)。雖然HTTP/2增加了在單個TCP連接上多路復用多個流的能力,但TCP迫使數據始終要按順序處理,這意味著一個多路復用流上的數據包丟失將阻止其他所有流中的數據處理。QUIC有解決這個問題的潛力,甚至可能會演變為支持不同流的不同重傳策略,這對于音視頻內容來說是非常有利的(因為在出現一定延遲后,到達的數據包將不再有用)。我非常期待看到這項工作的發展!”

——摘自《對話RTP作者Ron Frederick: 我非常期待QUIC的發展》

從不同行業場景出發,解鎖音視頻技術議題

在傳輸網絡的世界中,追求極低的延時成為技術者們的頭等大事。尤其是在大通量媒體傳輸、實時會話業務、萬人場景等,對此,在本次「多媒體傳輸網絡優化」專題中都會討論到。

從不同行業場景出發,解鎖音視頻技術議題

了解更多該專題詳情請掃碼

視頻內容生產

“AI在視頻領域的技術發展,為視頻內容的重建提供了新的技術手段。基于AI的超分辨率技術可以實現標清到高清(SD轉HD)、或者高清到4K甚至8K的分辨率的提升,可以彌補大量的圖像細節;通過基于AI的逆色調映射(Inverse Tone Mapping)技術和色彩增強技術,可以實現對比度、色彩飽和度等多個層面的提升。這些提升的細節,需要用HDR視頻的高動態范圍和寬色域來進行表達。NTIRE 2021首次舉辦了HDR視頻圖像生成技術的大賽。

我們根據典型的應用場景,可以將智能視頻重制劃分為智能畫質提升和智能老片修復兩個分類。其中智能老片修復可以極大地提升傳統的人工修復效率,而超分和HDR則進一步提升彌補細節,調節亮度和飽和度,盡量提升到接近真4K的水平。”

——摘自《HDR技術趨勢淺析》

從不同行業場景出發,解鎖音視頻技術議題

更高清的視頻內容生產端是為我們所關注的,其消費端也是我們關心的方面。在本次「視頻內容生產與消費體驗創新」專題中,根據不同的消費場景,如:直播賽事、APP、視頻節目等,在對應的生產環節中又會遇到哪些問題呢?

從不同行業場景出發,解鎖音視頻技術議題

了解更多該專題詳情請掃碼

大會日程

從不同行業場景出發,解鎖音視頻技術議題

以上提到的相關音視頻技術專題盡在本次LiveVideoStackCon 2022 音視頻技術大會上海站,于8月5-6日召開。屆時,還會有更多議題為大家展現。還有更多話題等你來解鎖,詳情見大會專題頁了解:https://sh2022.livevideostack.cn/topics

收藏
點贊 29

復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。

榜上有名 聯系優設

行業風向標!13年助力企業品牌宣發

渠道豐富
場景多樣
搜索引擎
極速收錄
內容推廣
量身打造
品牌流量
助力曝光

文章目錄

發評論!每天贏獎品

點擊 登錄 后,在評論區留言,系統會隨機派送獎品

2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯系我們

本期獎品

發表評論

{{ moreBtnTxt }}

1 聯系優設

QQ直接交流

2 微信掃碼咨詢

返回頂部

榜上有名 聯系優設

行業風向標!13年助力企業品牌宣發

渠道豐富
場景多樣
搜索引擎
極速收錄
內容推廣
量身打造
品牌流量
助力曝光

聯系優設

量身打造推廣方案
新聞通稿投放量增價更優
優設微信二維碼
掃描上方微信號:uisdc5687
商務號添加請務必說明來意

基礎版

單篇發布

極速收錄品牌通稿

998 元/1篇
 

基礎版服務權益

  • 通稿在優設首頁新聞位曝光
  • 行業新聞首頁推薦位曝光
  • 發布當日添加最新資訊標識
  • 指導并優化通稿文章
 

優享版

套餐價!限時特惠!

12篇!每月都傳品牌好消息

6500 元/12篇
¥11976元/12篇
包含 基礎版 全部權益

優享版年度新增權益

 
限時特惠!節省超45%

大客戶尊享版

尊享價!絕無僅有!

產品引流及品牌曝光雙管齊下

15990
¥20000元
包含 優享版 全部權益

大客戶尊享版新增權益

  • 尊享優設主編定制推文1篇
  • 400W微博 @優設AIGC 發布推文
  • 定制產品視頻宣發(僅限AI產品)
 
絕無僅有!節省超20%
掃描左側二維碼 聯系優設

聯系優設

量身打造推廣方案
新聞通稿投放量增價更優
優設微信二維碼
掃描上方微信號:uisdc5687
商務號添加請務必說明來意

基礎版

單篇發布

極速收錄品牌通稿

998 元/1篇
 

基礎版服務權益

  • 通稿在優設首頁新聞位曝光
  • 行業新聞首頁推薦位曝光
  • 發布當日添加最新資訊標識
  • 指導并優化通稿文章
 

優享版

套餐價!限時特惠!

12篇!每月都傳品牌好消息

6500 元/12篇
¥11976元/12篇
包含 基礎版 全部權益

優享版年度新增權益

 
限時特惠!節省超45%

大客戶尊享版

尊享價!絕無僅有!

產品引流及品牌曝光雙管齊下

15990
¥20000元
包含 優享版 全部權益

大客戶尊享版新增權益

  • 尊享優設主編定制推文1篇
  • 400W微博 @優設AIGC 發布推文
  • 定制產品視頻宣發(僅限AI產品)
 
絕無僅有!節省超20%
掃描左側二維碼 聯系優設