首頁 > 市場 > 數(shù)據(jù)·報告
騰訊Turing Lab論文入選ICASSP,圖像AI研究成果獲國際認可
2022-06-06 12:00:23
出處 : 互聯(lián)網
作者 : SNG
點擊 : 3次
評論 : 0
近日,全球頂級信號處理技術會議 ICASSP 2022 公布了論文入選名單。由王君樂博士帶領的騰訊Turing Lab實驗室論文——《針對手機游戲的主觀與客觀視頻質量評價》(Subjective and Objective Quality Assessment of Mobile Gaming Video)、《引入用戶共識學習的美學質量預測》(Considering User Agreement in Learning to Predict the Aesthetic Quality)被大會接收。ICASSP?(International Conference on Acoustics, Speech, and Signal Processing)是國際聲學、語音和信號處理會議。是由IEEE主辦的全世界最大的、也是最全面的信號處理及其應用方面的頂級學術會議,具有權威、廣泛的學界及工業(yè)界影響力。歷屆ICASSP會議都備受AI領域研究學者的熱議和關注。此次,騰訊Turing Lab實驗室在國際舞臺全方位展示了騰訊在視頻質量評價、圖像質量評價方面的實力。以下為騰訊Turing Lab實驗室入選論文概述:01.針對手機游戲的主觀與客觀視頻質量評價Subjective and Objective Quality Assessment of Mobile Gaming Video近年來,手機游戲在整個游戲市場中占據(jù)的份額已超50%,手游相關內容也成為社交媒體平臺上短視頻的重要組成部分。同時,基于視頻流的云游戲也逐漸吸引了越來越多的用戶。隨著這些游戲相關的視頻流媒體技術和服務的蓬勃發(fā)展,用戶對游戲的質量體驗(QoE, Quality of Experience)提出了更高的要求。只有對這個視頻鏈路及內容表現(xiàn)進行更加嚴格的質量把控,才可以為用戶帶來更佳的游戲體驗。畫質作為質量體驗QoE的重要維度之一,如何正確地預測人眼感知的畫質在很長一段時間內一直是學術界及工業(yè)界研究的重點及熱點。然而,目前大量的已有研究主要聚焦在傳統(tǒng)的視頻內容上,包括PGC內容、UGC內容、以及面向線上會議和共享屏幕等場景的特定內容等。當這些畫質評價方法直接應用在游戲視頻時,性能表現(xiàn)一般。因此,在本篇論文中,我們針對手機游戲在云游戲場景下的畫質問題,進行了主觀實驗及客觀算法模型研發(fā)的相關工作。我們先從騰訊先鋒云游戲平臺上選擇17款手機游戲中,并針對不同場景收集了共150段源視頻,之后使用多種編碼器和編碼參數(shù)構造出1293段視頻。我們基于ITU相關標準進行嚴格的主觀實驗,從而得到了全新的針對手機游戲的視頻質量評價數(shù)據(jù)集TGV dataset(Tencent Gaming Video dataset)。在這篇論文中,我們提出質量評價模型ERAQUE(Efficient hard-RAnk QUality Estimator)。結合新提出的困難樣本排序損失(Hard Pairwise Ranking Loss, Fig1),該模型在訓練過程中可以更加針對相似的樣本對,從而學習到更細粒度的失真信息,進一步提升模型的性能。在提出的TGV數(shù)據(jù)集上,我們進行了模型訓練和對比試驗,實驗結果表明ERAQUE模型相比業(yè)界其他質量評價模型表現(xiàn)出了更好的性能。最后,為了讓模型以在端側更高效地推理,我們使用知識蒸餾的方案(Fig.2)對ERAQUE模型進行壓縮和加速,最終實現(xiàn)ERAQUE模型的輕量化部署,實驗結果表明ERAQUE模型配合提出的蒸餾策略可以使模型在復雜度和性能之間實現(xiàn)高度權衡。02. 引入用戶共識學習的美學質量預測Considering User Agreement in Learning to Predict the Aesthetic Quality近年來,針對圖像的視覺美感評價技術在許多應用場景中發(fā)揮著重要作用,包括圖像的自動化編輯、圖像生成、以及在內容推薦領域等。因此,圖像美學評價成為了學術界及工業(yè)界熱門的研究課題。與傳統(tǒng)的圖像質量評價問題不同,由于人在進行美學評價時會引入更多high-level的評價維度,如情感、畫面布局、色彩搭配與協(xié)調性等,這也使得美學評價相比針對失真進行的傳統(tǒng)圖像質量評價,具有更高的主觀性與不確定性(見Figure 1)。Figure 1:在這兩幅圖中,評測人員對于A圖的美感評分具有更高的不確定性(標準差σ=1.36),而對于B圖,評測人員對于美感的評分則趨于一致(標準差σ=0.59)
在這篇論文中,我們提出了改良了的多任務attention網絡(見Figure 2及Figure 3),可以對輸入圖像的美學MOS分數(shù),以及代表了該分數(shù)不一致性的標準差進行端到端的預測。在損失函數(shù)方面,我們同時也提出了全新的針對的置信區(qū)間排序損失(confidence interval ranking loss),用于促使模型在訓練過程中更多地關注具有更高美學不確定性的圖像對,從而學習到更具有區(qū)分性地特征,以及與觀測者不確定性更相關的特征。Figure 2: 文章所提出模型的總體架構Figure 3: 文章所提出的LMLSP模塊
在這個工作中,我們通過大量的實驗證明了我們所提出多任務學習美學模型不但在游戲圖像的美學預測中具有巨大優(yōu)勢,同時對于傳統(tǒng)的自然內容圖像美學預測任務,也達到了很好的效果。產學研結合,落地業(yè)務,反哺技術在業(yè)務層面,以上AI技術均已應用到騰訊先鋒云游戲平臺,騰訊先鋒云游戲通過Turing Lab畫質評價、多媒體視頻質量評價、內容生成及虛實互動等能力,致力于全方位的提升云游戲畫質表現(xiàn),打造云游戲極致的用戶體驗。除了在C端業(yè)務的落地之外,在面向產業(yè)互聯(lián)網層面,Turing Lab的視頻質量評價技術也已經通過“騰訊WeTest質量云平臺“對外開放,行業(yè)用戶可以通過體驗Demo快速體驗了解到該技術。除此之外,在AI應用上的探索,騰訊WeTest官網近期全新上線了AI服務專區(qū),并同步推出視頻畫質評價/游戲內容安全解決方案等產品能力。未來,騰訊WeTest將持續(xù)在科研領域深耕,并致力于將AI技術前沿研究與測試場景進行融合,用技術驅動測試乃至質量保障行業(yè)的發(fā)展,并以開放態(tài)度,對外輸出優(yōu)秀的技術能力,助力行業(yè)的發(fā)展。王君樂博士簡介騰訊專家研究員,Turning Lab負責人擁有10余年計算機視覺、多媒體、機器學習領域研究經驗,在人體姿態(tài)估計與重建、圖像質量評價、計算攝影學、沉浸式多媒體等領域有較深的了解及實戰(zhàn)經驗,并在這些領域帶領團隊進行探索與落地的工作。曾主導騰訊CenseoQoE畫質評價方案的建設與社區(qū)開源,主導騰訊先鋒云游戲云端虛實互動技術的研發(fā)。此外,在包括CVPR、NeurIPS、TIP、TMM等頂級會議及期刊上發(fā)表多篇論文,并為多個會議及期刊擔任審稿人及組織者。
強推





