【
儀表網 研發快訊】隨著Deepseek-R1、GPT-5以及通義萬相等大模型的接連出圈,人工智能生成內容(AIGC)技術受到越來越多的關注。AIGC在為內容創作、文化傳播帶來新發展契機的同時,也為虛假信息、合成媒體濫用以及深度偽造等新型社會安全威脅的滋生與擴散提供了技術基礎和發展溫床。為此,針對AI生成式信息的檢測,亟需發展具備跨模態感知與細粒度辨偽能力的技術手段,以應對日益復雜的多重偽造挑戰。
在國家自然科學基金等項目資助下,西安交通大學電信學部計算機學院孫鶴立教授團隊針對視聽跨模態場景下的偽造人臉檢測開展研究,提出通用面部表征建模與強判別性偽造特征捕捉的二階段學習范式(如圖1)。具體而言,首先構建出當前業界最大的多源混合式自監督視聽人臉表征學習數據集以支撐大規模編碼器預訓練,其次設計提出迭代感知的漸進式分級上下文聚合組件以促進高效跨模態融合與偽造線索捕獲,最后引入偽監督信號語義注入策略以從全局層面進一步拓寬深度模型的判別邊界,并提升對于細微人臉偽造痕跡的魯棒檢測能力。在多媒體領域國際頂級會議ACM Multimedia 2025(計算機學會推薦的A類會議)上,所提出的方法超越了來自美國普渡大學、韓國成均館大學、中國科學技術大學以及Pindrop(美國語音安全領域頭部公司)等多個國內外研究團隊,獲得2025年1M-Deepfake檢測全球挑戰賽總冠軍。在共包含80萬條樣本的測試集上,取得超出第二名4.76個百分點的優異成績。
該研究工作為AI生成式信息檢測技術的發展提供了一種新方案,并能夠為通用視聽場景理解以及數字內容安全治理體系的構建帶來可行的實踐參考。
圖1. 面向偽造人臉檢測的二階段學習范式示意圖
同時,基于上述研究成果形成的學術論文HOLA: Enhancing Audio-visual Deepfake Detection via Hierarchical Contextual Aggregations and Efficient Pre-training已被ACM Multimedia 2025國際多媒體大會接收。孫鶴立教授與計算機學院2023級碩士研究生武雪程為共同第一作者,西安交通大學為第一署名單位。
所有評論僅代表網友意見,與本站立場無關。