近日,我院人工智能系陳燚雷博士在人工智能與多模态生成領域取得重要進展,其研究論文“Make You Said That: A Motion-Robust Multi-Knowledge Fusion Framework for Speaker-Agnostic Visual Dubbing”發表在中科院一區Top期刊《Knowledge-Based Systems(KBS)》上。
随着數字經濟的發展,虛拟數字人、智能媒體内容生成和人機自然交互成為關鍵趨勢。然而,現有的可視配音技術在自然頭部運動條件下容易出現面部僞影和同步問題,影響其效果和實用性。
為解決這些挑戰,陳燚雷博士提出了一種新的多知識融合可視配音框架,創新性地引入了3D人臉形變模型(3DMM),将語音驅動的口型生成與高保真圖像重建解耦,從而提升了視頻生成的自然度和細節還原能力。包含音頻-表情映射網絡和紋理增強渲染網絡,通過高精度的表情參數預測和運動感知機制,實現對大幅頭動視頻的高保真還原。
此外,在VoxCeleb1與VoxCeleb2數據集上,該方法在PSNR、SSIM、LPIPS等多個指标上全面領先,顯示出出色的可泛化性和工業應用潛力,具有廣泛的應用前景。
該成果的取得,為人工智能賦能數字内容産業提供了關鍵技術支撐,助力數字經濟高質量發展。