Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts.
Stereo-Talker:結合先驗引導專家混合模型的音訊驅動3D人類合成
IEEE Trans Pattern Anal Mach Intell 2025-08-05
Stereo-Talker 是一套全新 one-shot 系統,能根據音訊生成高畫質、唇形同步、表情自然的 3D 說話人影片,還能流暢切換視角。它結合大型語言模型、改良 diffusion models 和專家模組,提升動作自然度與渲染穩定性,並用新遮罩預測法讓人像分割更精準。團隊也公開多元影片資料集,程式碼和資料集將開放研究使用。
相關文章PubMedDOI推理
A Patient-Focused Comparative Analysis of Large Language Models for Epidural Analgesia Education.
以病患為中心的大型語言模型在硬膜外止痛教育上的比較分析
A A Pract 2025-08-05
Comparative analysis of large language models and clinician responses in patient blood management knowledge.
大型語言模型與臨床醫師在病人血液管理知識上的比較分析
Minerva Anestesiol 2025-08-05
MMRAG: multi-mode retrieval-augmented generation with large language models for biomedical in-context learning.
MMRAG:結合大型語言模型的多模態檢索增強生成於生物醫學情境式學習
J Am Med Inform Assoc 2025-08-05