Personalizing Causal Audio-Driven Facial Motion via Dynamic Multi-modal Retrieval

ArXi:2604.23692v1 Announce Type: cross Audio-driven facial animation is essential for immersive digital interaction, yet existing frameworks fail to reconcile real-time streaming with high-fidelity personalization. Current methods often rely on latency-inducing audio look-ahead, or require high user compliance to pre-encode static embeddings that fails to capture dynamic idiosyncrasies.