AvatarForcing: One-Step Streaming Talking Avatars via Local-Future Sliding-Window Denoising

ArXi:2603.14331v1 Announce Type: new Real-time talking avatar generation requires low latency and minute-level temporal stability. Autoregressive (AR) forcing enables streaming inference but suffers from exposure bias, which causes errors to accumulate and become irreversible over long rollouts. In contrast, full-sequence diffusion transformers mitigate drift but remain computationally prohibitive for real-time long-form synthesis.