Mean Flow Policy Optimization

ArXi:2604.14698v1 Announce Type: new Diffusion models have recently emerged as expressive policy representations for online reinforcement learning (RL). However, their iterative generative processes