Metis: Learning to Jailbreak LLMs via Self-Evolving Metacognitive Policy Optimization

ArXi:2605.10067v1 Announce Type: cross Red teaming is critical for uncovering vulnerabilities in Large Language Models (LLMs). While automated methods have improved scalability, existing approaches often rely on static heuristics or stochastic search, rendering them brittle against advanced safety alignment. To address this, we