AgentLeak: A Full-Stack Benchmark for Privacy Leakage in Multi-Agent LLM Systems

ArXi:2602.11510v2 Announce Type: replace Multi-agent Large Language Model (LLM) systems create privacy risks that current benchmarks cannot measure. When agents coordinate on tasks, sensitive data passes through inter-agent messages, shared memory, and tool arguments, all pathways that output-only audits never inspect. We