Benchmarking Compact VLMs for Clip-Level Surveillance Anomaly Detection Under Weak Supervision

ArXi:2603.13306v1 Announce Type: cross CCTV safety monitoring demands anomaly detectors combine reliable clip-level accuracy with predictable per-clip latency despite weak supervision. This work investigates compact vision-language models (VLMs) as practical detectors for this regime. A unified evaluation protocol standardizes preprocessing, prompting, dataset splits, metrics, and runtime settings to compare parameter-efficiently adapted compact VLMs against