Beyond Semantic Priors: Mitigating Optimization Collapse for Generalizable Visual Forensics

ArXi:2603.24057v1 Announce Type: new While Vision-Language Models (VLMs) like CLIP have emerged as a dominant paradigm for generalizable deepfake detection, a representational disconnect remains: their semantic-centric pre-