HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering

ArXi:2512.14870v2 Announce Type: replace Video Large Language Models (Video-LLMs) are improving rapidly, yet current Video Question Answering (VideoQA) benchmarks often admit single-cue shortcuts, under-testing reasoning that must integrate evidence across time. We