When Safety Fails Before the Answer: Benchmarking Harmful Behavior Detection in Reasoning Chains

ArXi:2604.19001v1 Announce Type: new Large reasoning models (LRMs) produce complex, multi-step reasoning traces, yet safety evaluation remains focused on final outputs, overlooking how harm emerges during reasoning. When jailbroken, harm does not appear instantaneously but unfolds through distinct behavioral steps such as suppressing refusal, rationalizing compliance, decomposing harmful tasks, and concealing risk.