CircuitProbe: Predicting Reasoning Circuits in Transformers via Stability Zone Detection

ArXi:2604.00716v1 Announce Type: new Transformer language models contain localized reasoning circuits, contiguous layer blocks that improve reasoning when duplicated at inference time. Finding these circuits currently requires brute-force sweeps costing 25 GPU hours per model. We propose CircuitProbe, which predicts circuit locations from activation statistics in under 5 minutes on CPU, providing a speedup of three to four orders of magnitude.