ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization

ArXi:2510.05528v2 Announce Type: replace Large language models (LLMs) present significant deployment challenges due to their immense computational and memory requirements. While semi-structured pruning, particularly 2:4 sparsity, offers a path to practical hardware acceleration, existing methods often incur substantial performance degradation. To bridge this gap, we