Guardrails in Logit Space: Safety Token Regularization for LLM Alignment

ArXi:2604.17210v1 Announce Type: new Fine-tuning well-aligned large language models (LLMs) on new domains often degrades their safety alignment, even when using benign datasets. Existing safety alignment techniques primarily focus on pre