Multi-Task Instruction Tuning via Data Scheduling for Low-Resource Arabic AudioLLMs

ArXi:2601.12494v2 Announce Type: replace-cross Audio large language models (LLMs) enable unified speech understanding and generation, but adapting them to linguistically complex and dialect-rich settings such as Arabic-English remains challenging. We present a controlled study of multi-task instruction tuning for an Arabic-centric audio LLM across generative tasks including ASR and speech and text summarization, and discriminative tasks including dialect and emotion recognition, in a resource-constrained setting. To end-to-end Arabic speech summarization, we.