Training-Free Multimodal Large Language Model Orchestration

ArXi:2508.10016v3 Announce Type: replace Building interactive omni-modal assistants often relies on end-to-end multimodal alignment to fuse heterogeneous modalities, which incurs substantial data and compute costs and limits extensibility. We present