GAR: Carbon-Aware Routing for LLM Inference via Constrained Optimization

ArXi:2605.11603v1 Announce Type: new The growing deployment of large language models (LLMs) makes per-request routing essential for balancing response quality and computational cost across heterogeneous model pools. Current routing methods rarely consider sustainable energy use and CO2 emissions as optimization objectives, despite grid carbon intensity varying by time and region, and models differing significantly in energy consumption. To address this gap, we