ReCALL: Recalibrating Capability Degradation for MLLM-based Composed Image Retrieval

ArXi:2602.01639v2 Announce Type: replace Composed Image Retrieval (CIR) aims to retrieve target images based on a hybrid query comprising a reference image and a modification text. Early dual-tower Vision-Language Models (VLMs) struggle with cross-modality compositional reasoning required for this task.