SIMMER: Cross-Modal Food Image--Recipe Retrieval via MLLM-Based Embedding

ArXi:2604.15628v1 Announce Type: cross Cross-modal retrieval between food images and recipe texts is an important task with applications in nutritional management, dietary logging, and cooking assistance. Existing methods predominantly rely on dual-encoder architectures with separate image and text encoders, requiring complex alignment strategies and task-specific network designs to bridge the semantic gap between modalities.