MG$^2$-RAG: Multi-Granularity Graph for Multimodal Retrieval-Augmented Generation

ArXi:2604.04969v1 Announce Type: cross Retrieval-Augmented Generation (RAG) mitigates hallucinations in Multimodal Large Language Models (MLLMs), yet existing systems struggle with complex cross-modal reasoning. Flat vector retrieval often ignores structural dependencies, while current graph-based methods rely on costly ``translation-to-text'' pipelines that discard fine-grained visual information.