Appear2Meaning: A Cross-Cultural Benchmark for Structured Cultural Metadata Inference from Images

ArXi:2604.07338v1 Announce Type: cross Recent advances in vision-language models (VLMs) have improved image captioning for cultural heritage. However, inferring structured cultural metadata (e.g., creator, origin, period) from visual input remains underexplored. We