AIM: Asymmetric Information Masking for Visual Question Answering Continual Learning

ArXi:2604.14779v1 Announce Type: cross In continual visual question answering (VQA), existing Continual Learning (CL) methods are mostly built for symmetric, unimodal architectures. However, modern Vision-Language Models (VLMs) violate this assumption, as their trainable components are inherently asymmetric. This structural mismatch renders VLMs highly prone to catastrophic forgetting when learning from continuous data streams.