如果说「模型考古学」第一篇主要聚焦于大语言模型(LLM)的内部机制与演进脉络,那么本篇博客将拓宽视野,探求视觉大模型(Vision Large Language Model,VLLM)的技术原理和发展历程。在单纯的文本世界之外,视觉大模型融合了图像理解能力,赋予了AI“看”世界的眼睛,让模型理解世界的方式从一维的文字扩展到了二维的图像。
本文将从两个方面展开论述:首先,我将回溯视觉大模型的发展历程,梳理其关键的技术节点和代表性模型,力求勾勒出一幅清晰的技术演进图景;其次,我将解读阿里的旗舰视觉模型Qwen2-VL的技术报告,剖析其架构和创新点。
一、视觉大模型基本原理
从技术原理上看,视觉大模型的基础架构大多融合了现代深度学习中的两大支柱:卷积神经网络(CNN)和自注意力机制(Transformer)。前者曾是早期视觉任务的主流方案,擅长在局部感受野中提取特征,而后者的引入则显著提升了模型对全局关系的建模能力,使视觉大模型能够以更加通用和灵活的方式处理图像。
1.深度学习带来的变革:特征学习
以卷积神经网络 (Convolutional Neural Networks, CNNs) 为代表的深度学习模型,能够自动从大量数据中学习到层次化的特征表示,而无需人工设计特征。CNN 的核心组件是卷积层。卷积层通过一组可学习的滤波器(也称为卷积核)对输入图像进行卷积操作,提取出图像的局部特征。通过多个卷积层的堆叠,CNN 可以逐渐提取出从低级到高级的特征表示:
- 低级特征: 例如边缘、角点等。
- 中级特征: 例如纹理、形状等。
- 高级特征: 例如物体部件、物体类别等。
除了卷积层,CNN 中还包含池化层和全连接层:
- 池化层: 用于降低特征图的维度,减少计算量,并增强模型的平移不变性。常用的池化操作包括最大池化和平均池化。
- 全连接层: 用于将卷积层和池化层提取的特征进行整合,并输出最终的预测结果。
经典 CNN 模型,例如 AlexNet、VGG、GoogLeNet、ResNet 等,在图像分类、目标检测等任务上取得了巨大成功,推动了计算机视觉领域的飞速发展。
2.从独立视觉任务到视觉-语言融合
VLLM之前的计算机视觉模型大多都只针对特定任务进行训练,例如图像分类、目标检测、语义分割等。这些模型只能处理视觉输入,并输出视觉相关的结果。但我们人类对于世界的理解是多模态的,既包括视觉信息也包括语言信息。为了让 AI 具备更接近人类的智能,研究者们开始探索将视觉和语言融合起来,构建能够同时处理图像和文本的模型。
这就是视觉大模型 (VLLM) 的雏形。VLLM 的核心思想是,通过一个统一的模型架构,将图像和文本映射到同一个语义空间,从而实现跨模态的理解和推理。现代视觉大模型普遍采用Vision Transformer(ViT)架构。ViT的核心思想是将图像分割成一系列图像块(patches),然后像处理文本序列一样用Transformer来处理这些图像块序列。具体来说,ViT首先将输入图像切分成固定大小的patch(例如16×16像素),每个patch经过线性投影后转换为一个特征向量。这些特征向量序列再加入位置编码,构成Transformer的输入序列。通过多层self-attention机制,模型能够捕获图像各个部分之间的关系,从而学习到更抽象的视觉特征表示。
初代的 VLLM 通常会使用两个独立的编码器分别处理图像和文本,然后通过一个融合模块将两种模态的信息进行整合,最后输入到一个语言模型解码器中生成文本描述或者执行相应的视觉-语言任务。例如早期的 Visual Question Answering (VQA) 模型,以及将图像和文本映射到同一语义空间进行对比学习的 CLIP 等,都采用了这种思路。
二、视觉大模型发展历程:从单模态到多模态涌现
和其他事物一样,视觉大模型的发展并非一蹴而就,其演进路径可划分为三个阶段:单模态视觉模型主导期、多模态融合探索期,以及多模态通用智能涌现期。这三个阶段既体现了技术范式的跃迁,也揭示了从“被动感知”到“主动交互”的AI能力进化。
1.单模态时代:视觉表征学习的奠基(2012-2020)
以 AlexNet (2012)为代表的早期CNN模型开启了深度学习在计算机视觉的黄金时代。通过卷积层堆叠与ImageNet大规模监督训练,模型首次展现出通用视觉表征学习能力 。此后,VGGNet (2014)通过更深层网络验证了深度对性能的提升,ResNet (2015)凭借残差连接突破梯度消失瓶颈,EfficientNet (2019)则通过复合缩放法则实现精度与效率的平衡。这些模型虽局限于图像分类任务,但其预训练权重被广泛迁移至目标检测(Faster R-CNN)、分割(Mask R-CNN)等下游任务,形成了“预训练-微调 ”的经典范式。
当然,这个时代的单模态模型也存在显著的局限性。首先就是不同的视觉任务需要独立设计网络头,缺乏统一架构,存在任务隔离性。正因为其是单模态模型,我们没办法将视觉特征与语言语义对齐,难以实现跨模态推理。最后,在ai领域有一个经典笑话:「有多少智能就有多少人工」,当时严重依赖人工标注的边界框/掩码数据,模型的泛化能力有限。
2.多模态融合萌芽:视觉-语言对齐的探索(2020-2022)
Transformer在NLP领域的成功催生了视觉架构的变革。Vision Transformer(ViT) (2020)首次将图像切分为序列化Patch,通过自注意力建模全局关系,打破了CNN的局部归纳偏置限制。与此同时,CLIP (2021)与ALIGN (2021)开创了双塔对比学习范式 :图像编码器(ViT/CNN)与文本编码器(Transformer)通过海量互联网图文对进行对比学习,使模型无需人工标注即可建立跨模态语义关联。这类模型展现出强大的零样本迁移能力 ——仅通过文本提示(Prompt)即可完成图像分类、检索等任务。
这一阶段的突破性在于:
- 模态对齐 :通过对比损失函数将视觉-语言映射至共享语义空间
- 弱监督学习 :利用互联网天然图文对减少人工标注依赖
- 提示工程 :以文本指令控制模型行为,初步展现多模态交互潜力
但局限性仍存:双塔架构的模态交互仅发生在特征对齐阶段,缺乏深层次的跨模态信息融合 ,难以完成复杂推理任务(如视觉问答、图像描述生成)。
3.多模态涌现:通用视觉-语言交互的崛起(2022至今)
随着大语言模型(LLM)在文本理解与生成上的突破,研究者开始探索将视觉能力与LLM深度融合,推动多模态模型从浅层对齐 向深度协同推理 跨越。这一阶段的技术革新不仅体现在架构设计上,更标志着AI从“感知工具”向“通用交互智能体”的范式转变。
(1)视觉和语言的初步耦合
Flamingo (DeepMind, 2022):
首次提出交叉注意力适配器 (Cross-Attention Adapter)架构,将预训练视觉编码器(如NFNet)与冻结的LLM(Chinchilla)连接。通过插入可训练的交叉注意力层,模型能够将视觉特征动态注入语言模型,支持多图多轮对话 和少样本学习 。Flamingo的上下文学习能力 (如根据少量示例完成VQA任务)证明了多模态涌现的潜力。
BLIP-2 (Salesforce, 2023):
设计Q-Former (Querying Transformer)模块,通过一组可学习的查询向量(learnable queries)从视觉编码器中提取与文本相关的特征,再输入LLM生成响应。这一设计显著降低了训练成本(仅需训练Q-Former和部分投影层),使研究者能够灵活组合不同视觉编码器(如ViT、CLIP-ViT)与LLM(如FlanT5、OPT),为开源社区提供了高效的多模态训练范式。
(2)闭源巨头入场:GPT-4V与Gemini
GPT-4V (OpenAI, 2023):
GPT-4的视觉版本(Vision)标志着闭源多模态模型的巅峰。其技术细节未完全公开,但通过API展示的能力可知:
- 支持任意分辨率图像输入 ,通过空间感知的token化策略保留细节信息
- 实现复杂视觉推理 ,如流程图解析、抽象漫画理解、跨图像时空推理
- 通过RLHF与多模态指令微调 对齐人类意图,避免幻觉输出GPT-4V的推出重新定义了多模态模型的上限,但其黑盒性质也引发了对技术透明性的争议。
Gemini (Google, 2023):
作为首个原生多模态模型 ,Gemini从预训练阶段即统一处理图文数据,而非拼接独立编码器。其关键技术包括:
- MoE(Mixture of Experts)架构 :动态路由不同模态至专家子网络,提升计算效率
- 多模态思维链 (Multimodal CoT):通过中间推理步骤解释视觉-语言决策过程
- 3D空间理解 :支持点云、视频等三维输入,拓展多模态交互场景
(3)开源社区:从LLaVA到Qwen-VL
LLaVA (威斯康星大学, 2023):
首次在开源社区验证“视觉指令微调 ”的有效性。通过将CLIP视觉编码器与Vicuna语言模型连接,并利用GPT-4生成的视觉-指令数据微调,LLaVA以较小参数量(7B/13B)达到接近商用模型的性能,推动了开源多模态应用的普及。
Qwen-VL系列 (阿里云, 2023-2024):
作为中文开源多模态模型的代表,Qwen-VL的技术亮点包括:
- 多粒度视觉表征 :通过动态分辨率处理与自适应token采样,平衡计算成本与细粒度理解(如OCR、物体属性识别)
- 多图多轮对话 :支持用户上传多张图像并基于历史上下文进行连贯推理(如对比分析、事件排序)
- 定位-描述协同 :联合训练目标检测与描述生成任务,实现“指哪说哪”的交互能力
尽管Qwen-VL在通用性和综合性能上可能仍逊于当时的4v,但其在中文场景 (如古诗词配图理解、电商产品分析)和垂直任务 (如医学图像报告生成)上的优化,为行业应用提供了高性价比选择。
(4)本阶段的技术特征与挑战
- 1.架构统一化:
- 主流方案采用“视觉编码器+语言模型 ”的耦合架构,通过轻量级适配器(Adapter)或中间表示(如Q-Former)实现跨模态特征交互。
- 趋势:逐步从“冻结视觉/语言模块”向“端到端联合优化”演进(如Qwen-VL、Gemini)。
- 2.训练范式革新:
- 两阶段训练 :先对齐视觉-语言表征(对比学习),再通过指令微调激发推理能力。
- 数据引擎 :利用LLM生成合成数据(如LLaVA)、构建多模态思维链数据(如CogVLM),突破高质量标注数据瓶颈。
- 3.涌现能力:
- 零样本迁移 :无需微调即可处理未见任务(如GPT-4V解读手写笔记)。
- 组合推理 :融合常识与视觉线索解答复杂问题(如“推断图中人物的情绪并解释原因”)。
当然,目前视觉模型仍然会存在幻觉问题,生成与图像无关的虚假描述,需通过强化学习与规则约束降低风险。在长尾场景下,如对罕见物体(如特殊医疗器械)或文化特定内容(如传统服饰)的理解仍不稳定。
三、Qwen2-VL论文解读
Qwen2-VL整体架构上仍然延续了Qwen-VL中ViT加Qwen2的串联架构,在三个不同尺度的模型上都采用600M大小的ViT。不说废话,直接总结Qwen2-VL的创新点:
引⼊了 Naive Dynamic Resolution 机制,与上一代模型相比,Qwen2-VL 能够处理任意分辨率的图像输入,不同大小图片被转换为动态数量的 tokens,最小只占 4 个 tokens。这种设计不仅确保了模型输入与图像原始信息之间的高度一致性,更是模拟了人类视觉感知的自然方式,赋予模型处理任意尺寸图像的强大能力,使其在图像处理领域展现出更加灵活和高效的表现。
集成多模态旋转位置嵌入(M-RoPE),传统的旋转位置嵌入只能捕捉一维序列的位置信息,而 M-ROPE 通过将原始旋转嵌入分解为代表时间、高度和宽度的三个部分,使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息。这一创新赋予了语言模型强大的多模态处理和推理能力,能够更好地理解和建模复杂的多模态数据。
例如对text输入,distinct-IDs退化为1D-RoPE;对image输入,distinct-IDs是由height & width components决定的;对于video输入,distinct-IDs是由height & width + temporal决定的。
- 采用统一的范式处理图像和视频,增强了模型的视觉感知能力
1.基础:以Qwen2-VL为例解析一个视觉大模型的结构
我们直接以Qwen2-VL技术报告里这张结构图为例,来解析一下一个视觉大模型应该包含哪些部分。
(1)、输入处理模块
首先就是文本输入处理,模型支持自然语言文本输入,并在多模态情境下与视觉内容进行整合。然后,作为多模态模型,重要功能就是视觉输入处理,Qwen2-VL可以处理各种类型的视觉输入,包括高分辨率图片和视频帧。
- 样例输入包括:
- 图片(Picture 1, 2, 3) :例如网页截图、自然风景等。其中,输入分辨率可能各不相同,如高度8204像素的网页截图,或者更小分辨率的风景图片。
- 视频(Video 1) :输入是多帧视频流,包含时间序列信息,例如16秒长的视频序列。
(2)、视觉编码器(Vision Encoder)
Qwen2-VL的视觉编码器采用改进型Vision Transformer(ViT)架构,参数规模为6.75亿,通过Naive Dynamic Resolution 机制突破传统固定尺寸限制。其核心创新体验在:
原生分辨率支持:
- 动态分块策略:输入图像不再强制缩放,而是根据原始分辨率自适应划分图像块(patches)。例如8204像素高度的网页截图会被分割为587个14x14像素块(8204/14≈586),而224x224标准图片则生成256个块((224/14)^2)。
- 空间信息保留:通过2D旋转位置编码(RoPE-2D)替代传统绝对位置编码,将二维坐标(x,y)映射到复数空间进行旋转操作,使模型能精确感知每个图像块在原始图像中的几何位置。
多模态时空建模:
- 视频处理机制:对视频输入每秒采样2帧,通过深度可分离3D卷积提取时空特征。每帧视为独立图像进行分块编码后,额外叠加时间轴RoPE分量,形成三维位置编码(高度、宽度、时间)的联合表征。
- 跨模态对齐:在ViT末层引入可学习的模态标记(<vision_start>, <vision_end>),与文本标记共享嵌入空间,为后续跨模态融合奠定基础。
特征压缩与优化:
- 相邻特征聚合:在ViT输出端加入MLP压缩层,将相邻2x2视觉标记(如16x16区域)合并为超标记,既降低序列长度(例如224x224输入从256标记压缩至64),又增强局部语义连贯性。
- 显存优化技术:采用动态序列打包(Dynamic Sequence Packing),将不同分辨率图像的视觉标记拼接为连续张量,通过掩码机制隔离不同样本,实现GPU显存利用率提升37%。
之后,视觉编码器的输出通过自适应门控机制注入语言模型。
(3)、Token化与跨模态表示
视觉 Token处理
经过视觉编码器处理后,每张图片或视频被转化为一组 token。
分辨率自适应的分块策略:
每个图像块(patch)固定为14x14像素,但分块数量由输入分辨率动态决定。例如:
- 网页截图(8204像素高度)⇒ 587个垂直分块(8204/14≈586.71,向上取整)
- 标准224x224图片 ⇒ 16x16网格(共256个分块)
时空统一编码:
视频帧通过三维位置编码(M-RoPE)实现时空感知:
- 空间维度:每个分块的(x,y)坐标映射为复数空间的旋转相位
- 时间维度:帧序列位置t通过线性递增的旋转角度编码
- 示例:16秒视频(32帧)⇒ 时间轴RoPE角度从0°到31°线性分布
示例中,图片和视频的特征被编码为不同数量的 token,例如:
- Picture 1 转为 11427 个 token。
- Video 1 转为 2208 个 token。
- Picture 2 转为较小数量的 token(8个token),表明小图可能具有更少的信息量。
统一 Token 表示
跨模态位置对齐:
通过模态间位置映射函数,将视觉/语言的位置编码统一到同一度量空间:
文本位置i → θ_i = i / 10000^(2d/D) 视觉位置(x,y) → θ_x = x/10000^(2d/D), θ_y = y/10000^(2d/D)
动态掩码注意力:
在自注意力层引入模态感知掩码,控制跨模态交互强度:
# 视觉→文本注意力权重衰减 if query_modality != key_modality: attention_scores *= 0.7 # 跨模态衰减系数
(4)、语言解码器(QwenLM Decoder)
QwenLM Decoder 负责将视觉编码器提取的视觉 token 与语言 token 进行深度融合,并最终生成自然语言输出。这种跨模态的融合是通过注意力机制实现的,包括自注意力和交叉注意力,使得模型能够在文字和视觉内容之间建立起紧密的关联。例如,解码器可以理解图片中的场景并用文字进行描述,或者根据视频内容生成文字总结,从而实现对多模态信息的有效整合。
作为模型的语言生成组件,QwenLM Decoder 采用典型的自回归式生成方式,即生成的每一个 token 都依赖于已有的 token 和视觉上下文。这种方式确保了生成文本的连贯性和与视觉内容的关联性。
(5)、输出模块与标注任务对齐:
模型的输出通常是文本,但可以是其他可能的结果,如进一步的特征表示或用于下游任务的结构化信息。
- 典型功能 :
- 描述生成 :如对 Picture 1 生成描述 —— “这是来自一个博客的图片”。
- 视频总结 :为 Video 1 生成文字性总结。
- 问答系统 :结合输入,回答像 “What is in Picture 3?” 这类的多模态问题。
为了有效处理多个输入(例如多张图片和多段视频),模型对每个输入模态进行了标识,并在每个模态的 token 数量上进行了明确说明,实现了模态之间的序列标注。通过任务对齐和数据训练,模型学习如何整合视觉与文本信息,并能够动态调整以适应特定任务,如生成描述、进行问答、联想推理等。这种任务自适应的能力,使得模型在实际应用中具有极高的灵活性和实用性。
2.M-RoPE粗解
(1)、技术背景
之前的传统旋转位置嵌入(Rotary Position Embedding, RoPE)通过旋转操作将位置信息动态融入注意力机制,解决了传统位置编码在灵活性、效率和泛化性上的瓶颈。相较于传统位置编码,采用RoPE的模型在同等参数量下实现更优的困惑度(Perplexity)和下游任务准确率,其天然支持动态长度输入,适合处理长文本任务,在PG-19(长篇小说生成)和arXiv论文理解任务中,RoPE模型相比基线(如ALiBi)的生成连贯性提升显著。RoPE技术的数学优雅性、计算高效性以及对长序列的支持,使其成为现代LLM的核心技术之一,并为多模态模型的进一步发展奠定了基础。
RoPE主要用于对语言模型中一维序列的位置编码,通过复数域的旋转操作捕捉位置关系。然而,因为图像和视频的视觉信息具有天然的空间或时空结构,例如图像中的像素位置(高度、宽度)和视频的帧序列(时间),RoPE无法有效建模高度、宽度和时间维度上的位置关联,通常将多维位置压缩为一维或静态处理,导致信息丢失。
因此,学术界提出M-RoPE,通过以下方式扩展传统RoPE,实现多模态位置信息的动态建模:
(2)、实现方式
多维位置分解
将旋转嵌入分解为独立的时间、高度和宽度分量,分别对应视频的帧序列、图像的垂直和水平位置:
- 文本输入:时间、高度、宽度分量使用相同的位置ID,退化为传统1D-RoPE。
- 图像输入:时间分量固定(单帧),高度和宽度分量根据视觉标记在图像中的实际位置动态分配。
- 视频输入:时间分量随帧数递增,高度和宽度分量与图像处理一致。
跨模态位置编码
- 模态间位置隔离:不同模态的位置ID独立分配。例如,若前一个模态的最大位置ID为 ,下一模态的起始位置ID为 ,避免跨模态位置冲突。
- 动态序列打包:在推理阶段,不同分辨率的图像或视频帧被打包为单一序列,通过控制序列长度平衡计算效率与信息保留。
数学实现
对于输入向量 ,M-RoPE通过旋转矩阵 注入位置信息:
其中:
- 、、 分别表示时间、高度和宽度分量的旋转矩阵。
- 为张量积操作,将各分量的旋转效应组合为多维位置编码。
(3)、优势
动态分辨率支持
M-RoPE允许模型处理任意分辨率的图像,无需固定输入尺寸。视觉标记数量随图像分辨率动态调整,避免下采样或填充导致的信息损失。
长序列外推能力
通过分离时间与空间分量,M-RoPE在视频任务中显著提升了长度外推能力。实验表明,模型在推理时能处理远超训练时最大长度(16K token)的序列(如80K token),性能保持稳健。
跨模态信息融合
统一的编码框架无缝整合文本、图像和视频的位置信息,增强模型对动态内容(如视频流)的理解能力。
3.其他技术报告摘录与解读
这部分主要选取我感兴趣的内容
训练过程
Qwen2-VL沿袭了Qwen-VL(Bai等人,2023b)的核心训练框架,采用分阶段渐进式训练方法,兼顾视觉-语言对齐与模型泛化能力:
视觉语义奠基阶段
首阶段聚焦视觉Transformer(ViT)组件的专项训练,通过海量图像-文本对数据,强化大型语言模型(LLM)对视觉特征的语义映射能力。此阶段ViT参数保持可调,而LLM部分冻结,确保视觉模块的基础能力沉淀。
全参数协同优化阶段
第二阶段全面解冻模型参数,引入更丰富的数据类型(如OCR文本、图文交错文档等),促使视觉与语言模块深度融合。这种「全开放」训练模式有助于模型捕捉跨模态关联规律,提升复杂场景下的多模态推理能力。
指令微调精修阶段
最终阶段锁定已成熟的ViT参数,专注使用指令数据集对LLM进行针对性微调。这种设计既保留了视觉编码器的稳定性,又通过指令驱动的方式强化了模型的任务响应与逻辑表达能力。
4.数据格式与定位能力
与 Qwen-VL ⼀致,Qwen2-VL 也采⽤特殊标记来区分视觉和⽂本输⼊。标记 2023)被 RoPE-2D <|vision_start|>和<|vision_end|>取代,分别插⼊图像特征序列的开始和结束位置,以界定图像内容。
格式示例:
<|im_start|>⽤户 <|vision_start|>Picture1.jpg<|vision_end|><|vision_start|>Picture2.jpg<|vision_end|>这两张图
⽚有什么共同点?<|im_end|> <|im_start|>助⼿ 这两张图⽚都是海绵宝宝。<|im_end|> <|im_start|>⽤户 视频中
发⽣了什么?<|vision_start|>video.mp4<|vision_end|><|im_end|> <|im_start|>助⼿ 视频中的主⻆正在煎蛋。
<|im_end|>
视觉定位。为了赋予模型视觉定位能⼒,边界框坐标在[0, 1000)范围内归⼀化,并表示为“(X 左上⻆, Y 左上⻆), (X 右下⻆, Y 右下⻆)”。
Tokens <|box_start|> 和 <|box_end|> ⽤于界定边界框⽂本。为了准确地将边界框与其⽂本描述关联起来,Qwen引⼊了tokens <|object_ref_start|> 和 <|object_ref_end|> 来指示边界框引⽤的内容,从⽽使模型能够有效地解释并⽣成特定区域的精确描述。
示例:
<|vision_start|>Picture1.jpg<|vision_end|> <|object_ref_start|>⻓颈⿅的眼睛<|object_ref_end|><|box_start|>
(176,106),(232,160) <|box_end|>
模型总结
我们推出了 Qwen2-VL 系列,这是⼀系列多功能的⼤型视觉语⾔模型,包括总参数量分别为 20 亿、80 亿和 720 亿的三个开源模型。Qwen2-VL 在⼀系列多模态场景中与 GPT-4o 和Claude3.5-Sonnet 等顶级模型性能相当,超越了所有其他开源 LVLM 模型。Qwen2-VL 系列引⼊了朴素动态分辨率和多模态旋转位置嵌⼊(M-RoPE),以有效融合跨模态信息,并能够理解超过 20 分钟的视频。凭借先进的推理和决策能⼒,Qwen2-VL 可以与⼿机、机器⼈等设备集成。此外,Qwen2-VL 现在⽀持理解图像中的多语⾔⽂本,包括⼤多数欧洲语⾔、⽇语、韩语、阿拉伯语、越南语等。
参考文献
[1] Liu H, Li C, Wu Q, et al. Visual instruction tuning[J]. Advances in neural information processing systems, 2024, 36.
[2] Liu H, Li C, Li Y, et al. Improved baselines with visual instruction tuning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 26296-26306.
[3] Bordes F, Pang R Y, Ajay A, et al. An introduction to vision-language modeling[J]. arXiv preprint arXiv:2405.17247, 2024.
[4] Wang P, Bai S, Tan S, et al. Qwen2-vl: Enhancing vision-language model’s perception of the world at any resolution[J]. arXiv preprint arXiv:2409.12191, 2024.