在视觉语言模型(VLM)的热潮中,很多人仍把它当成一种黑箱技术。其实,VLM的核心原理可以拆解成若干可观测的模块:图像特征提取、文本编码以及跨模态交互层。把这三块拼在一起,模型便具备了“看得见、说得出”的能力。
大多数 VLM 采用双塔(dual‑tower)结构:一侧是卷积或 Vision Transformer(ViT)负责把像素映射到高维向量;另一侧是基于 Transformer 的语言编码器,将词序列转换为语义嵌入。两塔的输出会在后续的跨模态层相遇,形成统一的多模态表示。
对齐的难点在于让视觉向量和文本向量在同一空间里“说同一种语言”。对比学习(contrastive learning)是最常见的手段:模型同时喂入匹配的图文对和不匹配的负例,逼迫相似对的余弦相似度上升,不相似对的相似度下降。除此之外,跨模态注意力(cross‑attention)让语言查询直接检索图像特征,形成细粒度的语义映射。
训练 VLM 时,数据规模往往决定上限。公开的 CLIP 数据集已超过4亿对图文,而阿里 Qwen3.5 计划引入上百亿级别的混合注意力数据。更关键的是,梯度累计与混合精度(FP16/BF16)配合使用,才能在单卡显存 24 GB 的条件下跑通百亿参数的预训练。
“跨模态对齐不只是相似度最大化,更是信息流的双向传递。”——《Multimodal Representation Learning》2023
说白了,VLM 的技术原理就是把视觉和语言的特征空间用对比学习拉紧,再用跨模态注意力把两者的细节交织在一起。只要训练数据足够丰富、算力足以支撑,这套机制就能让模型在“看图说话”和“文字生成图像”之间自由切换。
参与讨论
这玩意到底能干啥实际的?