BLIP3-o是由Salesforce Research等机构研发的多模态AI模型,融合了自回归模型的推理与指令执行能力以及扩散模型的生成优势。该模型基于语义丰富的CLIP图像特征进行训练,不依赖传统VAE特征或原始像素,在图像理解和生成任务中表现优异。其采用顺序预训练策略,先进行图像理解训练,再进行图像生成训练,确保模型在两个方向上均具备强大能力。BLIP3-o已在多个基准测试中取得优异成绩,并且完全开源,包含代码、模型权重及训练数据集。 BLIP3-o支持多种任务,包括文本到文本、图像到文本、文本到图像、图像到图像以及混合训练。技术上结合了自回归模型和扩散模型,利用CLIP特征进行图像建模,并通过流匹配损失函数提升生成质量。此外,模型还使用了基于GPT-4o生成的高质量指令数据集进行微调,以增强其指令遵循能力和视觉表现力。 项目提供GitHub仓库、HuggingFace模型库及arXiv论文链接,便于开发者和研究人员获取和使用。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部