多模态模型

QLIP

QLIP是一种基于二进制球形量化（BSQ）的视觉标记化方法，具备高质量图像重建和零样本图像理解能力。通过对比学习目标和两阶段训练策略，QLIP可作为视觉编码器或图像标记器，广泛应用于多模态任务，如文本到图像生成、图像到文本生成及多模态理解。其技术设计提升了模型的语义表达与训练效率，为统一多模态模型的开发提供了新思路。

AI项目与工具 2025年06月11日 18 点赞 0 评论 750 浏览

KuaiMod

KuaiMod 是快手开发的多模态大模型内容审核系统，能高效识别和过滤有害及低质量视频。它结合视觉语言模型（VLM）和链式推理（CoT）技术，支持动态策略更新和强化学习，提升审核准确性。系统在离线测试中准确率达92.4%，有效降低用户举报率，优化推荐体验，助力平台内容生态健康发展。

AI项目与工具 2025年06月11日 91 点赞 0 评论 605 浏览

混元图像2.0

混元图像2.0是腾讯开发的AI图像生成工具，支持文本、语音、草图等多种输入方式，具备实时生成能力。其采用单双流DiT架构和多模态大语言模型，生成图像写实性强、细节丰富，且响应速度快，适用于创意设计、广告营销、教育、游戏等多个领域。用户可通过网页端直接操作，实现高效的图像创作体验。

AI项目与工具 2025年06月11日 41 点赞 0 评论 487 浏览

Veo 3

Veo 3是谷歌推出的新一代视频生成模型，在I/O开发者大会上发布。它是首个能生成视频背景音效的模型，可合成画面并匹配人物对话和口型，支持1080P高质量视频生成，具备物理模拟与口型同步能力，可生成超过60秒的视频片段，并支持多种视觉风格。Veo 3整合了多项先进技术，适用于影视制作、广告营销及教育领域。

AI项目与工具 2025年06月11日 90 点赞 0 评论 753 浏览

Gemma 3n

Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型，基于 Gemini Nano 架构，采用逐层嵌入技术，将内存占用压缩至 2-4B 参数模型水平。支持文本、图像、短视频和音频输入，可生成结构化文本输出，并具备音频转录、情感分析等功能。可在本地设备运行，响应时间低至 50 毫秒，适用于语音助手、内容生成和学术任务定制。

AI项目与工具 2025年06月11日 87 点赞 0 评论 623 浏览

BAGEL是字节跳动开源的多模态基础模型，拥有140亿参数，采用混合变换器专家架构（MoT），通过两个独立编码器捕捉图像的像素级和语义级特征。它能够进行图像与文本融合理解、视频内容理解、文本到图像生成、图像编辑与修改、视频帧预测、三维场景理解与操作、世界导航以及跨模态检索等任务。BAGEL在多模态理解基准测试中表现优异，生成质量接近SD3，并适用于内容创作、三维场景生成、可视化学习和创意广告生成等

AI项目与工具 2025年06月11日 92 点赞 0 评论 431 浏览

MedGemma

MedGemma是谷歌推出的开源AI模型，专注于医疗图像与文本分析。它包含4B参数的多模态模型和27B参数的纯文本模型。4B模型擅长解读医疗图像并生成诊断报告，27B模型则用于医疗文本理解与临床推理。支持本地运行或通过Google Cloud部署，适用于医疗诊断、患者分诊、临床决策辅助等场景，提升医疗服务效率与准确性。

AI项目与工具 2025年06月11日 81 点赞 0 评论 482 浏览

MMaDA

MMaDA（Multimodal Large Diffusion Language Models）是由普林斯顿大学、清华大学、北京大学和字节跳动联合开发的多模态扩散模型，支持跨文本推理、多模态理解和文本到图像生成等多种功能。其采用统一的扩散架构和模态不可知设计，结合混合长链推理微调策略与UniGRPO强化学习算法，提升跨模态任务性能。MMaDA在多项任务中表现优异，适用于内容创作、教育辅助、智能客

AI项目与工具 2025年06月11日 80 点赞 0 评论 648 浏览

CAR

CAR（Certainty-based Adaptive Reasoning）是字节跳动联合复旦大学推出的自适应推理框架，旨在提升大型语言模型（LLM）和多模态大型语言模型（MLLM）的推理效率与准确性。该框架通过动态切换短答案和长形式推理，根据模型对答案的置信度（PPL）决定是否进行详细推理，从而在保证准确性的同时节省计算资源。CAR适用于视觉问答（VQA）、关键信息提取（KIE）等任务，在数学

AI项目与工具 2025年06月11日 73 点赞 0 评论 659 浏览

Ming

Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型，基于MoE架构，支持文本、图像、音频和视频等多种模态的输入输出，具备强大的理解和生成能力。模型在多个任务中表现优异，如图像识别、视频理解、语音问答等，适用于OCR识别、知识问答、视频分析等多个领域。其高效处理能力和多模态交互特性，为用户提供一体化智能体验。

AI项目与工具 2025年06月11日 79 点赞 0 评论 456 浏览

多模态模型

首页

多模态模型

列表

默认

浏览次数

发布日期