多模态

Veo 3

Veo 3是谷歌推出的新一代视频生成模型,在I/O开发者大会上发布。它是首个能生成视频背景音效的模型,可合成画面并匹配人物对话和口型,支持1080P高质量视频生成,具备物理模拟与口型同步能力,可生成超过60秒的视频片段,并支持多种视觉风格。Veo 3整合了多项先进技术,适用于影视制作、广告营销及教育领域。

II

II-Agent 是一个开源的 Agent 框架,通过与大型语言模型(LLM)交互,简化和提升跨领域的工作流程。其核心功能包括研究与事实核查、内容生成、数据分析与可视化、软件开发、工作流自动化及问题解决等。具备动态上下文提示、智能 token 管理、规划与反思能力、多模态处理以及实时通信等功能。支持 CLI 和 WebSocket 接口,适用于智能客服、金融投顾、医疗诊断和教育辅导等多种场景。

Science Navigator

Science Navigator是由北京科学智能研究院与深势科技联合打造的AI4S科研知识库与学术搜索平台,覆盖“读文献-做计算-做实验-多学科协同”的全流程科研需求。平台提供全维度科研知识库、个性化问题推荐、多模态搜索、批量文献问答、校内资源整合、数据存储管理及文献管理等功能,助力科研人员高效探索学术前沿。

Gemma 3n

Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型,基于 Gemini Nano 架构,采用逐层嵌入技术,将内存占用压缩至 2-4B 参数模型水平。支持文本、图像、短视频和音频输入,可生成结构化文本输出,并具备音频转录、情感分析等功能。可在本地设备运行,响应时间低至 50 毫秒,适用于语音助手、内容生成和学术任务定制。

BAGEL

BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,采用混合变换器专家架构(MoT),通过两个独立编码器捕捉图像的像素级和语义级特征。它能够进行图像与文本融合理解、视频内容理解、文本到图像生成、图像编辑与修改、视频帧预测、三维场景理解与操作、世界导航以及跨模态检索等任务。BAGEL在多模态理解基准测试中表现优异,生成质量接近SD3,并适用于内容创作、三维场景生成、可视化学习和创意广告生成等

Graphiti

Graphiti 是一个为动态环境设计的 AI 知识图谱生成框架,支持实时摄取和处理结构化与非结构化数据,具备时间感知能力、动态数据整合、混合检索、状态推理与自动化等功能。它适用于 AI 智能体记忆层、实时交互系统和企业知识管理等场景,提供强大的动态记忆和推理能力,助力实现更智能、高效的 AI 应用。

MedGemma

MedGemma是谷歌推出的开源AI模型,专注于医疗图像与文本分析。它包含4B参数的多模态模型和27B参数的纯文本模型。4B模型擅长解读医疗图像并生成诊断报告,27B模型则用于医疗文本理解与临床推理。支持本地运行或通过Google Cloud部署,适用于医疗诊断、患者分诊、临床决策辅助等场景,提升医疗服务效率与准确性。

MMaDA

MMaDA(Multimodal Large Diffusion Language Models)是由普林斯顿大学、清华大学、北京大学和字节跳动联合开发的多模态扩散模型,支持跨文本推理、多模态理解和文本到图像生成等多种功能。其采用统一的扩散架构和模态不可知设计,结合混合长链推理微调策略与UniGRPO强化学习算法,提升跨模态任务性能。MMaDA在多项任务中表现优异,适用于内容创作、教育辅助、智能客

Claude 4

Claude 4 是 Anthropic 公司推出的新一代 AI 模型,包括 Claude Opus 4 和 Claude Sonnet 4。Claude Opus 4 擅长复杂任务和长时间运行的工作流,如代码生成、优化和调试,具有强大的推理能力。Claude Sonnet 4 在编程和推理上表现优异,适合日常使用。两者均支持工具使用、记忆管理、多模态处理等功能,提升 AI Agent 的效率与实

Morphik

Morphik是一款开源的多模态检索增强生成(RAG)工具,专为处理高技术性和视觉内容丰富的文档设计。支持图像、PDF、视频等多种格式的文档搜索,采用ColPali技术理解文档中的视觉内容,具备快速元数据提取功能,可提取边界框、标签、分类等信息。其主要功能包括多模态数据处理、智能解析文件、知识图谱构建、自然语言规则引擎和数据管理与集成,适用于技术文档处理、企业知识管理和智能应用开发等场景。