多模态 - 智狐AI导航

Veo 3

Veo 3是谷歌推出的新一代视频生成模型，在I/O开发者大会上发布。它是首个能生成视频背景音效的模型，可合成画面并匹配人物对话和口型，支持1080P高质量视频生成，具备物理模拟与口型同步能力，可生成超过60秒的视频片段，并支持多种视觉风格。Veo 3整合了多项先进技术，适用于影视制作、广告营销及教育领域。

AI项目与工具 2025年06月11日 90 点赞 0 评论 753 浏览

II

II-Agent 是一个开源的 Agent 框架，通过与大型语言模型（LLM）交互，简化和提升跨领域的工作流程。其核心功能包括研究与事实核查、内容生成、数据分析与可视化、软件开发、工作流自动化及问题解决等。具备动态上下文提示、智能 token 管理、规划与反思能力、多模态处理以及实时通信等功能。支持 CLI 和 WebSocket 接口，适用于智能客服、金融投顾、医疗诊断和教育辅导等多种场景。

AI项目与工具 2025年06月11日 67 点赞 0 评论 464 浏览

Science Navigator

Science Navigator是由北京科学智能研究院与深势科技联合打造的AI4S科研知识库与学术搜索平台，覆盖“读文献-做计算-做实验-多学科协同”的全流程科研需求。平台提供全维度科研知识库、个性化问题推荐、多模态搜索、批量文献问答、校内资源整合、数据存储管理及文献管理等功能，助力科研人员高效探索学术前沿。

AI项目与工具 2025年06月11日 64 点赞 0 评论 794 浏览

Gemma 3n

Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型，基于 Gemini Nano 架构，采用逐层嵌入技术，将内存占用压缩至 2-4B 参数模型水平。支持文本、图像、短视频和音频输入，可生成结构化文本输出，并具备音频转录、情感分析等功能。可在本地设备运行，响应时间低至 50 毫秒，适用于语音助手、内容生成和学术任务定制。

AI项目与工具 2025年06月11日 87 点赞 0 评论 623 浏览

BAGEL是字节跳动开源的多模态基础模型，拥有140亿参数，采用混合变换器专家架构（MoT），通过两个独立编码器捕捉图像的像素级和语义级特征。它能够进行图像与文本融合理解、视频内容理解、文本到图像生成、图像编辑与修改、视频帧预测、三维场景理解与操作、世界导航以及跨模态检索等任务。BAGEL在多模态理解基准测试中表现优异，生成质量接近SD3，并适用于内容创作、三维场景生成、可视化学习和创意广告生成等

AI项目与工具 2025年06月11日 92 点赞 0 评论 431 浏览

Graphiti

Graphiti 是一个为动态环境设计的 AI 知识图谱生成框架，支持实时摄取和处理结构化与非结构化数据，具备时间感知能力、动态数据整合、混合检索、状态推理与自动化等功能。它适用于 AI 智能体记忆层、实时交互系统和企业知识管理等场景，提供强大的动态记忆和推理能力，助力实现更智能、高效的 AI 应用。

AI项目与工具 2025年06月11日 99 点赞 0 评论 530 浏览

MedGemma

MedGemma是谷歌推出的开源AI模型，专注于医疗图像与文本分析。它包含4B参数的多模态模型和27B参数的纯文本模型。4B模型擅长解读医疗图像并生成诊断报告，27B模型则用于医疗文本理解与临床推理。支持本地运行或通过Google Cloud部署，适用于医疗诊断、患者分诊、临床决策辅助等场景，提升医疗服务效率与准确性。

AI项目与工具 2025年06月11日 81 点赞 0 评论 482 浏览

MMaDA

MMaDA（Multimodal Large Diffusion Language Models）是由普林斯顿大学、清华大学、北京大学和字节跳动联合开发的多模态扩散模型，支持跨文本推理、多模态理解和文本到图像生成等多种功能。其采用统一的扩散架构和模态不可知设计，结合混合长链推理微调策略与UniGRPO强化学习算法，提升跨模态任务性能。MMaDA在多项任务中表现优异，适用于内容创作、教育辅助、智能客

AI项目与工具 2025年06月11日 80 点赞 0 评论 648 浏览

Claude 4

Claude 4 是 Anthropic 公司推出的新一代 AI 模型，包括 Claude Opus 4 和 Claude Sonnet 4。Claude Opus 4 擅长复杂任务和长时间运行的工作流，如代码生成、优化和调试，具有强大的推理能力。Claude Sonnet 4 在编程和推理上表现优异，适合日常使用。两者均支持工具使用、记忆管理、多模态处理等功能，提升 AI Agent 的效率与实

AI项目与工具 2025年06月11日 36 点赞 0 评论 680 浏览

Morphik

Morphik是一款开源的多模态检索增强生成（RAG）工具，专为处理高技术性和视觉内容丰富的文档设计。支持图像、PDF、视频等多种格式的文档搜索，采用ColPali技术理解文档中的视觉内容，具备快速元数据提取功能，可提取边界框、标签、分类等信息。其主要功能包括多模态数据处理、智能解析文件、知识图谱构建、自然语言规则引擎和数据管理与集成，适用于技术文档处理、企业知识管理和智能应用开发等场景。

AI项目与工具 2025年06月11日 27 点赞 0 评论 565 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期