多模态

SmolDocling

SmolDocling-256M-preview 是一款轻量级多模态文档处理模型,能将图像文档高效转换为结构化文本,支持文本、公式、图表等多种元素识别。模型参数量仅256M,推理速度快,适合学术与技术文档处理。具备OCR、布局识别、格式导出等功能,并兼容Docling,适用于文档数字化、科学研究及移动环境应用。

A2A

A2A是谷歌推出的首个智能体交互协议,旨在实现不同框架和供应商构建的AI智能体之间的高效协作。它支持多模态交互、长期任务管理和实时反馈,基于HTTP、JSON-RPC等标准设计,便于与现有系统集成。A2A具备安全性、可扩展性和用户体验协商能力,适用于企业流程自动化、跨平台客服、招聘优化、供应链协同和智能办公等多个场景。

Genesis

Genesis是一款基于开源架构的生成式物理引擎,具备高度准确的物理模拟能力,涵盖物体运动、流体力学、碰撞检测等领域。其显著特点包括超高速模拟、轻量级机器人仿真平台、照片级真实感渲染以及支持自然语言输入的数据生成功能。Genesis旨在推动通用机器人、具身AI及物理AI的发展,适用于机器人训练、游戏开发、影视特效制作等多个领域。

Open WebUI

一个可扩展、功能丰富且用户友好的自托管 WebUI,适用于各种 LLM 运行器,支持的 LLM 运行器包括 Ollama 和 OpenAI 兼容的 API。

元镜

元镜是一款基于人机共生引擎的AI视频创作工具,支持从创意脚本生成到成片输出的全流程制作。具备多模态分镜设计、智能工作流和一键成片功能,提升视频创作效率与质量。适用于短视频、广告、教育、影视及政务宣传等多个领域,满足多样化内容生产需求。

mPLUG

mPLUG-Owl3是一款由阿里巴巴开发的多模态AI模型,专注于理解和处理多图及长视频内容。该模型具备高推理效率和准确性,采用创新的Hyper Attention模块优化视觉与语言信息的融合。它已在多个基准测试中展现出卓越性能,并且其源代码和资源已公开,可供研究和应用。

Steamer

Steamer-I2V 是百度 Steamer 团队推出的图像到视频生成模型,能够将静态图像转化为动态视频,具备卓越的视觉生成能力。该模型基于 Transformer 扩散架构,支持多模态输入,包括中文文本提示和参考图像,实现像素级的画面控制与电影级构图效果。在 VBench 评测中荣获榜首,生成高清 1080P 视频,优化时间一致性与运动规律性,适用于广告、影视、游戏开发和内容创作等多个领域。

StarVector

StarVector 是一个开源多模态视觉语言模型,支持图像和文本到可编辑 SVG 文件的转换。采用多模态架构,结合图像编码与语言模型,生成结构紧凑、语义丰富的 SVG 内容。基于 SVG-Stack 数据集训练,适用于图标设计、艺术创作、数据可视化等多种场景,具备良好的性能和扩展性。

FlexIP

FlexIP 是腾讯推出的图像合成框架,支持在保持主体身份的同时进行个性化编辑。其双适配器架构分离身份保持与编辑功能,结合动态权重门控机制实现灵活控制,并通过多模态数据训练提升生成质量与稳定性,适用于艺术创作、广告设计、影视制作等多个领域。

Show

Show-o 是一款基于统一 Transformer 架构的多模态 AI 工具,集成了自回归和离散扩散建模技术,可高效处理视觉问答、文本到图像生成、图像修复与扩展以及混合模态生成等多种任务。其创新性技术显著提高了生成效率,减少了采样步骤,适用于社交媒体内容创作、虚拟助手、教育与培训、广告营销、游戏开发及影视制作等多个领域。