多模态 - 智狐AI导航

Qwen2vl

Qwen2VL-Flux 是一款基于多模态图像生成的模型，结合了 Qwen2VL 和 FLUX 技术。它支持多种生成模式，包括变体生成、图像到图像转换、智能修复和 ControlNet 引导生成，并具备深度估计和线条检测功能。该模型提供灵活的注意力机制和高分辨率输出，适用于艺术创作、内容营销、游戏开发等多个领域。

AI项目与工具 2025年06月12日 99 点赞 0 评论 523 浏览

腾讯混元

腾讯混元大模型是由腾讯研发的大语言模型，具备跨领域知识和自然语言理解能力，实现基于人机自然语言对话的方式，理解用户指令并执行任务，帮助用户实现人获取信息，知识和灵感。

Ai平台模型 1970年01月01日 0 点赞 0 评论 523 浏览

SmolDocling

SmolDocling-256M-preview 是一款轻量级多模态文档处理模型，能将图像文档高效转换为结构化文本，支持文本、公式、图表等多种元素识别。模型参数量仅256M，推理速度快，适合学术与技术文档处理。具备OCR、布局识别、格式导出等功能，并兼容Docling，适用于文档数字化、科学研究及移动环境应用。

AI项目与工具 2025年03月22日 98 点赞 0 评论 523 浏览

元镜

元镜是一款基于人机共生引擎的AI视频创作工具，支持从创意脚本生成到成片输出的全流程制作。具备多模态分镜设计、智能工作流和一键成片功能，提升视频创作效率与质量。适用于短视频、广告、教育、影视及政务宣传等多个领域，满足多样化内容生产需求。

AI项目与工具 2025年06月12日 39 点赞 0 评论 524 浏览

生数

生数以其创新的多模态大模型和深度生成式算法研究，为艺术设计、游戏制作、影视后期和内容社交等领域提供了强大的技术支持和解决方案。

创作工具 1970年01月01日 0 点赞 0 评论 524 浏览

GO

GO-1是智元机器人推出的首个通用具身基座模型，采用ViLLA架构，结合多模态大模型与混合专家系统，具备场景感知、动作理解和精细执行能力。支持小样本快速泛化、跨本体部署与持续进化，广泛应用于零售、制造、家庭及科研等领域，推动具身智能技术发展。

AI项目与工具 2025年06月12日 74 点赞 0 评论 524 浏览

Steamer

Steamer-I2V 是百度 Steamer 团队推出的图像到视频生成模型，能够将静态图像转化为动态视频，具备卓越的视觉生成能力。该模型基于 Transformer 扩散架构，支持多模态输入，包括中文文本提示和参考图像，实现像素级的画面控制与电影级构图效果。在 VBench 评测中荣获榜首，生成高清 1080P 视频，优化时间一致性与运动规律性，适用于广告、影视、游戏开发和内容创作等多个领域。

AI项目与工具 2025年06月11日 95 点赞 0 评论 524 浏览

VersaGen

VersaGen是一款基于生成式AI的文本到图像合成工具，支持多样化视觉控制和灵活的创意表达。通过适配器训练和优化策略，VersaGen将视觉信息融入生成过程中，显著提升了图像质量和用户体验。该工具适用于创意设计、数字艺术、广告营销、游戏开发及影视制作等多个领域，为用户提供了高效且直观的视觉创作解决方案。

AI项目与工具 2025年06月12日 19 点赞 0 评论 524 浏览

书生·筑梦2.0（Vchitect 2.0）

书生·筑梦2.0是一款由上海人工智能实验室开发的开源视频生成大模型，支持文本到视频和图像到视频的转换，生成高质量的2K分辨率视频内容。它具备灵活的宽高比选择、强大的超分辨率处理能力以及创新的视频评测框架，适用于广告、教育、影视等多个领域。

AI项目与工具 2025年06月12日 32 点赞 0 评论 525 浏览

LangBot

LangBot 是一款开源的多平台即时通讯机器人，支持多种主流通信工具及大语言模型。具备多模态交互、多轮对话、插件扩展和安全管理等功能，适用于企业客服、个人助理、社区管理、教育辅导和内容创作等场景，提供灵活、安全的自动化服务。

AI项目与工具 2025年06月12日 18 点赞 0 评论 525 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期