多模态 - 智狐AI导航

ChatDZQ爱晚亭

基于大语言模型开发，提供“智能+个性微调+向量训练”（即CVP）服务，集成AI聊天、AI创作、AI绘画、AI海报及各种AI工具。

AI服务商 2025年06月05日 10 点赞 0 评论 731 浏览

豆包1.5·UI

豆包1.5·UI-TARS是字节跳动推出的一款面向图形用户界面（GUI）的智能代理模型，具备视觉理解、逻辑推理和操作执行能力。它无需预定义规则，即可实现端到端的GUI任务自动化，适用于办公、测试、客服及机器人交互等多个场景。模型基于多模态融合与端到端学习技术，支持高效的界面交互与精准的视觉定位。

AI项目与工具 2025年06月11日 31 点赞 0 评论 731 浏览

RMBG

RMBG-2.0是一款基于先进AI技术的开源图像背景移除模型，通过深度学习和多模态数据处理实现了高达90.14%的准确率。该模型在高分辨率图像上经过大量训练，支持电子商务、广告、游戏开发等领域，具备高精度背景移除、多模态数据处理及云服务器无关架构等特点，为用户提供了高效、灵活的解决方案。

AI项目与工具 2025年06月12日 91 点赞 0 评论 726 浏览

Neural4D 2o

Neural4D 2o 是一款基于多模态数据训练的 3D 大模型，支持文本、图像、3D 和运动数据输入，实现高精度的 3D 内容生成与编辑。具备上下文一致性、角色身份保持、换装和风格迁移等功能，支持自然语言指令操作。采用 Transformer 编码器与 3D DiT 解码器架构，原生兼容 MCP 协议，提升创作效率与交互体验，适用于 3D 内容创作、游戏开发、影视动画等多个领域。

AI项目与工具 2025年06月11日 50 点赞 0 评论 726 浏览

小红书点点

一款主打生活场景的AI聚合搜索工具，生活搜索助手，小红书点点只要为用户提供便捷的生活服务和信息查询。

AI搜索问答 2025年06月05日 72 点赞 0 评论 725 浏览

Seaweed

Seaweed-7B 是一款由字节跳动开发的视频生成模型，拥有约 70 亿参数，支持从文本、图像或音频生成高质量视频。具备文本到视频、图像到视频、音频驱动生成、长镜头、连贯叙事、实时生成等功能，适用于内容创作、教育、广告等多个领域。采用变分自编码器和扩散变换器技术，结合多阶段训练与优化策略，提升生成效率与质量，兼顾性能与成本效益。

AI项目与工具 2025年06月11日 80 点赞 0 评论 725 浏览

VACE

VACE是由阿里巴巴通义实验室推出的视频生成与编辑框架，支持文本到视频、参考生成、视频扩展、遮罩编辑等多种任务。其核心是Video Condition Unit（VCU），可整合多模态输入，实现任务灵活组合。支持480P和720P分辨率，适用于创意视频制作、视频修复、风格转换及互动创作等场景，具备高灵活性和广泛的应用潜力。

AI项目与工具 2025年06月12日 33 点赞 0 评论 724 浏览

moonshot

moonshot-v1-vision-preview 是一款由月之暗面开发的多模态图像理解模型，具备精准的图像识别、OCR 文字识别和数据解析能力。支持 API 集成，适用于内容审核、文档处理、医学分析、智能交互等多个领域。模型可识别复杂图像细节、分析图表数据，并从美学角度进行图像评价，适合需要高效图像处理和智能交互的应用场景。

AI项目与工具 2025年06月12日 52 点赞 0 评论 724 浏览

Awesome GPT

一个精选的GPT-4o生成图片集锦，收集了OpenAI 最新多模态模型 GPT‑4o 生成的精彩案例，展示其强大的文本‑图像理解与创作能力。

Ai学习资源 2025年06月05日 92 点赞 0 评论 723 浏览

Gemini 2.5 Pro (I/O 版)

Gemini 2.5 Pro (I/O 版) 是 Google 推出的多模态 AI 模型，具备强大的编程能力和多模态内容生成功能。它能基于提示词或手绘草图快速生成交互式 Web 应用、游戏及模拟程序，并支持代码生成、编辑与优化。该模型在多个基准测试中表现优异，适用于 Web 开发、游戏制作、教育工具构建及企业级应用开发等领域。最新版本进一步提升了性能与灵活性。

AI项目与工具 2025年06月11日 75 点赞 0 评论 721 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期