多模态 - 智狐AI导航

YAYI

YAYI-Ultra是中科闻歌研发的企业级大语言模型，具备多领域专业能力与多模态内容生成能力，支持数学、代码、金融、中医等领域。模型支持超长文本处理、数据分析、任务规划及联网创作，适用于媒体、医疗、财税等行业。采用混合专家架构，结合指令微调技术，在多项评测中表现优异，提供高效、精准的智能化服务。

AI项目与工具 2025年06月12日 25 点赞 0 评论 730 浏览

TITAN

TITAN是一款由哈佛医学院研究团队开发的多模态全切片病理基础模型，通过视觉自监督学习和视觉-语言对齐预训练，能够在无需微调或临床标签的情况下提取通用切片表示并生成病理报告。它在多种临床任务中表现出色，包括线性探测、少样本和零样本分类、罕见癌症检索、跨模态检索和病理报告生成，尤其适用于资源有限的临床场景。

AI项目与工具 2025年06月12日 93 点赞 0 评论 731 浏览

UI

UI-TARS是由字节跳动开发的图形用户界面代理模型，支持通过自然语言实现桌面、移动端和网页的自动化交互。具备多模态感知、跨平台操作、视觉识别、任务规划与记忆管理等功能，适用于自动化任务执行和复杂交互场景。支持云端与本地部署，提供丰富的开发接口，便于集成与扩展。

AI项目与工具 2025年06月12日 33 点赞 0 评论 732 浏览

OminiControl

OminiControl是一款高效且参数节约的图像生成框架，专为扩散变换器模型设计，支持主题驱动和空间控制。通过增加少量参数，它能够生成高质量图像并保持主题一致性，适用于多种应用场景，包括艺术创作、游戏开发和广告设计等。其强大的多模态注意力机制和灵活的架构使其成为图像生成领域的创新工具。

AI项目与工具 2025年06月12日 94 点赞 0 评论 733 浏览

飞猪AI问一问

飞猪AI问一问是一款基于多智能体协作的AI旅行助手，可快速生成包含机票、酒店、景点路线的完整旅行方案，并支持预算调节和实时信息同步。用户可通过文字、语音或方言交互，系统根据实时位置推荐周边服务，适合多种旅行场景，提供个性化、便捷的旅行规划体验。

AI项目与工具 2025年04月23日 79 点赞 0 评论 733 浏览

天谱乐

天谱乐是一款由趣丸科技推出的支持多模态输入的音乐生成工具，涵盖文本、图片及视频生成音乐功能。它能够准确理解音乐复杂特性并生成高契合度配乐，同时提供专家模式和音乐编辑功能，适用于音乐创作、短视频配乐、影视配乐及个人娱乐等多个领域。

AI项目与工具 2025年06月12日 95 点赞 0 评论 734 浏览

MinMo

MinMo是阿里巴巴通义实验室推出的多模态语音交互大模型，具备高精度语音识别与生成能力。支持情感表达、方言转换、音色模仿及全双工交互，适用于智能客服、教育、医疗等多个领域，提升人机对话的自然度与效率。

AI项目与工具 2025年06月12日 59 点赞 0 评论 734 浏览

MiniMax MCP Server

MiniMax MCP Server 是一款基于 MCP 协议的多模态生成服务器，支持视频、图像、语音及声音克隆等功能。其具备高分辨率输出、自然语音生成与声音克隆能力，兼容多种主流客户端。平台采用客户端-服务器架构，结合 RAG 技术提升响应准确性，适用于教学、游戏开发、内容创作等多个领域。

AI项目与工具 2025年06月11日 14 点赞 0 评论 735 浏览

OThink

OThink-MR1是由OPPO研究院与香港科技大学（广州）联合研发的多模态语言模型优化框架，基于动态KL散度策略（GRPO-D）和奖励模型，提升模型在视觉计数、几何推理等任务中的泛化与推理能力。其具备跨任务迁移能力和动态平衡探索与利用机制，适用于智能视觉问答、图像描述生成、内容审核等多个领域，具有广阔的应用前景。

AI项目与工具 2025年06月12日 21 点赞 0 评论 738 浏览

Agentic Object Detection

Agentic Object Detection是由吴恩达团队研发的新型目标检测技术，通过智能代理系统实现无需标注数据的目标识别。用户输入文字提示后，AI可精准定位图像中的目标及其属性，支持内在属性、上下文关系及动态状态的识别。该技术无需复杂训练流程，适用于装配验证、作物检测、医疗影像分析、危险物品识别和商品管理等多种场景，显著提升了检测效率和准确性。

AI项目与工具 2025年06月12日 18 点赞 0 评论 739 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期