多模态 - 智狐AI导航

谷觅AI

支持AI文章自动生成，谷觅AI提供自动写作和批量创作能力，AI写作生成器系统工具。

AI写作对话 2025年06月05日 87 点赞 0 评论 725 浏览

纳米搜索

纳米搜索是一款由360集团开发的多功能AI搜索引擎，支持文字、语音、拍照和视频等多种搜索方式，涵盖从简单到复杂的全方位解答方案。它整合了16款顶尖大模型能力，配备了智能工具，如写作、翻译和旅游规划助手，旨在提升多场景下的操作效率。此外，其独特的AI脱口秀功能，能将搜索结果转化为视频内容，为用户提供更直观的知识获取体验。

AI项目与工具 2025年06月12日 13 点赞 0 评论 724 浏览

LobeChat

LobeChat 是一款开源的 AI 聊天框架，支持多供应商集成，提供知识库管理、多模态交互（视觉识别和文本转语音）、插件扩展等功能。用户可通过一键部署创建私有 AI 聊天服务，并支持文件上传与管理。其应用场景广泛，包括客户服务、个人助理、教育、企业沟通、内容创作和语言学习等领域。

AI项目与工具 2025年06月12日 69 点赞 0 评论 723 浏览

LLaVA

LLaVA-OneVision是字节跳动开发的开源多模态AI模型，主要功能包括多模态理解、任务迁移、跨场景能力、开源贡献及高性能。该模型采用多模态架构，集成了视觉和语言信息，通过Siglip视觉编码器和Qwen-2语言模型，实现高效特征映射和任务迁移学习。广泛应用于图像和视频分析、内容创作辅助、聊天机器人、教育和培训以及安全监控等领域。

AI项目与工具 2025年06月12日 34 点赞 0 评论 723 浏览

VoiceCanvas

VoiceCanvas 是一款开源的多语言语音合成平台，基于 AI 技术提供高质量文字转语音服务，支持超过 50 种语言。用户可通过上传简短音频实现个性化声音克隆，并集成多种语音服务以保障输出质量。平台适用于内容创作、教育、企业及个人等多种场景，提升语音内容制作效率。

AI项目与工具 2025年06月11日 96 点赞 0 评论 723 浏览

LAM

LAM是由微软开发的大型行动模型，能够理解和执行真实世界中的操作任务。它不仅能解析用户输入，还能生成具体行动指令，如启动程序或控制设备。LAM在Office等Windows应用中表现出色，任务完成率高于GPT-4。具备多模态输入理解、动态规划、环境交互和自主执行能力，适用于办公自动化、智能家居、客户服务等多个场景，显著提升任务执行效率和智能化水平。

AI项目与工具 2025年06月12日 26 点赞 0 评论 722 浏览

CogView

CogView-3-Plus是智谱AI研发的AI文生图模型，采用Transformer架构替代传统的UNet，优化了扩散模型中的噪声规划。它能够根据用户指令生成高质量、高美学评分的图像，支持多种分辨率，并具有实时生成图像的能力。该模型已被集成到“智谱清言”APP中，并提供API服务，适用于艺术创作、游戏设计、广告制作等多个图像生成领域。

AI项目与工具 2025年06月12日 64 点赞 0 评论 722 浏览

日日新融合大模型

日日新融合大模型（SenseNova）是商汤科技推出的多模态AI系统，支持文本、图像、视频等多种数据的融合处理，具备强大的深度推理与多模态分析能力。该模型在多个权威评测中表现优异，广泛应用于自动驾驶、视频交互、办公教育、金融、园区管理及工业制造等领域，提升了多场景下的智能化水平。

AI项目与工具 2025年06月12日 88 点赞 0 评论 721 浏览

HealthGPT

HealthGPT是由多家高校与企业联合开发的医学视觉语言模型，支持医学图像分析、视觉问答、文本生成及多模态融合等任务。其核心技术包括异构低秩适应（H-LoRA）、分层视觉感知（HVP）和三阶段学习策略（TLS），可高效处理复杂医疗数据。模型适用于医学诊断、教育、研究及健康管理等多个场景，具有良好的适应性和实用性。

AI项目与工具 2025年06月12日 80 点赞 0 评论 721 浏览

书生通用大模型

上海人工智能实验室发布的大型预训练模型。

Ai平台模型 2025年06月05日 68 点赞 0 评论 721 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期