多模态 - 智狐AI导航

3D

3D-Speaker是一个多模态开源项目，专注于通过结合声学、语义和视觉信息，实现高精度的说话人识别和语种识别。其主要功能包括说话人日志、说话人识别、语种识别、多模态识别以及重叠说话人检测。项目提供了工业级模型、训练与推理代码，以及多样化数据集，并支持复杂环境下的语音处理任务。应用场景涵盖会议记录、法庭记录、广播制作、电话客服和安全监控等领域。

AI项目与工具 2025年06月12日 29 点赞 0 评论 400 浏览

星辰大模型

星辰大模型是中国电信研发的AI工具集，涵盖语义、视觉、语音等多模态领域，支持长文本处理、多语种语音识别和多任务视觉处理。平台提供多种模型选择，包括星辰语义模型、星辰语音大模型及星辰多模态大模型，适用于智能客服、内容审核、智能写作、语音识别与合成、图像识别与分析等多种应用场景。

AI项目与工具 2025年06月12日 86 点赞 0 评论 399 浏览

商汤日日新 | SenseNova

商汤日日新垂直领域场景落地应用丰富。

Ai平台模型 2025年06月05日 20 点赞 0 评论 399 浏览

Dream

Dream-7B是由香港大学与华为诺亚方舟实验室联合开发的开源扩散模型，支持文本、数学和代码生成，具备双向上下文建模能力和灵活的生成控制。其在通用任务、数学推理和编程方面表现优异，适用于文本创作、数学求解、编程辅助及复杂任务规划等多种场景，提供高效且高质量的生成服务。

AI项目与工具 2025年06月12日 26 点赞 0 评论 398 浏览

SleepFM

SleepFM是一款由斯坦福大学开发的开源多模态睡眠分析模型，利用脑电图（EEG）、心电图（ECG）和呼吸信号等数据，实现睡眠阶段分类、睡眠呼吸障碍检测及人口统计属性预测等功能。它通过对比学习技术和自监督预训练方法提升分析精度，并支持临床诊断、药物开发、健康管理等多个应用场景，为睡眠医学研究提供重要工具。

AI项目与工具 2025年06月12日 50 点赞 0 评论 398 浏览

LLMDet

LLMDet是一款基于大型语言模型协同训练的开放词汇目标检测器，能够识别训练阶段未见过的目标类别。其通过结合图像和文本信息，实现高精度的零样本检测，并支持图像描述生成与多模态任务优化，适用于多种实际应用场景。

AI项目与工具 2025年06月12日 68 点赞 0 评论 397 浏览

Graphiti

Graphiti 是一个为动态环境设计的 AI 知识图谱生成框架，支持实时摄取和处理结构化与非结构化数据，具备时间感知能力、动态数据整合、混合检索、状态推理与自动化等功能。它适用于 AI 智能体记忆层、实时交互系统和企业知识管理等场景，提供强大的动态记忆和推理能力，助力实现更智能、高效的 AI 应用。

AI项目与工具 2025年06月11日 99 点赞 0 评论 397 浏览

MILS

MILS是由Meta AI开发的一种无需额外训练即可为大型语言模型（LLM）提供多模态能力的框架。它通过多步推理、评分反馈和迭代优化，实现图像、视频、音频等多模态内容的生成与理解。MILS支持零样本描述生成、风格迁移、跨模态推理等任务，适用于内容生成、多模态检索、视觉问答等多个场景，具备高效、灵活和无需训练的优势。

AI项目与工具 2025年06月12日 31 点赞 0 评论 397 浏览

Samsung Gauss2

Samsung Gauss2是一款由三星推出的第二代多模态生成式AI模型，具备处理文本、代码和图像等多类型数据的能力。它通过引入知识图谱技术和专家混合技术，实现了个性化服务和高效的任务执行。此外，该模型还支持多种语言及编程语言，并能在无网络环境下独立运行，广泛适用于智能手机、平板电脑、笔记本电脑以及企业级应用场景。

AI项目与工具 2025年06月12日 17 点赞 0 评论 396 浏览

VARGPT

VARGPT是一款多模态大语言模型，整合了视觉理解和生成任务于统一的自回归框架中。它通过next-token和next-scale预测机制，支持文本与图像的混合输入和输出，具备高效的视觉生成能力。模型采用三阶段训练策略，提升了在视觉问答、推理及图像生成任务中的表现。适用于多模态内容创作、指令到图像合成等场景。

AI项目与工具 2025年06月12日 17 点赞 0 评论 394 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期

3D