自然语言理解

首页

自然语言理解

列表

默认

浏览次数

发布日期

Gemini Live

Gemini Live

Gemini Live是一款由谷歌开发的智能语音助手，拥有自然语言理解和多模态识别能力，支持语音、图像和视频交互。其主要功能包括自然语言对话、多模态识别、个性化语音选择、任务自动化以及智能打断和续接。此外，Gemini Live还与谷歌的原生应用深度集成，提升用户体验。目标用户包括商务人士、技术探索者、多语言用户、创意人士和老年人。

AI项目与工具 2025年06月12日 13 点赞 0 评论 913 浏览

ACE

ACE

ACE是一款基于扩散Transformer架构的多模态图像生成与编辑工具，通过长上下文条件单元（LCU）和统一条件格式实现自然语言指令的理解与执行。它支持图像生成、编辑、多轮交互等多种任务，适用于艺术创作、媒体制作、广告设计、教育培训等多个领域，提供高效且灵活的视觉内容解决方案。

AI项目与工具 2025年06月12日 74 点赞 0 评论 577 浏览

Ultravox

Ultravox

Ultravox 是一种多模态大型语言模型（LLM），能够直接处理文本和语音输入，无需额外的语音识别步骤。其核心技术包括多模态投影器，用于将音频数据转换为高维空间表示，显著提升语音理解和处理效率。该模型支持实时语音对话、多语言扩展及领域特定知识的学习，适用于智能客服、虚拟助手、语言学习、实时翻译及教育等领域。

AI项目与工具 2025年06月12日 51 点赞 0 评论 849 浏览

CosyVoice 2.0

CosyVoice 2.0

CosyVoice 2.0是一款基于深度学习的语音生成大模型，通过有限标量量化技术和新型架构设计，在发音准确性、音色一致性和韵律表达方面表现出色。其支持流式推理，延迟低至150ms，广泛应用于智能助手、有声读物、视频配音及语言学习等领域，同时具备多语言支持和情感控制等功能。

AI项目与工具 2025年06月12日 10 点赞 0 评论 668 浏览

TrackVLA

TrackVLA

TrackVLA是银河通用推出的端到端导航大模型，具备纯视觉环境感知、语言指令驱动、自主推理和零样本泛化能力。它能在复杂环境中自主导航、灵活避障，并根据自然语言指令识别和跟踪目标对象。无需提前建图，适用于多种场景，如陪伴服务、安防巡逻、物流配送等，为具身智能商业化提供支撑，推动机器人走向日常生活。

AI项目与工具 2025年06月11日 79 点赞 0 评论 844 浏览

AudioBox

AudioBox

AudioBox

Audiobox 是 Meta 推出的 AI 语音和音效工具，结合语音输入和自然语言文字提示词生成语音和音效，例如输入提示词「一条流淌的河流和鸟儿在鸣叫」，Audiobox 自动生成音效。

Ai语音工具 2025年06月05日 77 点赞 0 评论 546 浏览

TechGPT-东北大学

TechGPT-东北大学

TechGPT是一个强大的垂直领域大语言模型，具备处理专业领域文本的能力，并在信息抽取、智能问答和序列生成等方面表现出色。

Ai平台模型 2026年06月28日 0 点赞 0 评论 930 浏览

思必驰 DFM-2 大模型

思必驰 DFM-2 大模型

思必驰 DFM-2 大模型作为思必驰的自研对话式语言大模型，展现了其在多模态交互和行业应用中的潜力。它通过结合先进的AI技术，为用户提供了更加智能化和个性化的体验，推动了智能语...

Ai平台模型 2026年06月28日 0 点赞 0 评论 688 浏览

报告说

报告说

报告说是一个AI报告助理，使用人话的方式与你交流，帮助你快速找到和阅读报告。你可以通过输入完整的问题来查询相关报告或数据，报告说将尽可能地为你提供答案。适用于需要查询各...

Ai办公效率 2026年06月28日 0 点赞 0 评论 660 浏览

TechGPT

TechGPT

TechGPT是一个强大的垂直领域大语言模型，具备处理专业领域文本的能力，并在信息抽取、智能问答和序列生成等方面表现出色。

Ai平台模型 2026年06月28日 0 点赞 0 评论 868 浏览

微信公众账号

微信扫一扫加关注