端到端 - 智狐AI导航

MooER

MooER是一款基于国产全功能GPU训练的开源音频理解大模型，由摩尔线程推出。它能够进行中文和英文的语音识别，并具备中译英的语音翻译能力。MooER在Covost2中译英测试集中取得25.2的BLEU分数，接近工业级标准。其主要功能包括语音识别、语音翻译、高效率训练以及开源模型。该模型采用深度学习架构和端到端训练模式，具有强大的多语言处理能力和广泛的适用性。

AI项目与工具 2025年06月12日 41 点赞 0 评论 962 浏览

Lingo

Lingo是一款由西湖心辰开发的国内首个端到端语音大模型，具备实时交互、语音理解、多风格语音表达、情绪价值等功能。Lingo在人机对话的自然流畅度和情绪感知方面表现出色，适用于智能家居、客户服务、教育、医疗等多个领域。其核心技术包括端到端设计、深度学习算法和自然语言处理，旨在提供高质量的语音交互体验。

AI项目与工具 2025年06月12日 22 点赞 0 评论 961 浏览

PGTFormer是一款先进的视频人脸修复框架，通过解析引导的时间一致性变换器恢复视频中的高保真细节，同时增强时间连贯性。该方法无需预对齐，通过语义解析选择最佳人脸先验，并结合时空Transformer模块和时序保真度调节器，实现了高效且自然的修复效果。其主要功能包括盲视频人脸修复、语义解析引导、时间一致性增强、时空特征提取、端到端修复和时序保真度调节。PGTFormer适用于电影和视频制作、视频

AI项目与工具 2025年06月12日 90 点赞 0 评论 867 浏览

Mini

Mini-Omni 是一个开源的端到端语音对话模型，具备实时语音输入和输出的能力，能在对话中实现“边思考边说话”的功能。模型设计无需额外的自动语音识别（ASR）或文本到语音（TTS）系统，直接进行语音到语音的对话。Mini-Omni 采用文本指导的语音生成方法，通过批量并行策略提高性能，同时保持了原始模型的语言能力。它支持实时语音交互、文本和语音并行生成、跨模态理解等功能，适用于智能助手、客户服务

AI项目与工具 2025年06月12日 93 点赞 0 评论 966 浏览

Westlake

Westlake-Omni是西湖心辰推出的一款开源中文情感端到端语音交互大模型，融合了语音识别、自然语言处理、情感理解和对话管理等功能，具备实时性和端到端交互特性。它通过深度学习技术和离散表示法，实现从语音输入到语音输出的全流程自动化，生成自然流畅的语音回应，并广泛应用于智能助手、客户服务、教育辅助、健康医疗等领域。

AI项目与工具 2025年06月12日 91 点赞 0 评论 712 浏览

Pyramid

Pyramid-Flow是一款基于文本生成高清视频的AI工具，利用创新的金字塔流匹配算法，支持从低分辨率到高分辨率的逐步生成过程，可生成长达10秒、分辨率达1280×768的视频内容。该模型具备端到端优化能力，支持连续帧生成，确保视频内容的连贯性和高质量。

AI项目与工具 2025年06月12日 93 点赞 0 评论 531 浏览

MarDini

MarDini是一款融合掩码自回归（MAR）和扩散模型（DM）的先进视频生成工具，支持视频插值、图像到视频生成、视频扩展等多种任务。它通过优化计算资源分配，提高了视频生成的效率与灵活性，并具备从无标签数据中进行端到端训练的能力，展现出强大的可扩展性与效率。

AI项目与工具 2025年06月12日 44 点赞 0 评论 729 浏览

EMMA

EMMA是一款基于Gemini模型的端到端自动驾驶多模态模型，可直接从原始相机传感器数据生成驾驶轨迹并执行多种任务，如3D对象检测、道路图元素识别及场景理解。该模型利用自然语言处理技术实现跨任务协作，并展现出强大的泛化能力，但在某些方面仍需改进。

AI项目与工具 2025年06月12日 38 点赞 0 评论 630 浏览

Fish Agent

Fish Agent是一款集成了自动语音识别（ASR）与文本到语音（TTS）技术的端到端语音处理工具，能够直接实现语音到语音的转换，无需传统语义编码器/解码器。它支持多种语言，适用于语音转换、环境音频信息捕捉等场景，并基于深度学习技术优化了语音处理性能。Fish Agent可广泛应用于内容创作、教育、客户服务及娱乐等领域。

AI项目与工具 2025年06月12日 17 点赞 0 评论 817 浏览

OmniVision

OmniVision是一款面向边缘设备的紧凑型多模态AI模型，参数量为968M。它基于LLaVA架构优化，能够处理视觉与文本输入，显著降低计算延迟和成本。OmniVision支持视觉问答、图像描述等功能，广泛应用于内容审核、智能助手、视觉搜索等领域。

AI项目与工具 2025年06月12日 37 点赞 0 评论 896 浏览

端到端

首页

端到端

列表

默认

浏览次数

发布日期