语音 - 智狐AI导航

文小言电脑版

文小言电脑版是一款功能全面的桌面级智能助手，通过自然语言处理技术为用户提供文档解析、智能搜索、写作辅助等功能。它支持多格式文件的一键解析，提供个性化推荐和跨平台同步，能够有效提升办公、学习和生活的效率，适用于撰写报告、制作PPT、备考复习等多种场景。

AI项目与工具 2025年06月12日 30 点赞 0 评论 789 浏览

新壹视频大模型

新壹视频大模型是一款AI驱动的视频创作平台，具备自动生成剧本、情感化语音合成、3D元素生成和高清视频输出等功能。该平台通过集成自主研发的AI算法和深度学习技术，简化了视频创作流程，提高了制作效率，降低了成本，同时提升了视频的整体质量和用户体验。其应用场景广泛，涵盖教育、医疗、文化旅游、金融管理和广电传媒等多个领域。

AI项目与工具 2025年06月12日 69 点赞 0 评论 788 浏览

MiniMax 大语言模型

它基于海量中文数据训练而成，拥有超过1000亿个参数，能够处理上百TB的文本数据。

创作工具 2026年06月10日 0 点赞 0 评论 788 浏览

Granola

Granola是一款AI驱动的会议助手工具，支持实时转录、发言者识别、笔记记录和重点标记，自动生成会议总结并支持任务管理。它可与主流会议平台集成，根据会议类型智能调整笔记模板，具备高精度语音识别能力，适用于多种会议场景，帮助用户提升会议效率与信息整理能力。

AI项目与工具 2025年06月12日 69 点赞 0 评论 788 浏览

NewsBang

NewsBang是一款基于AI技术的新闻应用，提供无偏见、深度的新闻洞察。通过整合多源信息生成简洁摘要，并支持实时问答、语音播放及个性化推荐等功能，帮助用户高效获取关键信息。适用于忙碌人群、新闻爱好者及投资者等，满足多样化信息需求。

AI项目与工具 2025年06月12日 19 点赞 0 评论 788 浏览

LatentLM

LatentLM是一款由微软与清华大学合作开发的多模态生成模型，能够统一处理文本、图像、音频等多种数据类型。它基于变分自编码器（VAE）和因果Transformer架构，支持自回归生成与跨模态信息共享，特别擅长图像生成、多模态语言模型及文本到语音合成等任务，其提出的σ-VAE进一步提升了模型的鲁棒性。

AI项目与工具 2025年06月12日 67 点赞 0 评论 786 浏览

clone

Clone-Voice是一款基于深度学习的声音克隆工具，支持16种语言的文本转语音及声音风格转换，具有友好的操作界面和较低的硬件要求。它被广泛应用于视频制作、语言学习、有声出版物创作、广告宣传及游戏开发等领域，为用户提供多样化的个性化声音解决方案。

AI项目与工具 2025年06月12日 18 点赞 0 评论 786 浏览

OSUM

OSUM是一款由西北工业大学研发的开源语音理解模型，结合Whisper编码器与Qwen2 LLM，支持语音识别、情感分析、说话者性别分类等多种任务。采用“ASR+X”多任务训练策略，提升模型泛化能力和稳定性。基于约5万小时语音数据训练，性能优异，适用于智能客服、教育、心理健康监测等多个领域。

AI项目与工具 2025年06月12日 46 点赞 0 评论 785 浏览

backseat ai

Backseat AI是一款面向《英雄联盟》玩家的AI语音辅助工具，提供实时游戏评论、购买建议、对线策略以及赛后分析等功能。它具有低资源占用、多语言支持和个性化语音包的特点，并与创作者共享收益，支持内容创作发展。

AI项目与工具 2025年06月12日 48 点赞 0 评论 784 浏览

Spirit LM

Spirit LM 是一种由 Meta AI 开发的多模态语言模型，能够处理文本和语音数据，支持跨模态学习。其基础版（BASE）和表达版（EXPRESSIVE）分别侧重于语义理解和情感表达。Spirit LM 可用于自动语音识别（ASR）、文本到语音（TTS）、语音分类及情感分析等任务，在语音助手、语音转写、有声读物等领域具有广泛应用前景。

AI项目与工具 2025年06月12日 40 点赞 0 评论 784 浏览

语音

首页

语音

列表

默认

浏览次数

发布日期