音频 - 智狐AI导航

BiliNote

BiliNote 是一款开源 AI 视频笔记工具，支持从多个平台导入视频链接并生成结构化的 Markdown 笔记。具备音频转写、大模型总结、截图插入、内容跳转链接等功能，适用于学习、创作、培训等场景。采用 FastAPI 和 React 技术栈，支持 Docker 部署，便于用户快速集成与使用。

AI项目与工具 2025年06月11日 92 点赞 0 评论 622 浏览

Gemma 3n

Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型，基于 Gemini Nano 架构，采用逐层嵌入技术，将内存占用压缩至 2-4B 参数模型水平。支持文本、图像、短视频和音频输入，可生成结构化文本输出，并具备音频转录、情感分析等功能。可在本地设备运行，响应时间低至 50 毫秒，适用于语音助手、内容生成和学术任务定制。

AI项目与工具 2025年06月11日 87 点赞 0 评论 620 浏览

琴乐大模型

琴乐大模型是一款由腾讯AI Lab与腾讯TME天琴实验室联合开发的人工智能音乐创作工具。该工具能够根据用户输入的关键词、描述性语句或音频，生成高质量的立体声音频或多轨乐谱，并支持自动编辑功能。琴乐大模型采用先进的技术框架，包括音频文本对齐、乐谱/音频表征提取、大语言模型预测以及流匹配和声码器技术，确保生成的音乐符合音乐理论和人类审美标准。

AI项目与工具 2025年06月12日 33 点赞 0 评论 618 浏览

HunyuanCustom

HunyuanCustom是腾讯混元团队开发的多模态视频生成框架，支持图像、音频、视频和文本等多种输入条件，生成高质量定制化视频。采用文本-图像融合与图像ID增强技术，提升身份一致性和视频真实性。适用于虚拟人广告、虚拟试穿、视频编辑等场景，具备音频驱动和视频驱动两种生成方式，展现强大可控性与灵活性。

AI项目与工具 2025年06月11日 73 点赞 0 评论 613 浏览