AI项目与工具

Chirp 3

Chirp 3 是谷歌云推出的高清语音合成工具,支持 31 种语言和 248 种声音,能生成自然流畅的语音。具备多语言支持、自定义语音、流式合成等功能,适用于智能助手、有声读物、视频配音等场景。支持多种音频格式,注重数据安全与合规性。

DishGen

DishGen是AI食谱生成器,根据用户输入的食材、食谱想法或饮食偏好,快速生成个性化的食谱和餐饮计划。它基于智能算法,将剩余食材转化为美味菜肴,减少食物浪费并节省金钱。用户可随时修改食谱,保存和分享自己的创作。DishGen提供移动应用,方便随时随地使用,简化烹饪过程,提供个性化体验和健康饮食建议,推动烹饪和餐食规划的未来。

叨叨

叨叨是一款融合AI与社交养成元素的多功能工具软件,用户可通过与虚拟AI伴侣互动完成记账、单词学习等任务。软件支持个性化定制AI性格,加入小剧场群聊进行社交互动,并具备高效的单词抽背与复习功能,适用于个人财务管理、学习提升及情感陪伴等场景。

DualPipe

DualPipe是由DeepSeek开发的开源双向流水线并行技术,通过将前向和反向计算分离为独立管道并行执行,显著提升大规模深度学习模型的训练效率。该技术优化了计算与通信的重叠,降低内存峰值,提高资源利用率,并支持多模态处理、多任务学习等应用场景。适用于需要高效训练和推理的AI系统。

PhotoDoodle

PhotoDoodle是一种基于少量样本学习的艺术化图像编辑框架,能够精准复现艺术家风格并应用于照片涂鸦。它采用两阶段训练策略,结合位置编码重用和无噪声条件范式,确保生成效果与背景一致。支持装饰元素添加、背景保留、指令驱动编辑等功能,并通过低秩适应技术实现高效风格定制。项目提供高质量数据集和开源资源,适用于数字艺术创作、商业设计、社交媒体等多个场景。

AtomThink

AtomThink是一个由多所高校与企业联合研发的多模态数学推理框架,通过构建长链思维(CoT)引导多模态大型语言模型(MLLMs)进行复杂推理。它包含自动CoT注释引擎、原子步骤微调策略及多种搜索策略,旨在提升原子步骤质量并增强MLLMs的推理能力。AtomThink提出的大规模多模态数据集AtomMATH及其评估方法为模型训练和测试提供了重要支持,广泛应用于教育辅助、自动化测试、学术研究等领域

网易云课堂AI大模型产品经理孵化营

《AI大模型产品经理孵化营》是网易云课堂推出的专业课程,旨在帮助学员掌握AI产品经理的核心知识和技能,理解AI大模型的商业应用,并掌握无需编程即可开发AI应用的技术。课程内容涵盖从基础理论到实际操作的全过程,提供丰富的实战训练模块,帮助学员在AI领域迅速成长。

Podcastfy

Podcastfy 是一款基于生成式人工智能技术开发的开源工具,可将网络文章、PDF 文件及纯文本转化为多语言对话式音频。它不仅支持多源文本合并,还具备强大的文本转语音功能,允许用户选择不同的语音模型来优化音频效果。此外,其开源特性便于开发者根据需求进行个性化定制,广泛适用于内容摘要、语言本地化、教育材料转化等多个领域。

PixVerse V4

PixVerse V4 是一款基于 AI 的视频生成工具,支持通过文本或图片快速生成高质量视频,最快仅需 5 秒。具备音效生成、人声配音、视频风格转换等功能,适用于多种创作场景。其在语义理解、物理表现和特效处理方面有显著提升,适合个人创作、广告营销、教育及影视娱乐等领域使用。

MotionGen

MotionGen是一款由元象科技开发的3D动作生成模型,它结合了大模型、物理仿真和强化学习算法,使得用户通过简单的文本指令就能生成逼真且流畅的3D动作。该工具简化了3D动画的制作过程,提升了创作效率。其主要功能包括文本到动作的转换、高度逼真和流畅的动作生成、个性化定制、高效的制作流程和技术融合。