Voice Changer Voice Changer是一款基于状态空间模型的音频处理工具,可将音频中的语音转换为不同音色,同时保留情感和表达细节。用户可通过选择预设声音库或克隆个人声音实现个性化转换,并对语音细节进行精细调整。该工具广泛应用于内容创作、游戏配音、有声书制作及品牌音频开发等领域,提供高质量的音频输出和灵活的控制选项。 AI项目与工具 2025年06月12日 48 点赞 0 评论 749 浏览
HunyuanPortrait HunyuanPortrait是由腾讯Hunyuan团队联合多所高校推出的基于扩散模型的肖像动画生成工具。它能够根据一张肖像图片和视频片段,生成高度可控且逼真的动画,保持身份一致性并捕捉细微表情变化。该工具在时间一致性和泛化能力方面表现优异,适用于虚拟现实、游戏、人机交互等多个领域。 AI项目与工具 2025年06月11日 24 点赞 0 评论 748 浏览
SimpleAR SimpleAR是一款由复旦大学与字节跳动联合研发的纯自回归图像生成模型,采用简洁架构实现高质量图像生成。其通过“预训练-有监督微调-强化学习”三阶段训练方法,提升文本跟随能力与生成效果。支持文本到图像及多模态融合生成,兼容加速技术,推理速度快。适用于创意设计、虚拟场景构建、多模态翻译、AR/VR等多个领域。 AI项目与工具 2025年06月11日 76 点赞 0 评论 748 浏览
VLOGGER VLOGGER AI是一款由谷歌研究团队开发的多模态扩散模型,主要用于从单一输入图像和音频样本生成逼真的、连贯的人像动态视频。该工具能够根据音频控制人物动作,包括面部表情、唇部动作、头部运动、眼神、眨眼及上身和手部动作,实现音频驱动的视频合成。VLOGGER生成的视频具有高度的真实性和多样性,能够展示原始主体的不同动作和表情。此外,VLOGGER还可以用于编辑现有视频和跨语言视频内容适配。 AI项目与工具 2024年01月01日 12 点赞 0 评论 748 浏览
Miracle F1 Miracle F1 是一款由美图 WHEE 推出的 AI 图像生成工具,具备高真实感的图像生成能力,能精准处理光影、材质和空间效果。其语义理解能力强,可准确还原复杂描述,如“纯色背景”“夜景灯光”等。支持多种风格,涵盖 3D 立体、二次元、复古等,适用于电商展示、活动海报、插画设计等多个场景。基于扩散模型和优化算法,提升了生成效率与质量。 AI项目与工具 2025年06月12日 51 点赞 0 评论 747 浏览
MagicColor MagicColor是一款由香港科技大学开发的多实例线稿图着色工具,基于自监督训练和实例引导模块,实现高效、精准的色彩分配。支持参考图像驱动,具备实例级控制与边缘增强功能,适用于动画、数字艺术、游戏开发等领域。采用扩散模型与双UNet架构,提升着色质量和效率,适合创意设计与教育应用。 AI项目与工具 2025年06月12日 49 点赞 0 评论 747 浏览
AtomThink AtomThink是一个由多所高校与企业联合研发的多模态数学推理框架,通过构建长链思维(CoT)引导多模态大型语言模型(MLLMs)进行复杂推理。它包含自动CoT注释引擎、原子步骤微调策略及多种搜索策略,旨在提升原子步骤质量并增强MLLMs的推理能力。AtomThink提出的大规模多模态数据集AtomMATH及其评估方法为模型训练和测试提供了重要支持,广泛应用于教育辅助、自动化测试、学术研究等领域 AI项目与工具 2025年06月12日 62 点赞 0 评论 747 浏览
PsycoLLM PsycoLLM是由合肥工业大学研发的中文心理大模型,基于高质量心理数据集训练,具备精准理解心理问题、多轮对话交互、情绪识别与支持、心理健康评估等功能。其技术融合了多步数据优化、监督微调和Transformer架构,适用于个人心理支持、心理咨询、教育及社区服务等场景,为心理健康领域提供专业、高效的技术解决方案。 AI项目与工具 2025年06月12日 48 点赞 0 评论 747 浏览
ViDoRAG ViDoRAG是阿里巴巴通义实验室联合高校开发的视觉文档检索增强生成框架,采用多智能体协作与动态迭代推理技术,提升复杂文档的检索与理解能力。通过高斯混合模型优化多模态信息整合,支持精准检索与高质量生成,适用于教育、金融、医疗等多个领域,显著提升文档处理效率与准确性。 AI项目与工具 2025年06月12日 26 点赞 0 评论 747 浏览