AI项目与工具

OwchBuddy

OwchBuddy是一款集AI技术支持的个人伤害辅助工具,涵盖医疗、法律及心理健康领域。它提供24小时在线支持、个性化恢复方案、法律资源对接、律师联络服务、多语言翻译以及康复进程跟踪等功能,适用于交通事故、运动损伤、工伤、脑部创伤等多种场景下的恢复需求。

SongGen

SongGen是一款由多家高校和研究机构联合开发的单阶段自回归Transformer模型,能够根据文本生成高质量音乐。它支持混合模式和双轨模式输出,可分别生成人声与伴奏,便于后期编辑。SongGen通过创新的音频标记化和训练策略,显著提升了人声清晰度和音乐自然度。其开源特性及高质量数据集为音乐生成研究提供了新基准,适用于音乐创作、视频配乐、教育辅助等多个领域。

Sparkify

Sparkify是谷歌推出的AI动画视频生成工具,基于Gemini 2.5和Veo 2模型。用户输入问题或复杂概念后,Sparkify能在2分钟内生成直观的动画短视频,讲解知识点。其多模态处理能力结合Google Search数据,确保内容准确且与最新信息同步。适用于教育、科普和企业培训等领域,提升理解效率和传播效果。目前处于内测阶段,可通过官网加入等候列表。

freeflo

FreeFlo 是一款面向创意工作者的 AI 工具,提供丰富的艺术风格提示词库,支持主流 AI 图像生成平台。其功能涵盖风格化提示词、SREF 参数代码及精选图片资源,适用于艺术创作、平面设计、游戏开发、影视制作及教育等多个领域,助力提升创意项目的效率与质量。

VMB

VMB是一个由多机构合作研发的多模态音乐生成框架,可从文本、图像和视频等多样化输入生成音乐。它通过文本桥接和音乐桥接优化跨模态对齐与可控性,显著提高了音乐生成的质量和定制化程度。VMB具有增强模态对齐、提升可控性、显式条件生成等特点,适用于电影、游戏、虚拟现实等多个领域。

Melty

Melty是一款开源的AI编程助手,旨在提升开发者的编码效率和代码质量。它能够实时理解开发者从终端到GitHub的编码内容,提供智能协作和代码生成。Melty具备学习能力,能够适应并模仿开发者的编程风格,与编译器、调试器等开发工具无缝集成。此外,它还支持代码重构、Web应用开发以及大型代码库的浏览等高级功能。通过自然语言处理、机器学习、代码生成和上下文感知等技术,Melty不仅提高了代码的质量和稳

360gpt2

360gpt2-o1是一款专注于数学与逻辑推理的人工智能大模型,具备强大的推理能力和深度学习能力。它通过合成数据优化、分阶段训练及“慢思考”范式提升了模型的表现,尤其在数学竞赛和基础数学评测中成绩显著。此外,模型还支持编程问题解决、复杂问题分析及教育领域应用,为企业决策提供逻辑支持。

Perception

Perception-as-Control是由阿里巴巴通义实验室开发的图像动画框架,支持对相机和物体运动的细粒度控制。它基于3D感知运动表示,结合U-Net架构的扩散模型,实现多种运动相关的视频合成任务,如运动生成、运动克隆、转移和编辑。通过三阶段训练策略,提升运动控制精度和稳定性,适用于影视、游戏、VR/AR、广告及教育等多个领域。

TheoremExplainAgent

TheoremExplainAgent(TEA)是一款基于多模态技术的AI工具,可生成超过5分钟的数学与科学定理解释视频,涵盖多个STEM领域。它结合文本、动画和语音,提升抽象概念的理解效果,并具备自动错误诊断功能。通过TheoremExplainBench基准评估,TEA在准确性、逻辑性和视觉表现上均表现优异,适用于在线教育、课堂教学和学术研究等多种场景。

SwiftEdit

SwiftEdit是一款基于文本引导的图像编辑框架,利用一步反演技术和掩码引导编辑技术,可在极短时间内实现高质量图像编辑,同时保持背景元素完整。它支持快速文本引导编辑、一步反演框架及自引导编辑掩码提取,并具备灵活的注意力重缩放机制,广泛应用于社交媒体、广告营销、新闻媒体、艺术创作和电子商务等领域。