模型

SongGen

SongGen是一款由多家高校和研究机构联合开发的单阶段自回归Transformer模型,能够根据文本生成高质量音乐。它支持混合模式和双轨模式输出,可分别生成人声与伴奏,便于后期编辑。SongGen通过创新的音频标记化和训练策略,显著提升了人声清晰度和音乐自然度。其开源特性及高质量数据集为音乐生成研究提供了新基准,适用于音乐创作、视频配乐、教育辅助等多个领域。

Paper2Code

Paper2Code是一款由韩国科学技术院与DeepAuto.ai合作开发的AI工具,基于多Agent大语言模型,能将机器学习论文自动转化为可运行的代码仓库。它通过规划、分析和代码生成三个阶段,确保代码结构清晰且忠实于原论文内容。该工具显著提升了科研复现效率,适用于研究、教学、工业等多个领域,具有高度实用性和准确性。

TripoSG

TripoSG 是一种基于大规模修正流模型的高保真 3D 形状生成技术,能够从单张图像生成高质量的 3D 网格模型。其核心优势包括高分辨率重建、语义一致性、强泛化能力和稳健的性能。通过混合监督训练策略和高质量数据集,TripoSG 实现了更精准的几何表示与细节还原。该技术适用于工业设计、VR/AR、自动驾驶、教育及游戏开发等多个领域。

k1.5

k1.5 是月之暗面推出的多模态思考模型,具备强大的数学、代码、视觉推理能力。在 short-CoT 模式下,性能超越主流模型 550%,在 long-CoT 模式下达到 OpenAI o1 水平。支持文本与图像的联合处理,适用于复杂推理、跨模态分析、教育、科研等领域。通过长上下文扩展和策略优化,提升推理效率与准确性。

VidSketch

VidSketch是由浙江大学研发的视频生成框架,支持通过手绘草图和文本提示生成高质量动画。它采用层级草图控制策略和时空注意力机制,提升视频连贯性和质量,适用于不同技能水平的用户。具备多样化风格支持和低门槛创作特点,广泛应用于创意设计、教学、广告及内容创作等领域。

EasyControl Ghibli

EasyControl Ghibli 是一款基于扩散模型的 AI 工具,专注于将普通图像转换为吉卜力风格,具备风格迁移、面部特征保留、高效运行等优点。它通过少量数据训练即可生成高质量图像,适用于插画、动画、广告及个人照片风格化等多种场景。用户可免费使用,操作便捷,适合艺术创作与内容生成需求。

JoyCoder

JoyCoder是一款由京东开发的AI编程助手,旨在提升研发效率。它提供了代码预测生成、注释生成代码、一键生成单元测试和接口文档等功能,并与主流IDE无缝集成。JoyCoder集成了本地行云DevOps能力,支持多种编程语言。其核心技术包括AI算法、代码上下文理解、模型训练和智能问答系统等,能够显著提升代码质量和开发效率。

智谱清影

智谱清影是一款基于AI的视频生成工具,用户可以通过输入文本或上传图片,生成10秒、4K、60帧的高质量视频。支持多种风格和背景音乐,适用于个人创作者和专业制作团队。该工具基于CogVideoX模型,提升了视频的连贯性和逻辑一致性,并支持API调用。

DragAnything

DragAnything 是一款由快手与高校联合研发的视频生成工具,通过实体表示和轨迹输入实现对视频中物体的精确运动控制。它支持多实体独立操作、相机运动调整,并采用扩散模型生成高质量视频内容。具备用户友好的交互方式,适用于视频编辑、游戏开发、教育及广告等多个场景。