InspireMusic InspireMusic是由阿里巴巴通义实验室开发的AI音乐生成工具,支持通过文字描述或音频提示生成多种风格的音乐作品。其核心技术包括音频 tokenizer、自回归 Transformer 模型、扩散模型(CFM)和 Vocoder,实现文本到音乐的转换、音乐续写及高质量音频输出。该工具支持长音频生成、多种采样率,并提供快速与高音质两种推理模式,适用于音乐创作、音频处理及个性化音乐生成等场景。 AI项目与工具 2025年06月12日 83 点赞 0 评论 705 浏览
Smodin Smodin.io是一款多语言写作辅助平台,为全球的学生、作家和互联网工作者提供一系列工具来改善写作。它提供文本改写、检测抄袭、自动引用生成和多语言翻译等功能,以提高写作内容的质量和效率。 教育学习 2025年06月05日 90 点赞 0 评论 705 浏览
MME MME-CoT 是一个用于评估大型多模态模型链式思维推理能力的基准测试框架,涵盖数学、科学、OCR、逻辑、时空和一般场景六大领域,包含1,130个问题,每题均附关键推理步骤和图像描述。该框架引入推理质量、鲁棒性和效率三大评估指标,全面衡量模型推理能力,并揭示当前模型在反思机制和感知任务上的不足,为模型优化和研究提供重要参考。 AI项目与工具 2025年06月12日 36 点赞 0 评论 705 浏览
Phraser Phraser 是一款人工智能驱动的工具,专为 Midjourney、Dall-E、Stable Diffusion、Disco Diffusion 和 Craiyon 等领先艺术生成器的快速创作而设计。 Ai提示指令 2025年06月05日 28 点赞 0 评论 705 浏览
Spatial Spatial-RAG是一种用于增强大型语言模型空间推理能力的框架,融合了稀疏空间检索与密集语义检索技术。它通过多目标优化策略平衡空间约束与语义相关性,生成准确、连贯的自然语言回答。该工具可应用于旅游推荐、智能导航、城市规划、地理问答和物流配送等多个领域,提升了空间数据处理的智能化水平。 AI项目与工具 2025年06月11日 34 点赞 0 评论 705 浏览
EliGen EliGen是由浙江大学与阿里巴巴集团联合开发的实体级可控图像生成框架,采用区域注意力机制实现对图像中实体的精确控制,支持多实体修复、风格化生成及交互式编辑。基于50万高质量注释样本训练,具备强大泛化能力,适用于虚拟场景、角色设计、数据合成及产品展示等场景。 AI项目与工具 2025年06月12日 97 点赞 0 评论 705 浏览
NutWorld NutWorld是由新加坡国立大学、南洋理工大学与Skywork AI联合开发的视频处理框架,能够高效地将单目视频转换为动态3D高斯表示(Gaussian Splatting)。它基于时空对齐高斯(STAG)表示法,实现视频的时空连贯建模,支持高保真视频重建和多种下游任务,如新视图合成、视频编辑、帧插值和深度预测。该工具具备实时处理能力,适用于视频创作、AR/VR、自动驾驶等多个领域。 AI项目与工具 2025年06月12日 93 点赞 0 评论 705 浏览