机器学习

MultiBooth

MultiBooth是一种由多所高校和研究机构联合开发的多概念图像生成工具,能够根据文本提示生成包含多个指定概念的高质量图像。其核心技术包括单概念学习和多概念整合,采用多模态编码器、自适应归一化和区域定制化模块,实现高效、精准的图像生成。支持插件式架构,具备良好的扩展性和灵活性,适用于创意设计、广告、教育、电商及科研等多个领域。

LIMO

LIMO是由上海交通大学研发的一种高效推理方法,通过少量高质量训练样本激活大语言模型的复杂推理能力。其核心假设是“少即是多推理假设”,即在预训练阶段已具备丰富知识的模型中,复杂推理能力可通过精心设计的样本被有效激发。LIMO在多个数学推理基准测试中表现优异,且数据使用效率极高,仅需1%的数据即可达到显著效果。适用于教育、科研、工业和医疗等多个领域。

SongDonkey

SongDonkey是一款基于AI技术的音频处理工具,能够高效分离人声与乐器音轨,支持多种格式输出和预览功能。它适用于音乐制作、教学、分析及编辑等领域,为用户提供便捷的音频处理体验。

Tesseract

Tesseract是一款开源的光学字符识别(OCR)引擎,支持多语言识别和多种图像格式。其具备高精度的文字识别能力,适用于文档数字化、表格数据提取、发票识别及移动OCR应用等多个场景。支持跨平台运行,并提供丰富的编程接口和自定义训练功能,便于开发者集成和优化识别效果。

Paper2Coder

Paper2Code是一款由韩国科学技术院与DeepAuto.ai联合开发的AI工具,基于多Agent大语言模型,能够将机器学习论文自动转换为可运行的代码仓库。其核心流程包括规划、分析和代码生成三个阶段,确保生成的代码结构清晰、逻辑严谨,并忠实于原始论文。该工具显著提升了研究复现效率,适用于学术研究、教学、工业应用等多个场景,是推动AI研究落地的重要工具。

Amazon Nova Act

Amazon Nova Act 是亚马逊 AGI Labs 推出的 AI 代理工具,支持开发者通过 SDK 构建自动化应用。其核心功能包括任务分解、多语言 NLP 处理、网页自动化及 API 集成,适用于办公、电商、个人管理及企业流程等多个场景。Nova Act 可提高任务执行效率与准确性,具备良好的扩展性与智能化能力。

Text to Bark

Text to Bark 是由 ElevenLabs 推出的全球首个 AI 狗语文本转语音模型,能将文字转化为高度逼真的狗吠声,支持多种犬种选择和语气调整。技术基于深度学习和犬类语言学研究,适用于宠物训练、科研、娱乐及家庭互动等多种场景,具备良好的可扩展性和实用性。

VPP

VPP(Video Prediction Policy)是清华大学与星动纪元联合开发的AIGC机器人模型,基于视频扩散模型实现未来场景预测与动作生成。支持高频预测与跨机器人本体学习,显著降低对真实数据的依赖。在复杂任务中表现出色,适用于家庭、工业、医疗、教育等多个领域。其开源特性推动了具身智能机器人技术的发展。

EMAGE

EMAGE是一款基于音频输入生成全身手势的AI框架,可同步生成面部表情、肢体动作及整体运动。通过掩蔽音频手势变换器和多模块VQ-VAE建模,实现高质量、多样化的手势生成。适用于虚拟现实、动画制作、数字人交互等领域,提升虚拟角色表现力与交互自然度。