模型

RoboBrain

RoboBrain是由智源研究院开发的开源具身大脑模型,支持任务规划、可操作区域感知和轨迹预测等功能。其基于LLaVA框架,采用多阶段训练策略,具备高分辨率图像处理和长历史帧记忆能力。适用于多机器人协作、复杂任务执行及实时优化场景,依托ShareRobot数据集提升模型性能,广泛应用于机器人操作领域。

ViLAMP

ViLAMP是由蚂蚁集团与中国人民大学联合开发的视觉语言模型,专为高效处理长视频设计。采用混合精度策略,支持在单张A100 GPU上处理长达3小时的视频,提升处理效率并降低计算成本。具备长视频理解、关键信息提取、多任务处理等功能,适用于教育、监控、直播、影视制作及智能客服等场景。技术上通过差分关键帧选择与特征合并优化性能,实现精准且高效的视频分析。

DNA

DNA-Rendering是一个具有高多样性和高保真度的神经演员渲染库,它为广泛的研究任务提供了丰富的数据和高质量的注释。

FantasyTalking

FantasyTalking是一种由阿里巴巴AMAP团队与北京邮电大学联合开发的AI工具,能够从静态肖像生成高质量、可动画化的虚拟形象。该工具采用双阶段视听对齐策略,结合面部专注的交叉注意力模块和运动强度调制模块,实现精准口型同步、丰富表情生成及全身动作控制。支持多种风格和姿态,适用于游戏、影视、VR/AR、虚拟主播及教育等领域。

SeaArt.Ai

一款高效且用户友好的AI绘图工具,即使没有专业技能,您也可以立即成为艺术家。

OpenAudio S1

OpenAudio S1是Fish Audio推出的文本转语音(TTS)模型,基于200万小时音频数据训练,支持13种语言。采用双自回归架构和RLHF技术,生成自然流畅的语音,支持50多种情感和语调标记。具备零样本和少样本语音克隆功能,仅需10到30秒音频即可生成高保真声音。适用于视频配音、播客、游戏角色语音、虚拟助手、游戏娱乐、教育培训及客服系统等场景。提供40亿参数完整版和5亿参数开源版,满足

Audio

Audio-SDS是由NVIDIA研发的音频处理技术,基于文本提示引导音频生成,支持音效生成、音源分离、FM合成及语音增强等多种任务。该技术无需重新训练模型,即可将预训练音频扩散模型扩展为多功能工具,具备高效推理能力,适用于游戏、音乐制作、教育及智能家居等多个领域。

Browser Use

Browser Use是一款基于大语言模型的智能浏览器工具,支持多标签页管理和视觉识别,可提取网页内容并记录操作步骤。它允许开发者自定义动作,如保存文件或推送至数据库,并兼容多种主流LLM模型,具备并行运行和自我修正能力,旨在提升任务执行效率与准确性。

RMBG

RMBG-2.0是一款基于先进AI技术的开源图像背景移除模型,通过深度学习和多模态数据处理实现了高达90.14%的准确率。该模型在高分辨率图像上经过大量训练,支持电子商务、广告、游戏开发等领域,具备高精度背景移除、多模态数据处理及云服务器无关架构等特点,为用户提供了高效、灵活的解决方案。

Awesome GPT

一个精选的GPT-4o生成图片集锦,收集了OpenAI 最新多模态模型 GPT‑4o 生成的精彩案例,展示其强大的文本‑图像理解与创作能力。