AI项目与工具

nijijourney

Nijijourney是一款由Spellbrush和Midjourney合作开发的AI工具,主要功能包括基于文本指令生成二次元风格图像、支持图像风格转换、细节微调以及多语言兼容性。它广泛应用于艺术创作、游戏开发、动画制作、漫画绘制及小说插图等领域,帮助用户高效完成高质量的二次元风格视觉内容。

GoodWeBot

GoodWeBot 是一款基于 RPA 技术的开源 AI 微信机器人,支持一键运行,具备智能回复、群发消息、自动加好友、标签管理等功能。它集成了主流 AI 平台,操作简便,适用于企业营销、客户服务及个人社交管理等场景,兼具高效性和合规性。

AlphaFold 3

AlphaFold 3 是一款由 DeepMind 开发的基于深度学习的 AI 工具,能够准确预测蛋白质、核酸、小分子等多种生物分子的三维结构。它在药物设计、疫苗研发、基础科研以及疾病研究等领域展现出强大的应用潜力。通过创新技术如 Pairformer 模块和扩散模块,AlphaFold 3 实现了更高的预测精度,并支持复杂生物系统的建模。

NVILA

NVILA是一款由NVIDIA开发的视觉语言模型,通过“扩展-压缩”策略优化处理高分辨率图像和长视频,兼具效率与准确性。它在图像和视频基准测试中表现优异,支持时间定位、机器人导航和医疗成像等应用场景,并通过参数高效微调和量化技术提升模型性能。未来将在GitHub和HuggingFace平台上开源。

Future Baby Generator

Future Baby Generator是一款利用人工智能技术的图片处理应用,能够生成未来孩子的面部图像。该应用除了预测宝宝长相外,还提供AI换脸、AI视频生成、人脸和风景合一效果、卡通化效果以及动漫滤镜等功能。它适用于准父母、家庭娱乐、社交媒体用户、婚礼庆典、教育工作者以及创意专业人士等多种场景。

Click2Mask

Click2Mask 是一种创新的图像编辑工具,通过点击操作实现局部内容的高效编辑。它采用动态遮罩生成技术,并结合混合潜在扩散(BLD)模型及基于 CLIP 的语义损失,使用户无需复杂操作即可完成图像编辑。该工具支持局部内容添加、自由形式编辑等功能,适用于数字艺术创作、照片编辑、社交媒体内容制作及广告设计等场景。

EnerVerse

EnerVerse是由智元机器人团队开发的首个机器人4D世界模型,基于自回归扩散模型与稀疏记忆机制,实现未来具身空间的高效生成与动作规划。其核心技术包括逐块生成、时空注意力UNet结构、自由锚定视角(FAV)及Diffusion策略头,显著提升机器人在复杂任务中的表现。该模型已在自动驾驶、工业装配、医疗辅助等多个领域展现出广泛应用潜力。

Universal

Universal-1是一款由AssemblyAI开发的多语言语音识别和转录模型,经过大量多语种音频数据训练,支持英语、西班牙语、法语和德语等。该模型在各种复杂环境中提供高精度的语音转文字服务,具备快速响应能力和改进的时间戳准确性。Universal-1在准确率、响应时间、时间戳估计和用户偏好等方面表现优异,适用于对话智能平台、AI记事本、创作者工具和远程医疗平台等多个应用场景。

NotaGen

NotaGen 是由多所高校联合研发的音乐生成模型,基于预训练、微调和强化学习技术,可生成高质量古典乐谱。支持通过“时期-作曲家-乐器”等条件控制音乐风格,具备高度音乐性与可控性。采用 CLaMP-DPO 方法优化生成质量,无需人工标注。适用于音乐创作、教育、影视配乐等多种场景,提供多种模型规模选择,满足不同需求。

LAM

LAM是由微软开发的大型行动模型,能够理解和执行真实世界中的操作任务。它不仅能解析用户输入,还能生成具体行动指令,如启动程序或控制设备。LAM在Office等Windows应用中表现出色,任务完成率高于GPT-4。具备多模态输入理解、动态规划、环境交互和自主执行能力,适用于办公自动化、智能家居、客户服务等多个场景,显著提升任务执行效率和智能化水平。