模型

SuperGPQA

SuperGPQA是由字节跳动豆包团队与M-A-P联合开发的知识推理基准测试集,覆盖285个研究生级学科,包含26529道题目。其核心功能是评估大语言模型的泛化能力和真实推理水平,42.33%的题目涉及数学计算或形式推理。该测试集采用专家与大语言模型协同构建的方式,确保题目质量,并涵盖STEM与非STEM领域,填补了长尾学科评估的空白。适用于模型性能评估、优化指导及跨学科研究等多种应用场景。

Mistral Small 3

Mistral Small 3 是一款由 Mistral AI 推出的开源大语言模型,具备 240 亿参数,支持多语言处理,适用于低延迟场景。模型基于 Transformer 架构,支持长文本输入,具备高性能和本地部署能力。其可定制性强,适用于虚拟助手、客服系统、自动化任务及专业领域应用,如医疗和法律咨询。

CausVid

CausVid是一种由Adobe和MIT联合开发的实时视频生成技术,基于自回归生成模型和蒸馏预训练技术,实现了低延迟、高效率的视频创作。其核心功能包括即时视频生成、快速流式生成、零样本图像到视频转换、视频风格迁移、长视频生成以及交互式剧情生成等。CausVid通过分布匹配蒸馏、非对称蒸馏策略和滑动窗口机制等技术手段,优化了视频生成的质量与稳定性,适用于内容创作、新闻报道、教育培训、游戏开发及广告营

达闼RobotGPT多模态大模型

达闼RobotGPT多模态大模型是一个创新的AI工具,它通过整合多模态数据处理能力,为机器人在多样化的应用场景中提供了强大的交互和行为生成能力。

AVCLabs Photo Enhancer AI

AI驱动的照片放大工具。每个工具都可以相互配合使用,为您的项目提供全面的编辑功能,具有图像放大、降噪、面部优化等功能

VLOGGER

VLOGGER AI是一款由谷歌研究团队开发的多模态扩散模型,主要用于从单一输入图像和音频样本生成逼真的、连贯的人像动态视频。该工具能够根据音频控制人物动作,包括面部表情、唇部动作、头部运动、眼神、眨眼及上身和手部动作,实现音频驱动的视频合成。VLOGGER生成的视频具有高度的真实性和多样性,能够展示原始主体的不同动作和表情。此外,VLOGGER还可以用于编辑现有视频和跨语言视频内容适配。

LVCD

LVCD是一款基于视频扩散模型的AI工具,专门用于动画视频线稿的自动上色。它通过参考注意力机制和创新的采样方法,确保视频颜色的一致性和时间连贯性,支持生成长时间序列动画。LVCD广泛应用于动漫制作、游戏开发、影视行业以及艺术创作等领域,显著提升动画制作效率。

TypingMind

一款支持多种大型语言模型的聊天界面应用,用户可以通过API密钥与ChatGPT、Claude、Gemini等模型进行互动。

Step

覆盖了从个人使用到企业级应用的多个方面的多模态大模型。