模型

VASA

VASA-1是一个由微软亚洲研究院开发的生成框架,能够将静态照片转化为动态的口型同步视频。该框架利用精确的唇音同步、丰富的面部表情和自然的头部运动,创造出高度逼真的虚拟人物形象。VASA-1支持在线生成高分辨率视频,具有低延迟的特点,并且能够处理多种类型的输入,如艺术照片、歌唱音频和非英语语音。此外,通过灵活的生成控制,用户可以调整输出的多样性和适应性。

GAS

GAS是一种从单张图像生成高质量、视角一致且时间连贯虚拟形象的AI工具,结合3D人体重建与扩散模型技术,支持多视角合成与动态姿态动画。其统一框架提升模型泛化能力,适用于游戏、影视、体育及时尚等领域,具备高保真度与真实感。

MT

MT-MegatronLM 是摩尔线程推出的开源混合并行训练框架,支持密集模型、多模态模型和 MoE 模型的高效训练。采用 FP8 混合精度、高性能算子库和集合通信库,提升 GPU 集群算力利用率。通过模型并行、数据并行和流水线并行技术,实现大规模语言模型的高效分布式训练,适用于科研、企业及定制化 AI 应用场景。

Ola

Ola是一款由多机构联合开发的全模态语言模型,支持文本、图像、视频和音频等多种输入形式。通过渐进式模态对齐策略,逐步扩展模型的多模态理解能力,同时采用流式解码技术提升交互体验。其架构融合多种编码器与解码器,结合局部-全局注意力机制,实现高效多模态处理,在多项任务中表现优异。

FinGPT

FinGPT是一款面向金融领域的开源大语言模型,基于自然语言处理技术,支持情感分析、关系提取、标题分类和命名实体识别等多种金融任务。它采用端到端框架,结合低秩适配(LoRA)和基于股价的强化学习(RLSP),实现高效的数据处理与模型优化。适用于投资分析、市场研究、量化交易等多个场景,具备多语言支持和实时数据分析能力,为金融决策提供智能化解决方案。

scade.pro

scade.pro 是一款无代码AI集成平台,提供超过1500种AI模型和可视化工作流构建工具,支持用户通过拖放节点快速创建和部署AI应用。其功能包括模板驱动的开发、性能监控、多场景适配等,广泛应用于客户服务、内容创作、市场分析等多个领域。

SignGemma

SignGemma是由谷歌DeepMind团队开发的全球最强大的手语翻译AI模型,专注于将美国手语(ASL)实时翻译成英语文本。通过多模态训练方法,结合视觉和文本数据,实现高准确率和低延迟的翻译,响应时间低于0.5秒。支持端侧部署,保护用户隐私,适用于教育、医疗和公共服务等场景。

DragAnything

DragAnything 是一款由快手与高校联合研发的视频生成工具,通过实体表示和轨迹输入实现对视频中物体的精确运动控制。它支持多实体独立操作、相机运动调整,并采用扩散模型生成高质量视频内容。具备用户友好的交互方式,适用于视频编辑、游戏开发、教育及广告等多个场景。

Pixelhunter

Pixelhunter 是一个可让您从 2D 图像创建逼真的 3D 模型的平台。您可以上传任何照片并在几分钟内获得高质量的 3D 模型。