推理

Hyper

Hyper-SD是由字节跳动研究人员开发的高效图像合成框架,通过轨迹分割一致性蒸馏(TSCD)、人类反馈学习(ReFL)和分数蒸馏等技术,显著降低了扩散模型在多步推理过程中的计算成本。该框架在保持高图像质量的同时,大幅减少了推理步骤,实现了快速生成高分辨率图像,推动了生成式AI技术的发展。

Gemma 2

Gemma 2是一款由谷歌DeepMind开发的开源人工智能模型,提供90亿和270亿参数版本。它具有卓越的性能、高效的推理速度和广泛的硬件兼容性,适用于各种应用场景。Gemma 2不仅支持多种AI框架,还提供了丰富的资源和工具,以支持开发者和研究人员负责任地构建和部署AI。

Fish Speech

Fish Speech是一款开源的文本到语音(TTS)工具,支持中文、英文和日文。它通过大约15万小时的多语种数据训练,实现了接近人类水平的语音合成效果。该工具的特点包括低显存需求(仅需4GB)、快速推理速度、高自定义性和灵活性。Fish Speech支持多种语音生成模型,如VITS2、Bert-VITS2等,适用于智能助手、自动客服、语言学习等多个领域。

Agent Q

Agent Q是一种自监督代理推理和搜索框架,结合了引导式蒙特卡洛树搜索(MCTS)、AI自我批评及直接偏好优化(DPO)等技术。该框架通过迭代微调和基于人类反馈的强化学习进行自我改进,在网页导航和多步任务执行中表现优异。Agent Q的主要功能包括引导式搜索、自我批评、迭代微调、多步推理任务和零样本学习。它在电子商务、在线预订服务、软件开发、客户服务、数据分析和个性化推荐等领域具有广泛应用前景。

书生·浦语

书生·浦语是上海人工智能实验室开发的一款开源AI大模型,具备卓越的推理能力和超长文本处理功能。该模型能够处理高达一百万词元的文本输入,支持联网搜索并整合信息,显著提升了处理复杂问题的能力。书生·浦语秉持开源理念,免费提供商用授权,旨在通过高质量开源资源赋能创新,推动AI技术的发展和应用。它支持多种功能,包括超长文本处理、增强推理能力、自主信息搜索与整合等,并提供了多样化的参数版本,以满足不同的应用

源2.0

源2.0-M32是由浪潮信息开发的一种混合专家模型(MoE),包含32个专家,采用“注意力路由器”技术,显著提升了模型的效率和准确性。该模型在代码生成、数学问题解决、科学推理等多个领域表现出色,尤其在ARC-C和MATH基准测试中超越了其他模型。源2.0-M32具有高效的计算能力和广泛的适用性,适用于多种复杂任务。

DistriFusion

DistriFusion是一个专为加速高分辨率扩散模型在多GPU环境中生成图像的分布式并行推理框架。通过将图像分割成多个小块并分配至不同设备上进行独立处理,它能够在不增加额外训练负担的情况下,将推理速度提升高达六倍,同时保持图像质量。其技术原理包括Patch Parallelism(分片并行)、异步通信、位移补丁并行性等,适用于多种现有的扩散模型。应用场景包括AI艺术创作、游戏和电影制作、VR/A

mPLUG

mPLUG-Owl3是一款由阿里巴巴开发的多模态AI模型,专注于理解和处理多图及长视频内容。该模型具备高推理效率和准确性,采用创新的Hyper Attention模块优化视觉与语言信息的融合。它已在多个基准测试中展现出卓越性能,并且其源代码和资源已公开,可供研究和应用。

山海大模型

山海大模型是一款由云知声推出的多模态人工智能模型,具备强大的知识储备和多模态交互能力。它能够通过文本、音频和图像等形式与用户进行实时互动,提供信息查询、知识学习和灵感激发等服务。主要功能包括内容生成与理解、知识问答、逻辑推理、代码能力以及多模态交互特色,如实时响应、情绪感知、音色切换和视觉场景理解。该模型可应用于智能客服、教育辅助、医疗咨询、个人助理和内容创作等多个领域。

CogView

CogView-3-Plus是智谱AI研发的AI文生图模型,采用Transformer架构替代传统的UNet,优化了扩散模型中的噪声规划。它能够根据用户指令生成高质量、高美学评分的图像,支持多种分辨率,并具有实时生成图像的能力。该模型已被集成到“智谱清言”APP中,并提供API服务,适用于艺术创作、游戏设计、广告制作等多个图像生成领域。