模型

Hertz

Hertz-Dev是一款由Standard Intelligence开发的开源音频模型,专注于低延迟实时对话AI。它具备强大的音频生成与处理能力,能够处理和生成高质量的音频信号,并支持多任务微调,适用于语音识别、语音合成等多种应用场景。此外,Hertz-Dev还提供了音频自动编码、流式生成等功能,广泛应用于智能助手、客户服务、语音识别及合成等领域。

SpeciesNet

SpeciesNet 是 Google 开发的 AI 模型,用于识别相机陷阱图像中的动物物种,支持超过 2000 种标签分类,涵盖动物、分类群及非生物对象。基于 6500 万张图像训练,具备高效数据处理和跨场景识别能力,适用于野生动物监测、生物多样性研究及生态保护。模型开源,可在 GitHub 获取,支持开发人员部署与优化。

VideoCrafter2

VideoCrafter2 是一款由腾讯AI实验室开发的视频生成模型,通过将视频生成过程分解为运动和外观两个部分,能够在缺乏高质量视频数据的情况下,利用低质量视频保持运动的一致性,同时使用高质量图像提升视觉质量。该工具支持文本到视频的转换,生成高质量、具有美学效果的视频,能够理解和组合复杂的概念,并模拟不同的艺术风格。

DeepChat

一款开源的AI聊天客户端,内置强大的 DeepSeek 大模型,支持多轮对话、联网搜索、文件上传、知识库等多种功能。

小爱同学AI助手

由小米公司研发,基于小米的硬件生态和海量数据,为用户提供全球领先的语音识别、NLP等完整的 AI 技术服务。

源2.0

源2.0-M32是由浪潮信息开发的一种混合专家模型(MoE),包含32个专家,采用“注意力路由器”技术,显著提升了模型的效率和准确性。该模型在代码生成、数学问题解决、科学推理等多个领域表现出色,尤其在ARC-C和MATH基准测试中超越了其他模型。源2.0-M32具有高效的计算能力和广泛的适用性,适用于多种复杂任务。

Hyper

Hyper-SD是由字节跳动研究人员开发的高效图像合成框架,通过轨迹分割一致性蒸馏(TSCD)、人类反馈学习(ReFL)和分数蒸馏等技术,显著降低了扩散模型在多步推理过程中的计算成本。该框架在保持高图像质量的同时,大幅减少了推理步骤,实现了快速生成高分辨率图像,推动了生成式AI技术的发展。

LLM Engineer Toolkit

一个精心整理的LLM工具库,它将120多个与LLM相关的库按照功能和用途进行了细致分类,涵盖了从训练微调、应用开发、推理服务到安全评估等 LLM 开发全流程所需的工具。

六合AI大模型

六合AI大模型,融合了众多主流语言模型,包括GPT3.5、GPT4.0、文心一言、讯飞星火、Midjourney、LLaMA等一站式AI智能平台。

MobileVD

MobileVD是Qualcomm AI Research团队开发的首个面向移动端优化的视频扩散模型,基于Stable Video Diffusion架构,通过降低帧分辨率、多尺度时间表示和剪枝技术,显著提升模型效率。其具备高效的去噪能力和低资源消耗,适用于短视频生成、视频编辑、游戏动画及互动视频等多种应用场景,为移动设备上的视频生成提供了强大支持。