模型

LMEval

LMEval是谷歌推出的开源框架,用于简化大型语言模型(LLMs)的跨提供商评估。它支持多模态(文本、图像、代码)和多指标评估,兼容Google、OpenAI、Anthropic等主流模型提供商。LMEval基于增量评估引擎,节省时间和计算资源,并通过自加密的SQLite数据库安全存储评估结果。LMEvalboard提供交互式可视化界面,帮助用户分析模型性能并直观比较不同模型的优缺点。

DCEdit

DCEdit是一款基于双层控制机制的图像编辑工具,结合精确语义定位策略与视觉、文本自注意力优化,提升图像编辑的准确性和可控性。无需额外训练即可应用于现有扩散模型,支持复杂场景下的精细编辑任务,如对象替换、颜色调整等,适用于广告、影视、社交媒体等多个领域。

Tersa

Tersa 是一款开源免费的 AI 工作流构建平台,提供直观的拖放界面,支持 77 个主流 AI 模型,如 GPT-4o、Claude 3.5 Sonnet、DALL-E 3 和 Whisper 等,适用于文本生成、图像视频创作、音频转录和代码优化等多种任务。用户可通过拖放文件快速构建复杂流程,无需编程基础,广泛应用于内容生成、代码审查、原型开发和多模态功能集成等领域。

STIV

STIV是一款由苹果公司开发的视频生成大模型,具有8.7亿参数,擅长文本到视频(T2V)及文本图像到视频(TI2V)任务。它通过联合图像-文本分类器自由引导(JIT-CFG)技术提升生成质量,并结合时空注意力机制、旋转位置编码(RoPE)及流匹配训练目标优化性能。STIV支持多种应用场景,包括视频预测、帧插值、长视频生成等,适用于娱乐、教育、广告及自动驾驶等多个领域。

Flex3D

Flex3D是一款由Meta和牛津大学联合研发的两阶段3D生成框架,通过多视图扩散模型和视图筛选机制生成高质量3D模型,支持从文本、单张图片或稀疏视图生成逼真的3D内容。其核心在于基于Transformer架构的灵活重建模型(FlexRM),结合三平面表示与3D高斯绘制技术,实现高效且详细的三维重建,广泛应用于游戏开发、AR/VR、影视制作等领域。

Pippo

Pippo是由Meta Reality Labs研发的图像到视频生成模型,可基于单张照片生成多视角高清人像视频。采用多视角扩散变换器架构,结合ControlMLP模块与注意力偏差技术,实现更丰富的视角生成和更高的3D一致性。支持高分辨率输出及细节自动补全,适用于虚拟现实、影视制作、游戏开发等多个领域。技术方案涵盖多阶段训练流程,确保生成质量与稳定性。

TenereTeam AI工具集

TenereTeam为用户提供了一个广泛的目录,其中包含35个类别的1000 +多个创新AI工具。这些工具涵盖了人工智能的各个方面,包括文案、图像生成和 ChatGPT。

Llama Nemotron

Llama Nemotron是NVIDIA推出的推理模型系列,具备强大的复杂推理、多任务处理和高效对话能力,适用于企业级AI代理应用。模型基于Llama架构优化,采用神经架构搜索与知识蒸馏技术,提升计算效率。包含Nano、Super和Ultra三种版本,分别面向边缘设备、数据中心和高性能计算场景。广泛应用于科研、客服、医疗、物流和金融等领域。

自得语音

自得语音技术可通过简单的步骤创造出属于你的角色。类似GPT,可生成与真人无异的语音片段,在情感、音色和语速等方面与真人一致。

GPT智库

一款强大的人工智能大模型综合应用,提供智能对话、文生图、图生图、音频翻译、图像分析和全球学术资料搜索等多种功能。