数据集 - 智狐AI导航

LongVILA

LongVILA是一款专为长视频理解设计的视觉语言AI模型，由多家知名研究机构共同开发。它具备强大的长上下文处理能力和多模态序列并行性，能在大量GPU上高效训练，无需梯度检查点。LongVILA通过五阶段训练流程，结合大规模数据集构建和高性能推理，显著提升了长视频字幕的准确性和处理效率。此外，它还支持多种应用场景，包括视频字幕生成、内容分析、视频问答系统等。

AI项目与工具 2025年06月12日 52 点赞 0 评论 559 浏览

CogView

CogView-3-Plus是智谱AI研发的AI文生图模型，采用Transformer架构替代传统的UNet，优化了扩散模型中的噪声规划。它能够根据用户指令生成高质量、高美学评分的图像，支持多种分辨率，并具有实时生成图像的能力。该模型已被集成到“智谱清言”APP中，并提供API服务，适用于艺术创作、游戏设计、广告制作等多个图像生成领域。

AI项目与工具 2025年06月12日 64 点赞 0 评论 827 浏览

GameNGen

GameNGen是谷歌推出的一款AI游戏引擎，它能够以每秒20帧的速度实时生成高质量的DOOM游戏画面，使大多数玩家难以分辨真假。该工具无需编程，简化了开发流程，同时具备高逼真度和交互式体验，为游戏创作提供了新的可能性。除了游戏开发，它还能应用于虚拟现实、自动驾驶等多个领域，具有广泛的应用前景。

AI项目与工具 2025年06月12日 66 点赞 0 评论 492 浏览

LMMs

LMMs-Eval 是一个用于多模态AI模型的统一评估框架，提供标准化、广泛覆盖且成本效益高的性能评估解决方案。它支持超过50个任务和10多个模型，并通过透明和可复现的评估流程帮助研究者和开发者全面了解模型能力。LMMs-Eval 还引入了 LMMs-Eval Lite 和 LiveBench，分别通过精简数据集降低评估成本并动态更新评估数据集，以确保模型泛化能力的有效评估。

AI项目与工具 2025年06月12日 86 点赞 0 评论 577 浏览

LongWriter

LongWriter是一款由清华大学与智谱AI合作开发的长文本生成模型，能够生成超过10,000字的连贯文本。该模型基于增强的长上下文大型语言模型，采用了直接偏好优化（DPO）技术和AgentWrite方法，能够处理超过100,000个token的历史记录。LongWriter适用于多种应用场景，包括学术研究、内容创作、出版行业、教育领域和新闻媒体等。

AI项目与工具 2025年06月12日 67 点赞 0 评论 714 浏览

xGen

xGen-MM是一款由Salesforce开发的开源多模态AI模型，具备处理文本和图像等数据类型的能力。该模型通过学习大量图像和文字信息，在视觉语言任务中表现出色，并通过开源模型、数据集和微调代码库促进模型性能的提升。xGen-MM具有多模态理解、大规模数据学习、高性能生成、开源可访问和微调能力等特点。其应用场景广泛，包括图像描述生成、视觉问答、文档理解、内容创作和信息检索等。

AI项目与工具 2025年06月12日 57 点赞 0 评论 557 浏览

Glyph

Glyph-ByT5-v2是一个由多家知名学术机构合作开发的多语言视觉文本渲染工具。它支持10种不同语言的视觉文本渲染，通过构建包含大量字形-文本对和平面设计图像-文本对的数据集，结合先进的步骤感知偏好学习技术，显著提升了视觉文本的拼写准确性和审美质量。该工具适用于平面设计、广告制作、数字艺术、出版行业及品牌标识设计等多个领域。 ---

AI项目与工具 2025年06月12日 20 点赞 0 评论 829 浏览

Genie

Genie是一款由Cosine AI开发的AI编程助手，能够自动解析问题、迭代分析、编写和运行代码。它在SWE-Bench基准测试中表现出色，解决率高达30.07%。Genie利用大量真实编程数据进行训练，并具备自我改进机制。该工具广泛应用于软件开发的多个阶段，包括需求分析、设计、编码、测试和维护，尤其擅长代码生成、缺陷修复、代码审查和系统重构。

AI项目与工具 2025年06月12日 22 点赞 0 评论 770 浏览

数据集

首页

数据集

列表

默认

浏览次数

发布日期