数据集

Genie

Genie是一款由Cosine AI开发的AI编程助手,能够自动解析问题、迭代分析、编写和运行代码。它在SWE-Bench基准测试中表现出色,解决率高达30.07%。Genie利用大量真实编程数据进行训练,并具备自我改进机制。该工具广泛应用于软件开发的多个阶段,包括需求分析、设计、编码、测试和维护,尤其擅长代码生成、缺陷修复、代码审查和系统重构。

Glyph

Glyph-ByT5-v2是一个由多家知名学术机构合作开发的多语言视觉文本渲染工具。它支持10种不同语言的视觉文本渲染,通过构建包含大量字形-文本对和平面设计图像-文本对的数据集,结合先进的步骤感知偏好学习技术,显著提升了视觉文本的拼写准确性和审美质量。该工具适用于平面设计、广告制作、数字艺术、出版行业及品牌标识设计等多个领域。 ---

xGen

xGen-MM是一款由Salesforce开发的开源多模态AI模型,具备处理文本和图像等数据类型的能力。该模型通过学习大量图像和文字信息,在视觉语言任务中表现出色,并通过开源模型、数据集和微调代码库促进模型性能的提升。xGen-MM具有多模态理解、大规模数据学习、高性能生成、开源可访问和微调能力等特点。其应用场景广泛,包括图像描述生成、视觉问答、文档理解、内容创作和信息检索等。

LongWriter

LongWriter是一款由清华大学与智谱AI合作开发的长文本生成模型,能够生成超过10,000字的连贯文本。该模型基于增强的长上下文大型语言模型,采用了直接偏好优化(DPO)技术和AgentWrite方法,能够处理超过100,000个token的历史记录。LongWriter适用于多种应用场景,包括学术研究、内容创作、出版行业、教育领域和新闻媒体等。

LMMs

LMMs-Eval 是一个用于多模态AI模型的统一评估框架,提供标准化、广泛覆盖且成本效益高的性能评估解决方案。它支持超过50个任务和10多个模型,并通过透明和可复现的评估流程帮助研究者和开发者全面了解模型能力。LMMs-Eval 还引入了 LMMs-Eval Lite 和 LiveBench,分别通过精简数据集降低评估成本并动态更新评估数据集,以确保模型泛化能力的有效评估。

GameNGen

GameNGen是谷歌推出的一款AI游戏引擎,它能够以每秒20帧的速度实时生成高质量的DOOM游戏画面,使大多数玩家难以分辨真假。该工具无需编程,简化了开发流程,同时具备高逼真度和交互式体验,为游戏创作提供了新的可能性。除了游戏开发,它还能应用于虚拟现实、自动驾驶等多个领域,具有广泛的应用前景。

CogView

CogView-3-Plus是智谱AI研发的AI文生图模型,采用Transformer架构替代传统的UNet,优化了扩散模型中的噪声规划。它能够根据用户指令生成高质量、高美学评分的图像,支持多种分辨率,并具有实时生成图像的能力。该模型已被集成到“智谱清言”APP中,并提供API服务,适用于艺术创作、游戏设计、广告制作等多个图像生成领域。

LongVILA

LongVILA是一款专为长视频理解设计的视觉语言AI模型,由多家知名研究机构共同开发。它具备强大的长上下文处理能力和多模态序列并行性,能在大量GPU上高效训练,无需梯度检查点。LongVILA通过五阶段训练流程,结合大规模数据集构建和高性能推理,显著提升了长视频字幕的准确性和处理效率。此外,它还支持多种应用场景,包括视频字幕生成、内容分析、视频问答系统等。

OmniCorpus

OmniCorpus是上海人工智能实验室联合多家知名高校和研究机构共同创建的一个大规模多模态数据集,包含86亿张图像和16960亿个文本标记,支持中英双语。它通过整合来自网站和视频平台的文本和视觉内容,提供了丰富的数据多样性。OmniCorpus不仅规模庞大,而且数据质量高,适合多模态机器学习模型的训练和研究。它广泛应用于图像识别、视觉问答、图像描述生成和内容推荐系统等领域。

Docmatix

Docmatix 是一个专为文档视觉问答任务设计的大规模数据集,包含240万张图像和950万个问题-答案对,源自130万个PDF文档。数据集覆盖广泛,包括扫描图片、PDF文件和数字文档,且具有高质量的问答对。Docmatix 支持模型训练和微调,可用于训练视觉语言模型,提高其在理解和回答与文档内容相关问题方面的性能。应用场景包括自动化客户服务、智能文档分析、教育和学术研究以及业务流程自动化等。