多模态

Oryx

Oryx是一款由清华大学、腾讯和南洋理工大学联合开发的多模态大型语言模型,专为处理视觉数据设计。其核心技术包括预训练的OryxViT模型和动态压缩模块,支持任意分辨率的图像处理及高效的视觉数据压缩。Oryx在空间和时间理解上表现优异,广泛应用于智能监控、自动驾驶、人机交互、内容审核、视频编辑及教育等领域。

万兴天幕大模型

万兴天幕大模型是万兴科技AILab的创新成果,展现了其在多媒体领域的深厚技术积累和前瞻性布局。通过自研技术和多年行业经验,天幕大模型为全球创作者提供了一个强大的工具,以实现...

HuggingSnap

HuggingSnap 是一款基于 Hugging Face 的 AI 助手应用,采用轻量级多模态模型 SmolVLM2,支持图像、视频和文本的本地处理与生成。具备即时视觉描述、多语言文字识别与翻译、隐私保护等功能,适用于旅行、日常辅助、医疗及零售等场景,确保用户数据安全。

BetterYeah

斑头雁BattleYeah AI,AI机器人构建平台,简单、易用、全新交互形式,API无缝集成至企业系统,帮助企业实现AI生产力革命。

AI教师助手

AI教师助手是北京外研在线数字科技有限公司推出的一款多功能教学辅助工具,它通过智能化技术帮助教师提高教学效率,同时也为学生提供个性化的学习体验。

山海大模型

山海大模型是一款由云知声推出的多模态人工智能模型,具备强大的知识储备和多模态交互能力。它能够通过文本、音频和图像等形式与用户进行实时互动,提供信息查询、知识学习和灵感激发等服务。主要功能包括内容生成与理解、知识问答、逻辑推理、代码能力以及多模态交互特色,如实时响应、情绪感知、音色切换和视觉场景理解。该模型可应用于智能客服、教育辅助、医疗咨询、个人助理和内容创作等多个领域。

olmOCR

olmOCR 是一款开源 PDF 文档处理工具,结合文档锚定技术和 Qwen2-VL-7B-Instruct 模型,可高效提取结构化文本并保留原始布局。支持多种文档类型,具备大规模批量处理能力和低成本优势,适用于学术研究、法律文件处理、企业文档管理及数字图书馆建设等多个场景。其开源特性与可扩展性也增强了用户的使用灵活性。

LMArena AI

前身为lmsys.org,是一个专注于众包AI基准测试的开放平台,用户可以在此平台上免费与AI聊天并进行投票,比较和测试不同的AI聊天机器人。

Aria

Aria是首个开源多模态原生混合专家(MoE)模型,支持文本、代码、图像和视频的综合处理,具有强大的多模态任务处理能力和长上下文窗口,可高效应对复杂长数据。模型开源且可扩展,适用于多模态AI领域的研究与应用。

Tough Tongue AI 2.0

Tough Tongue AI 2.0 是一款多模态对话训练工具,适用于面试、职场沟通、销售谈判等多种场景。用户可自定义AI角色与语气,通过视频和音频反馈练习非语言沟通技巧,并获得个性化反馈以提升表达能力。支持多语言使用,可无限重试,便于反复练习。具备嵌入功能,方便集成到其他平台。