模型

Jina Reader

Jina Reader是一款由Jina AI开发的开源工具,专注于将互联网上的HTML网页内容转换为适合大型语言模型处理的纯文本格式。它支持多种内容格式,具备流模式、JSON模式和Alt生成模式等功能,能够高效提取网页核心内容,去除冗余信息,并通过自然语言处理和动态内容处理技术提升文本质量和理解能力。Jina Reader适用于内容聚合、SEO优化、学术研究及个性化推荐等多个领域。

DeepFloyd

DeepFloyd IF是一个强大的文本到图像生成模型,能够生成高分辨率和逼真度的图像。它结合了先进的语言理解和图像生成技术,提供了多种功能,如超分辨率、风格迁移和零样本学习。

SearchAgent

SearchAgent-X是由南开大学和伊利诺伊大学厄巴纳香槟分校(UIUC)研究人员开发的高效推理框架,旨在提升基于大型语言模型(LLM)的搜索Agent效率。通过高召回率的近似检索、优先级感知调度和无停顿检索等技术,显著提高系统吞吐量(1.3至3.4倍),降低延迟(降至原来的1/1.7至1/5),同时保持生成质量。该框架优化资源利用率,适用于智能客服、搜索引擎、企业知识管理等多种场景,为复杂A

JoyCaption

JoyCaption是一款开源图像提示词生成工具,支持多种图像风格和内容类型,具备丰富的生成模式和灵活的提示控制功能。它适用于社交媒体、图像标注、内容创作、视觉辅助及教育等多个场景,能够生成高质量的描述性字幕和提示词,提升图像处理和创作效率。该工具性能优越,且完全免费开放。

Stable Video 3D (SV3D)

Stable Video 3D(SV3D)是一款由Stability AI公司开发的多视角合成和3D生成模型,能够从单张图片生成一致的多视角图像,并进一步优化生成高质量的3D网格模型。该模型在视频扩散模型基础上进行改进,提供更好的质量和多视角体验。主要功能包括多视角视频生成、3D网格创建、轨道视频生成、相机路径控制以及新视角合成。SV3D在新视角合成方面取得显著进展,能够生成逼真且一致的视图,提升

Amazon Nova Premier

Amazon Nova Premier 是亚马逊推出的多模态 AI 模型,支持文本、图像和视频输入,具备超长上下文处理能力(最高达 100 万 token),适用于复杂任务处理、多步骤规划与跨数据源执行。可通过模型蒸馏生成轻量级版本,优化生产部署。支持多语言,具备安全控制机制,广泛应用于金融、法律、软件开发等领域。

QVQ

QVQ是一个基于Qwen2-VL-72B的开源多模态推理模型,擅长处理文本、图像等多模态数据,具备强大的视觉理解和复杂问题解决能力。它在数学和科学领域的视觉推理任务中表现出色,但在实际应用中仍需解决语言切换、递归推理及图像细节关注等问题。QVQ可广泛应用于教育、自动驾驶、医疗图像分析、安全监控及客户服务等领域。

视界一粟YiSu

北京极佳视界科技有限公司联合清华大学自动化系共同发布的Sora级视频生成大模型。

LlamaV

LlamaV-o1是由阿联酋穆罕默德·本·扎耶德人工智能大学等机构开发的多模态视觉推理模型,具备结构化推理和透明性,支持文本、图像和视频等多种模态的信息处理。该模型引入了VRC-Bench基准测试,涵盖4000多个推理步骤,用于全面评估推理能力。其性能优于多个开源模型,适用于医疗影像分析、金融数据解读、教育辅助和工业检测等场景,具有高准确性和可解释性。

深言科技

深言科技是一家由孙茂松教授和其学生一同创办的创业公司,致力于使用世界领先的人工智能和自然语言处理技术,为数亿脑力劳动深言科技(DeepLang AI)者和数千万组织的信息处理全流...