语言模型

Skyvern

Skyvern是一款基于开源的浏览器自动化工具,集成了大型语言模型和计算机视觉技术,用于实现网页内容解析、交互计划生成及执行。其主要功能涵盖CAPTCHA解决、双因素认证支持、代理网络配置、可解释AI操作以及数据提取等,适用于网站数据抓取、表单填写、网页测试等多种应用场景。

Flowise

Flowise 是一款开源的低代码/无代码平台,支持用户通过可视化界面快速构建和部署基于大语言模型的应用。它提供拖拽式工作流设计、多模型集成、丰富的组件库以及灵活的部署方式,适用于智能客服、文档分析、推荐系统等多种场景。支持本地与云端部署,具备企业级安全特性,适合各类开发者与企业使用。

MobileLLM

MobileLLM是一款针对移动设备优化的大型语言模型,具有语言理解与生成、零样本常识推理、聊天交互、API调用、文本重写与摘要生成以及数学问题解决等功能。它通过深度薄型架构、SwiGLU激活函数、嵌入共享和分组查询注意力机制等技术,在低参数环境下实现高效性能,适用于移动聊天、语音助手、内容推荐、教育辅助和移动搜索等多种应用场景。

PUMA

PUMA是一款先进的多模态大型语言模型,专注于通过整合多粒度视觉特征提升视觉生成与理解能力。它支持文本到图像生成、图像编辑、条件图像生成及多粒度视觉解码等功能,适用于艺术创作、媒体娱乐、广告营销等多个领域,凭借其强大的多模态预训练和微调技术,成为多模态AI领域的前沿探索。

WebDreamer

WebDreamer是一款基于大型语言模型的网络智能体,专注于通过模拟和预测网络交互结果来进行高效的任务规划与决策。它具备模拟函数、评分函数以及候选动作生成等功能,能够显著提升网络任务执行的效率与安全性,同时支持多种应用场景,包括网页自动化、智能搜索、客户服务等领域。

OmniManip

OmniManip是由北京大学与智元机器人联合实验室开发的通用机器人操作框架,结合视觉语言模型与三维操作技术,实现机器人在非结构化环境中的任务执行。其核心为以对象为中心的交互基元表示法,支持零样本泛化、跨平台部署及大规模仿真数据生成。通过双闭环系统设计与任务分解机制,提升操作精度与适应性,适用于日常操作、工业自动化及服务机器人等场景。

ELLA

ELLA(Efficient Large Language Model Adapter)是一种由腾讯研究人员开发的方法,旨在提升文本到图像生成模型的语义对齐能力。它通过引入时序感知语义连接器(TSC),动态提取预训练大型语言模型(LLM)中的时序依赖条件,从而提高模型对复杂文本提示的理解能力。ELLA无需重新训练,可以直接应用于预训练的LLM和U-Net模型,且能与现有模型和工具无缝集成,显著提升

VARGPT

VARGPT是一款多模态大语言模型,整合了视觉理解和生成任务于统一的自回归框架中。它通过next-token和next-scale预测机制,支持文本与图像的混合输入和输出,具备高效的视觉生成能力。模型采用三阶段训练策略,提升了在视觉问答、推理及图像生成任务中的表现。适用于多模态内容创作、指令到图像合成等场景。

SearchAgent

SearchAgent-X是由南开大学和伊利诺伊大学厄巴纳香槟分校(UIUC)研究人员开发的高效推理框架,旨在提升基于大型语言模型(LLM)的搜索Agent效率。通过高召回率的近似检索、优先级感知调度和无停顿检索等技术,显著提高系统吞吐量(1.3至3.4倍),降低延迟(降至原来的1/1.7至1/5),同时保持生成质量。该框架优化资源利用率,适用于智能客服、搜索引擎、企业知识管理等多种场景,为复杂A

子曰大模型

子曰是网易有道推出的教育领域垂直大模型,包含基于子曰大模型研发的六大创新应用——“LLM翻译”、“虚拟人口语教练”、“AI作文指导”、“语法精讲”、“AI Box”以及“文档问答”。