自然语言处理

MineWorld

MineWorld是由微软研究院开发的基于《我的世界》的实时交互式AI模型,采用视觉-动作自回归Transformer架构,实现高保真、可控性强的场景生成。通过并行解码算法,模型可在每秒4至7帧的速度下实现实时交互,适用于具身智能、强化学习、游戏代理及视频生成等场景。其核心技术包括图像与动作标记器、Transformer解码器以及优化的训练与推理流程。

Spring.new

Spring.new 是一款低代码/无代码 AI 开发平台,允许用户通过自然语言创建和部署定制化应用,无需编程。支持多工具集成,具备实时调整功能,并兼容多种 AI 模型,适用于营销、反馈管理及轻量级 CRM 构建等多种场景。

Droidrun

Droidrun是一款基于AI的Android设备自动化工具,结合视觉识别、UI解析与LLM推理技术,支持自然语言控制和多平台部署。它能执行复杂任务自动化,具备自愈机制、多LLM兼容性及丰富的扩展接口,适用于AI助手、数据交互、测试验证等多种场景。

飞扬Ai助手

专注于工作交付场景的AI助手,像巴黎欧莱雅一样值得拥有!

HumanOmni

HumanOmni 是一款面向人类中心场景的多模态大模型,融合视觉与听觉信息,具备情感识别、面部描述、语音理解等功能。基于大量视频与指令数据训练,采用动态权重调整机制,支持多模态交互与场景理解。适用于影视分析、教育、广告及内容创作等领域,具备良好的可扩展性和灵活性。

OpenELM

OpenELM是苹果公司推出的一系列高效开源语言模型,涵盖从2.7亿到30亿参数规模的不同版本。该模型基于Transformer架构,采用层间缩放策略优化参数分配,使用分组查询注意力(GQA)和SwiGLU激活函数等技术。OpenELM在公共数据集上预训练,并在多项自然语言处理任务中展现出色性能。模型代码和预训练权重已公开,旨在促进开放研究和社区发展。

Amazon Nova

Amazon Nova是亚马逊云服务推出的一套强大的AI基础模型系列,涵盖文本、图像和视频生成等多个领域。其核心产品包括Amazon Nova Micro(专注文本处理)、Amazon Nova Lite(多模态低成本模型)、Amazon Nova Pro(多模态平衡型模型)、Amazon Nova Premier(复杂推理模型)、Amazon Nova Canvas(图像生成模型)和Amazon

Quasar Alpha

Quasar Alpha是一款预发布AI模型,具备100万token的超大上下文窗口,可高效处理长文本和复杂文档。其在代码生成、指令遵循、多模态处理等方面表现出色,支持联网搜索以增强信息准确性。适用于代码开发、长文本分析、创意写作及智能问答等多种场景,目前可通过OpenRouter平台免费使用,存在一定请求限制。

YT Navigator

YT Navigator 是一款基于 AI 的 YouTube 内容检索工具,支持自然语言查询、语义搜索和视频内容交互。用户可快速定位视频片段并获取时间戳,提升信息获取效率。适用于研究、学习、创作和分析等场景,具备频道管理、安全会话等功能。采用向量嵌入与 BM25 算法结合的搜索机制,提高搜索准确率,项目已开源。

Long

Long-VITA是一款由腾讯优图实验室、南京大学和厦门大学联合开发的多模态AI模型,支持处理超长文本(超过100万tokens)及多模态输入(图像、视频、文本)。通过分阶段训练提升上下文理解能力,结合动态分块编码器与并行推理技术,实现高效处理长文本和高分辨率图像。模型基于开源数据训练,适用于视频分析、图像识别、长文本生成等场景,性能在多个基准测试中表现突出。