编码

SpatialVLA

SpatialVLA是一款由多机构联合研发的空间具身通用操作模型,具备强大的3D空间理解能力与跨平台泛化控制能力。通过Ego3D位置编码和自适应动作网格技术,实现精准的环境感知与动作生成。支持零样本任务执行与快速微调,适用于工业、物流、医疗等多个领域,推动机器人技术的发展与应用。

ART

ART(Anonymous Region Transformer)是一种新型多层透明图像生成技术,支持基于全局文本提示和匿名区域布局生成多个独立透明图层(RGBA格式)。通过逐层区域裁剪机制,显著提升生成效率,速度快于传统方法12倍以上。具备高质量自编码器,支持50层以上的图像生成,减少图层冲突。广泛应用于艺术设计、内容创作、广告营销及科研等领域。

Pull Sense

Pull Sense 是一款基于 AI 的代码审查工具,支持 GitHub 集成,可自动检测语法错误、安全漏洞、性能问题及代码风格不一致等问题。用户可选择多种 AI 模型,并通过自带密钥确保数据安全。支持自定义规则、多语言覆盖及灵活触发机制,适用于初创公司、大型企业、开源项目及 CI/CD 流程,提升代码质量和开发效率。

UI2Code

UI2Code是一款基于AI技术的在线工具,可将UI设计图像快速转换为多种编程语言的代码。它支持HTML、CSS、JavaScript、React、Vue、Flutter、Swift等主流框架,具备智能识别、多框架适配和高效生成等功能。适用于设计师快速原型设计、开发者优化前端开发、跨平台项目以及教育领域的教学实践,有效提升开发效率和代码质量。

ENEL

ENEL是一种无编码器架构的3D大型多模态模型,通过直接处理点云数据并结合LLM实现高效语义编码与几何结构理解。其核心技术包括LLM嵌入的语义编码和分层几何聚合策略,在3D对象分类、字幕生成和视觉问答等任务中表现出色,性能接近更大规模模型。该模型适用于工业自动化、虚拟现实及复杂3D结构分析等领域。

MAETok

MAETok是一种基于掩码建模的图像标记化方法,通过自编码器结构学习更具语义丰富性的潜在空间,提升图像生成质量与训练效率。它支持高分辨率图像生成,具备多特征预测能力和灵活的潜在空间设计,适用于娱乐、数字营销、计算机视觉等多个领域。实验表明其在ImageNet数据集上表现优异。

EmoLLM

EmoLLM 是一款基于多模态技术的心理健康支持工具,能通过文本、图像和视频分析用户情绪,提供情绪识别、心理辅导和情感支持。其核心包括多视角视觉投影、情感引导提示和指令微调技术,支持个性化辅导、角色扮演及多轮对话,适用于心理健康评估与干预场景。

Gemini Coder

Gemini Coder 是一款基于 Google Gemini API 的 Web 开发工具,支持通过自然语言描述快速生成完整应用代码,并提供实时编辑与预览功能。它整合了 Next.js 和 Tailwind CSS,提升开发效率与用户体验。兼容多种 Gemini 模型,适用于原型开发、教育学习、小型应用构建等场景,是提高开发速度和灵活性的实用工具。

VITRON

VITRON是一款由多家顶尖机构联合研发的像素级视觉大型语言模型,具备强大的图像与视频处理能力,涵盖理解、生成、分割及编辑等功能。它融合了编码器-LLM-解码器架构、视觉-语言编码和视觉专家系统,支持多种视觉任务,广泛应用于图像编辑、视频创作、教育辅助、电商营销和新闻报道等领域。

Tennr

Tennr是一款利用AI技术优化医疗文档处理的平台,核心为RaeLM™视觉语言模型,支持文档分类、信息提取、资格审核等功能,广泛应用于患者入院、转诊管理、保险索赔等场景,显著提高医疗服务效率并降低人力依赖。