编码

S10.AI

S10.AI是一款基于人工智能的医疗辅助工具,主要功能包括实时生成精准的临床记录、EHR系统集成、自动化编码以及临床决策支持。它通过语音识别技术简化医生的工作流程,显著提升工作效率,同时保障数据安全与隐私合规。该工具适用于各类医疗机构、心理治疗机构及独立诊所,支持多语言转录并提供高度自定义选项。

mPLUG

mPLUG-Owl3是一款由阿里巴巴开发的多模态AI模型,专注于理解和处理多图及长视频内容。该模型具备高推理效率和准确性,采用创新的Hyper Attention模块优化视觉与语言信息的融合。它已在多个基准测试中展现出卓越性能,并且其源代码和资源已公开,可供研究和应用。

Aria

Aria是首个开源多模态原生混合专家(MoE)模型,支持文本、代码、图像和视频的综合处理,具有强大的多模态任务处理能力和长上下文窗口,可高效应对复杂长数据。模型开源且可扩展,适用于多模态AI领域的研究与应用。

Eagle

Eagle是一个由英伟达开发的多模态大模型,专长于处理高分辨率图像,提高视觉问答和文档理解能力。该模型采用多专家视觉编码器架构,通过简单的特征融合策略实现图像内容的深入理解。Eagle模型已开源,适用于多个行业,具有高分辨率图像处理、多模态理解、多专家视觉编码器、特征融合策略和预对齐训练等特点。

CogSound

CogSound是一款基于AI的音效生成工具,能够为无声视频添加与内容匹配的高质量音效,涵盖多种复杂场景。该工具通过先进的音视频特征匹配技术和优化的生成算法,提升了视频的沉浸感和真实感,广泛应用于视频创作、广告制作及影视后期等多个领域。

Grimoire

一款面向编码爱好者和创意人员的 GPT。它为网站制作提供了一种独特的手段,只需输入一句话即可生成一个网站。

SpatialVLA

SpatialVLA是一款由多机构联合研发的空间具身通用操作模型,具备强大的3D空间理解能力与跨平台泛化控制能力。通过Ego3D位置编码和自适应动作网格技术,实现精准的环境感知与动作生成。支持零样本任务执行与快速微调,适用于工业、物流、医疗等多个领域,推动机器人技术的发展与应用。

CodePal AI

CodePal是一个提供一系列编码助手和工具,帮助开发人员的平台。它适用于学生、初学者、经验丰富的开发人员以及希望改进开发流程的公司。

MV

MV-Adapter是一款基于文本到图像扩散模型的多视图一致图像生成工具,通过创新的注意力机制和条件编码器,实现了高分辨率多视角图像生成。其核心功能包括多视图图像生成、适配定制模型、3D模型重建以及高质量3D贴图生成,适用于2D/3D内容创作、虚拟现实、自动驾驶等多个领域。