多模态

京点点

京点点是京东零售技术推出的AI内容生成平台,专为电商场景设计,支持商品图片、营销文案等多模态内容的高效生成。基于DiT框架、Flow Matching等先进技术,平台可精准提取商品信息并生成高质量素材,适用于多种电商场景。面向京东商家、合作伙伴及内部员工开放,助力提升内容生产效率与质量。

GoCharlie

GoCharlie 是一个专为零售行业设计的全栈 AI 平台,集成了定制化的大型语言模型 Charlie。它支持多模态数据处理,包括文本、图像、视频和音频,为企业提供内容创作、客户服务、营销活动策划及数据分析等全方位解决方案,帮助企业提升运营效率和客户满意度。

NVLM

NVLM是NVIDIA研发的多模态大型语言模型,涵盖图像理解、语言理解、跨模态融合、图像描述生成、视觉推理及多模态翻译等功能。它具备多种架构(NVLM-D、NVLM-X、NVLM-H),并采用动态高分辨率输入、1-D平铺标签设计及多模态预训练与微调技术,广泛应用于图像描述、视觉问答、文档理解、多模态搜索及辅助驾驶等领域。

RMBG

RMBG-2.0是一款基于先进AI技术的开源图像背景移除模型,通过深度学习和多模态数据处理实现了高达90.14%的准确率。该模型在高分辨率图像上经过大量训练,支持电子商务、广告、游戏开发等领域,具备高精度背景移除、多模态数据处理及云服务器无关架构等特点,为用户提供了高效、灵活的解决方案。

Omnitool

Omnitool是一款开源的AI桌面工具,提供统一界面整合多种AI模型,支持本地运行,保障数据隐私。兼容OpenAI、Stable Diffusion等主流平台,无需复杂配置即可实现图像生成、文本翻译、音频创建等功能。具备高扩展性,支持脚本和第三方工具集成,适用于从初学者到开发者的多场景应用,涵盖艺术创作、教育、企业开发等领域。

GPTder

通过GPTder发现和使用GPTs插件。任何人都可以轻松构建自己的GPT。使用GPTs连接到世界。

天翼AI开放平台

天翼AI开放平台是中国电信推出的AI技术服务平台,基于自研星辰大模型,提供问答、表格分析、文生图、多方言识别等功能,同时为企业提供大模型开发、AI中台等工具,覆盖政务、金融、工业等领域,支持多场景数字化创新。

Neural4D 2o

Neural4D 2o 是一款基于多模态数据训练的 3D 大模型,支持文本、图像、3D 和运动数据输入,实现高精度的 3D 内容生成与编辑。具备上下文一致性、角色身份保持、换装和风格迁移等功能,支持自然语言指令操作。采用 Transformer 编码器与 3D DiT 解码器架构,原生兼容 MCP 协议,提升创作效率与交互体验,适用于 3D 内容创作、游戏开发、影视动画等多个领域。

LongVU

LongVU是一款由Meta AI团队研发的长视频理解工具,其核心在于时空自适应压缩机制,可有效减少视频标记数量并保留关键视觉细节。该工具通过跨模态查询与帧间依赖性分析,实现了对冗余帧的剔除及帧特征的选择性降低,并基于时间依赖性进一步压缩空间标记。LongVU支持高效处理长视频,适用于视频内容分析、搜索索引、生成描述等多种应用场景。

OmniThink

OmniThink是由浙江大学与阿里巴巴通义实验室联合开发的机器写作框架,通过模拟人类学习和反思机制,提升文章的知识密度与深度。支持多种语言模型,具备信息树与概念池结构化管理功能,适用于学术写作、新闻报道、教育内容创作等多个领域,有效提高生成内容的质量与多样性。