多模态

WeaveFox

WeaveFox 是一款基于 AI 技术的前端开发平台,通过百灵多模态大模型实现从设计图到前端源代码的自动化生成,支持多端适配及多种技术栈。它不仅提高了开发效率和代码质量,还提供了灵活的二次调整功能,确保设计意图的精准还原。未来,WeaveFox 将开放更多应用场景,如快速原型开发、中后台页面构建以及移动端界面生成等。

VisionFM

VisionFM是一款专为眼科设计的多模态多任务视觉基础模型,通过大规模预训练支持多种眼科成像模态处理,涵盖疾病筛查、诊断、预后预测、表型细分及全身性生物标志物分析等功能。其在疾病诊断上的表现超越了大部分眼科医生,并具备强大的泛化能力和少样本学习能力。

Mobile

Mobile-Agent 是一种具备移动能力的智能代理系统,能够跨设备执行任务并优化资源使用。基于多模态大语言模型和视觉感知技术,支持自动操作、自我规划与反思,适用于多应用协同、跨平台操作及纯视觉交互。其技术架构包含多个智能体协作机制,提升了移动设备任务处理的效率与灵活性。

心影大模型

心影大模型是一款专注于游戏领域的AI工具,基于超百万条游戏数据训练,支持《原神》《艾尔登法环》等主流游戏,提供精准攻略查询、情感化角色互动、多模态交互等功能。其响应速度快,准确率高,适用于游戏辅导、情绪支持、心理陪伴等多种场景,提升用户体验与互动性。

Gemini 2.0

Gemini 2.0 是谷歌推出的原生多模态AI模型,具备快速处理文本、音频和图像的能力,支持多语言输出和实时音视频流输入。通过Agent技术和工具调用,Gemini 2.0 能够自主理解任务并提供解决方案,已在编程、数据分析、游戏等领域展示应用潜力。目前提供免费试用,计划逐步开放更多功能。

AudioX

AudioX 是一种基于多模态输入的音频生成模型,支持文本、视频、图像等多种输入方式,能够生成高质量的音频和音乐。其核心创新在于多模态掩码训练策略,提升了跨模态理解和生成能力。具备零样本生成、自然语言控制及强大的泛化能力,适用于视频配乐、动画音效、音乐创作等多个场景。

硅基流动

SiliconCloud 是硅基流动推出的一站式大模型云服务平台。

Free Video

Free Video-LLM是一种无需训练的高效视频语言模型,基于提示引导的视觉感知技术,可直接对视频内容进行理解和推理,适用于视频问答、内容分析等多种场景。通过时空采样优化和减少视觉标记,它在保持高性能的同时显著降低了计算复杂度。

生成时代

AIGC 多模态 API 平台,提供 AIGC 图像生成、图像编辑、视频生成、视频编辑、音频生成、训推一体等 API,免去 GPU 和模型维护成本,帮助开发者快速搭建 AIGC 应用。

MCA

MCA-Ctrl是由中科院计算所与国科大联合开发的图像定制生成框架,通过引入SAGI和SALQ注意力控制策略及主体定位模块,提升图像生成质量与一致性。支持零样本图像生成,适用于主体特征保持、背景一致性维护等多种任务,广泛应用于数字内容创作、广告设计、艺术创作等领域。