多模态

Mobvoi MCP Server

Mobvoi MCP Server是出门问问推出的一站式AI工具,集成语音生成、声音克隆、图片驱动数字人、视频配音等多模态能力。用户可通过简单输入文本调用功能,支持多客户端和多场景应用。基于标准化接口和开源生态,提供高效、灵活的数字生产力解决方案,适用于内容创作、虚拟主播、在线教育等多个领域。

MedRAX

MedRAX是一款面向胸部X光检查的医学推理AI系统,结合多模态大模型与专业工具,实现复杂医疗问题的动态处理。支持多步骤推理、精准诊断与多种影像分析功能,适用于临床支持、教育培训及远程医疗等场景。系统具备良好的扩展性与部署灵活性,已在多项基准测试中表现优异。

Dream

Dream-7B是由香港大学与华为诺亚方舟实验室联合开发的开源扩散模型,支持文本、数学和代码生成,具备双向上下文建模能力和灵活的生成控制。其在通用任务、数学推理和编程方面表现优异,适用于文本创作、数学求解、编程辅助及复杂任务规划等多种场景,提供高效且高质量的生成服务。

MedGemma

MedGemma是谷歌推出的开源AI模型,专注于医疗图像与文本分析。它包含4B参数的多模态模型和27B参数的纯文本模型。4B模型擅长解读医疗图像并生成诊断报告,27B模型则用于医疗文本理解与临床推理。支持本地运行或通过Google Cloud部署,适用于医疗诊断、患者分诊、临床决策辅助等场景,提升医疗服务效率与准确性。

食神

食神是老板电器研发的烹饪领域AI大模型,基于46年烹饪数据与DeepSeek技术,可精准理解用户需求。支持语音、文字交互,提供个性化菜谱推荐、健康膳食规划,并能与智能厨电联动,实现烹饪全流程自动化。同时具备文化讲解与情感陪伴功能,提升用户体验。适用于家庭烹饪、健康管理及文化体验等多个场景。

FLORA

FLORA是一款面向创意工作者的AI工具平台,通过节点式画布整合文本、图像和视频生成功能,支持故事分析、角色设计、分镜脚本生成及团队协作,提升创意流程效率,适用于视频创作、游戏开发、设计及教育等领域。

BGE

BGE-VL是由北京智源研究院联合高校开发的多模态向量模型,基于大规模合成数据MegaPairs训练,具备高效的多模态数据合成方法和强大的泛化能力。它支持图文检索、组合图像检索和多模态嵌入等功能,适用于智能搜索、内容推荐、图像编辑辅助等多个领域。模型在多种任务中表现优异,尤其在组合图像检索方面取得显著成果。

智谱API-免费领取

新用户免费领1亿tokens,基于领先的千亿级多语言、多模态预训练模型,打造高效率、通用化的“模型即服务”AI开发新范式。

LlamaV

LlamaV-o1是由阿联酋穆罕默德·本·扎耶德人工智能大学等机构开发的多模态视觉推理模型,具备结构化推理和透明性,支持文本、图像和视频等多种模态的信息处理。该模型引入了VRC-Bench基准测试,涵盖4000多个推理步骤,用于全面评估推理能力。其性能优于多个开源模型,适用于医疗影像分析、金融数据解读、教育辅助和工业检测等场景,具有高准确性和可解释性。

Kimi

Kimi-VL是月之暗面推出的轻量级多模态视觉语言模型,支持图像、视频、文档等多种输入形式。其基于轻量级MoE架构和原生分辨率视觉编码器,具备强大的图像感知、数学推理和OCR能力。在长上下文(128K)和复杂任务中表现优异,尤其在多模态推理和长视频理解方面超越同类模型。适用于智能客服、教育、医疗、内容创作等多个领域。