多模态 - 智狐AI导航

Ming

Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型，基于MoE架构，支持文本、图像、音频和视频等多种模态的输入输出，具备强大的理解和生成能力。模型在多个任务中表现优异，如图像识别、视频理解、语音问答等，适用于OCR识别、知识问答、视频分析等多个领域。其高效处理能力和多模态交互特性，为用户提供一体化智能体验。

AI项目与工具 2025年06月11日 79 点赞 0 评论 456 浏览

GenMAC

GenMAC是一款基于多代理协作的迭代框架，旨在解决文本到视频生成中的复杂场景生成问题。它通过任务分解为设计、生成和重新设计三阶段，结合验证、建议、修正和输出结构化子任务，利用自适应自路由机制优化视频生成效果。该工具可应用于电影制作、游戏开发、广告设计、教育培训和新闻报道等多个领域，显著提升视频生成的效率和质量。

AI项目与工具 2025年06月12日 42 点赞 0 评论 453 浏览

RAGFlow是一个开源的RAG（Retrieval-Augmented Generation）引擎，通过深度学习模型解析和理解文档内容，并增强生成能力。它提供了多种功能，包括自动化工作流、包管理、安全漏洞检测与修复、即时开发环境、AI辅助代码编写以及代码审查。RAGFlow的技术原理涵盖了文档理解、检索增强、生成模型、注意力机制、多模态处理、上下文融合和优化算法。该工具适用于内容创作辅助、数据摘

AI项目与工具 2025年06月12日 10 点赞 0 评论 452 浏览

Free Video

Free Video-LLM是一种无需训练的高效视频语言模型，基于提示引导的视觉感知技术，可直接对视频内容进行理解和推理，适用于视频问答、内容分析等多种场景。通过时空采样优化和减少视觉标记，它在保持高性能的同时显著降低了计算复杂度。

AI项目与工具 2025年06月12日 50 点赞 0 评论 451 浏览

Bard PDF

一个用于汇总和分析 PDF 文档的终极 AI 驱动工具，AI Bard PDF允许用户通过自然对话上传PDF文档并与之交互。

AI写作对话 2025年06月05日 38 点赞 0 评论 451 浏览

MCA

MCA-Ctrl是由中科院计算所与国科大联合开发的图像定制生成框架，通过引入SAGI和SALQ注意力控制策略及主体定位模块，提升图像生成质量与一致性。支持零样本图像生成，适用于主体特征保持、背景一致性维护等多种任务，广泛应用于数字内容创作、广告设计、艺术创作等领域。

AI项目与工具 2025年06月11日 82 点赞 0 评论 451 浏览

ModelEngine

ModelEngine 是华为开源的全流程 AI 开发工具链，涵盖数据处理、模型训练与应用开发三大核心模块。支持多模态数据清洗、知识向量化及模型推理，提供低代码编排和 RAG 框架，适用于医疗、金融、制造等领域的 AI 应用开发与行业化落地。

AI项目与工具 2025年06月12日 75 点赞 0 评论 449 浏览

Mobile

Mobile-Agent 是一种具备移动能力的智能代理系统，能够跨设备执行任务并优化资源使用。基于多模态大语言模型和视觉感知技术，支持自动操作、自我规划与反思，适用于多应用协同、跨平台操作及纯视觉交互。其技术架构包含多个智能体协作机制，提升了移动设备任务处理的效率与灵活性。

AI项目与工具 2025年06月12日 18 点赞 0 评论 447 浏览

VisionFM

VisionFM是一款专为眼科设计的多模态多任务视觉基础模型，通过大规模预训练支持多种眼科成像模态处理，涵盖疾病筛查、诊断、预后预测、表型细分及全身性生物标志物分析等功能。其在疾病诊断上的表现超越了大部分眼科医生，并具备强大的泛化能力和少样本学习能力。

AI项目与工具 2025年06月12日 83 点赞 0 评论 446 浏览

Florence

Florence-2是微软Azure AI团队研发的多功能视觉模型，支持图像描述、目标检测、视觉定位和图像分割等功能。该模型基于Transformer架构，采用序列到序列学习方法，利用自注意力机制实现多模态信息融合。通过训练大规模数据集，Florence-2在多个应用场景中表现出色，包括图像和视频分析、内容审核、辅助驾驶、医疗影像分析以及零售和库存管理。

AI项目与工具 2025年06月12日 67 点赞 0 评论 444 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期