多模态 - 智狐AI导航

LLMDet

LLMDet是一款基于大型语言模型协同训练的开放词汇目标检测器，能够识别训练阶段未见过的目标类别。其通过结合图像和文本信息，实现高精度的零样本检测，并支持图像描述生成与多模态任务优化，适用于多种实际应用场景。

AI项目与工具 2025年06月12日 68 点赞 0 评论 608 浏览

BuboGPT | 字节大模型

BuboGPT是由字节跳动开发的大型语言模型,能够处理多模态输入,包括文本、图像和音频,并具有将其响应与视觉对象相对应的独特能力。

Ai平台模型 2025年06月05日 99 点赞 0 评论 609 浏览

OmniBooth

OmniBooth是一款由华为诺亚方舟实验室与香港科技大学联合开发的图像生成框架，支持基于文本或图像的多模态指令控制及实例级定制。它通过高维潜在控制信号实现对图像中对象位置和属性的精准操控，具备多模态嵌入提取、空间变形技术以及特征对齐网络等功能，广泛应用于数据集生成、内容创作、游戏开发、虚拟现实及广告营销等领域。

AI项目与工具 2025年06月12日 46 点赞 0 评论 610 浏览

TimeSuite是一种由上海AI Lab开发的框架，专注于提升多模态大型语言模型在长视频理解任务中的表现。它通过引入高效的长视频处理框架、高质量的视频数据集TimePro和Temporal Grounded Caption任务，提升了模型对视频内容的时间感知能力，减少了幻觉风险，并显著提高了长视频问答和时间定位任务的性能。其核心技术包括视频令牌压缩、时间自适应位置编码、U-Net结构及多样化任务

AI项目与工具 2025年06月12日 78 点赞 0 评论 610 浏览

Looooooong Kimi

Looooooong Kimi 是一款专注于超长文本处理的智能工具，支持高达200万汉字的文本分析，具备文档上传与解析、多文件处理、网址阅读、实时搜索、语言翻译以及多模态信息识别等功能。该工具广泛应用于学术研究、法律分析、市场调研、教育辅导和技术支持等多个领域，能够高效提取和整理信息，满足用户对复杂文本处理的需求。

AI项目与工具 2025年06月12日 61 点赞 0 评论 611 浏览

AgentScope

AgentScope是一个由阿里巴巴集团开源的多智能体开发平台，支持构建和部署复杂的多智能体应用。它提供易用的拖拽式界面、实时监控和丰富的开发资源，涵盖聊天、图像生成、文本嵌入等任务。AgentScope具备高鲁棒性、分布式支持及容错机制，同时支持多模态数据处理和外部知识库的整合，适用于智能助手、客户服务、软件工程、社会模拟和教育培训等多个应用场景。

AI项目与工具 2025年06月12日 59 点赞 0 评论 611 浏览

MedGemma

MedGemma是谷歌推出的开源AI模型，专注于医疗图像与文本分析。它包含4B参数的多模态模型和27B参数的纯文本模型。4B模型擅长解读医疗图像并生成诊断报告，27B模型则用于医疗文本理解与临床推理。支持本地运行或通过Google Cloud部署，适用于医疗诊断、患者分诊、临床决策辅助等场景，提升医疗服务效率与准确性。

AI项目与工具 2025年06月11日 81 点赞 0 评论 612 浏览

Florence

Florence-2是微软Azure AI团队研发的多功能视觉模型，支持图像描述、目标检测、视觉定位和图像分割等功能。该模型基于Transformer架构，采用序列到序列学习方法，利用自注意力机制实现多模态信息融合。通过训练大规模数据集，Florence-2在多个应用场景中表现出色，包括图像和视频分析、内容审核、辅助驾驶、医疗影像分析以及零售和库存管理。

AI项目与工具 2025年06月12日 67 点赞 0 评论 612 浏览

一念智能创作平台

基于百度文心大模型打造的集文、图、视频、数字人多种内容模态于一体的内容创作平台。

AI写作对话 2025年06月05日 83 点赞 0 评论 612 浏览

商汤日日新 | SenseNova

商汤日日新垂直领域场景落地应用丰富。

Ai平台模型 2025年06月05日 20 点赞 0 评论 612 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期