多模态任务

WebSSL

WebSSL是由Meta和纽约大学等机构开发的视觉自监督学习模型，基于大规模网络图像数据训练，无需语言监督即可学习有效视觉表示。其包含多个变体，参数规模从3亿到70亿不等，在多模态任务如视觉问答、OCR和图表理解中表现出色。通过筛选含文本图像数据，显著提升特定任务性能。模型具备良好的扩展性，适用于智能客服、文档处理、医疗影像分析等多个领域。

AI项目与工具 2025年06月11日 92 点赞 0 评论 746 浏览

Miras

Miras是由谷歌开发的深度学习框架，专注于序列建模任务。它基于关联记忆和注意力偏差机制，整合多种序列模型并支持新型模型设计。Miras通过保留门机制优化记忆管理，提升模型在长序列任务中的表现，适用于语言建模、常识推理、长文本处理及多模态任务，具有高效且灵活的架构优势。

AI项目与工具 2025年06月11日 58 点赞 0 评论 593 浏览

BGE

BGE-VL是由北京智源研究院联合高校开发的多模态向量模型，基于大规模合成数据MegaPairs训练，具备高效的多模态数据合成方法和强大的泛化能力。它支持图文检索、组合图像检索和多模态嵌入等功能，适用于智能搜索、内容推荐、图像编辑辅助等多个领域。模型在多种任务中表现优异，尤其在组合图像检索方面取得显著成果。

AI项目与工具 2025年06月12日 14 点赞 0 评论 467 浏览

PaliGemma 2

PaliGemma 2是一款由Google DeepMind研发的视觉语言模型（VLM），结合了SigLIP-So400m视觉编码器与Gemma 2语言模型，支持多种分辨率的图像处理。该模型具备强大的知识迁移能力和出色的学术任务表现，在OCR、音乐乐谱识别以及医学图像报告生成等方面实现了技术突破。它能够处理多模态任务，包括图像字幕生成、视觉推理等，并支持量化和CPU推理以提高计算效率。

AI项目与工具 2025年06月12日 10 点赞 0 评论 674 浏览

Free Video

Free Video-LLM是一种无需训练的高效视频语言模型，基于提示引导的视觉感知技术，可直接对视频内容进行理解和推理，适用于视频问答、内容分析等多种场景。通过时空采样优化和减少视觉标记，它在保持高性能的同时显著降低了计算复杂度。

AI项目与工具 2025年06月12日 50 点赞 0 评论 451 浏览

多模态任务

首页

多模态任务

列表

默认

浏览次数

发布日期

WebSSL

Miras

BGE

PaliGemma 2

Free Video

多模态任务 首页 多模态任务

列表 默认 浏览次数 发布日期

WebSSL

Miras

BGE

PaliGemma 2

Free Video

多模态任务

首页

多模态任务

列表

默认

浏览次数

发布日期