视觉语言模型
Proxy Lite
Proxy Lite是一款开源的轻量级视觉语言模型,具有30亿参数,支持自动化网页操作。它通过“观察-思考-工具调用”机制,实现网页交互、数据抓取、表单填写等功能,适用于自动化测试、数据提取和智能任务辅助等场景。该工具资源占用低,可在消费级GPU上高效运行,适合开发者快速部署和使用。
PaliGemma 2
PaliGemma 2是一款由Google DeepMind研发的视觉语言模型(VLM),结合了SigLIP-So400m视觉编码器与Gemma 2语言模型,支持多种分辨率的图像处理。该模型具备强大的知识迁移能力和出色的学术任务表现,在OCR、音乐乐谱识别以及医学图像报告生成等方面实现了技术突破。它能够处理多模态任务,包括图像字幕生成、视觉推理等,并支持量化和CPU推理以提高计算效率。