图像处理 - 智狐AI导航

PaliGemma 2

PaliGemma 2是一款由Google DeepMind研发的视觉语言模型（VLM），结合了SigLIP-So400m视觉编码器与Gemma 2语言模型，支持多种分辨率的图像处理。该模型具备强大的知识迁移能力和出色的学术任务表现，在OCR、音乐乐谱识别以及医学图像报告生成等方面实现了技术突破。它能够处理多模态任务，包括图像字幕生成、视觉推理等，并支持量化和CPU推理以提高计算效率。

AI项目与工具 2025年06月12日 10 点赞 0 评论 714 浏览

Radiant Photo

Radiant Photo是一款基于AI技术的照片编辑软件，旨在通过智能算法优化照片色彩和细节。它支持手动与自动操作模式，并可作为独立应用或Photoshop/Lightroom插件使用。软件提供多种预设和工具，涵盖专业摄影、肖像修饰、风景摄影及活动记录等场景，助力用户快速提升照片质量并实现个性化定制。

AI项目与工具 2025年06月12日 84 点赞 0 评论 613 浏览

InfiMM

InfiMM-WebMath-40B是由字节跳动与中国科学院联合推出的大规模多模态数据集，涵盖大量数学和科学内容，包括文本、公式、符号及图像。该数据集通过筛选、清洗和标注优化，可显著提升多模态模型的数学推理能力。它适用于数学题库生成、学习工具开发、论文理解及科学研究等多个应用场景。 ---

AI项目与工具 2025年06月12日 100 点赞 0 评论 539 浏览

LEOPARD

LEOPARD是一款由腾讯AI Lab开发的视觉语言模型，专为处理包含大量文本的多图像任务而设计。它通过自适应高分辨率多图像编码模块和大规模多模态指令调优数据集，实现对复杂视觉语言任务的高效处理，包括跨图像推理、高分辨率图像处理及动态视觉序列长度优化。LEOPARD在自动化文档理解、教育、商业智能等领域具有广泛应用潜力。

AI项目与工具 2025年06月12日 35 点赞 0 评论 731 浏览

FLUX Tools是一套由黑森林实验室开发的增强型文本到图像模型工具，包含FLUX.1 Fill、FLUX.1 Depth、FLUX.1 Canny和FLUX.1 Redux四个模块，能够通过文本描述和掩码对图像进行精确编辑和扩展，支持图像修复、扩展、结构化引导、混合与再创作等功能。工具基于深度学习和神经网络技术，结合结构引导和文本到图像转换功能，适用于多种应用场景，包括数字艺术创作、游戏开发、

AI项目与工具 2025年06月12日 20 点赞 0 评论 538 浏览

洞图

洞图是一款集多功能于一体的AI图片处理工具，主要功能包括制作隐藏文字的幻觉图片、生成逼真的AI写真、智能擦除路人、照片动态化、AI换脸、美肤优化、风格滤镜应用以及照片清晰度提升等。其简洁的操作界面和强大处理能力，使用户能快速生成个性化图文素材，适用于多种应用场景，如社交媒体分享、隐私保护、形象照制作及照片修复等。

AI项目与工具 2025年06月12日 67 点赞 0 评论 777 浏览