PaliGemma 2 PaliGemma 2是一款由Google DeepMind研发的视觉语言模型(VLM),结合了SigLIP-So400m视觉编码器与Gemma 2语言模型,支持多种分辨率的图像处理。该模型具备强大的知识迁移能力和出色的学术任务表现,在OCR、音乐乐谱识别以及医学图像报告生成等方面实现了技术突破。它能够处理多模态任务,包括图像字幕生成、视觉推理等,并支持量化和CPU推理以提高计算效率。 AI项目与工具 2025年06月12日 10 点赞 0 评论 294 浏览
ChangeFace.AI 一种AI换脸工具,它允许用户上传一张高分辨率的单人照片,然后将自己的脸和一些有趣的图像进行交换,比如名人、动漫、艺术、卡通等。 Ai图片处理 2025年06月05日 92 点赞 0 评论 293 浏览
AI Face Studio AI Face Studio 是一款先进的 AI 面部变换与编辑工具,专为创意项目设计,提供人脸交换、衣物更换、视频转换、人脸编辑和风格转换等多种功能。 Ai视频生成 1970年01月01日 0 点赞 0 评论 288 浏览
MV MV-Adapter是一款基于文本到图像扩散模型的多视图一致图像生成工具,通过创新的注意力机制和条件编码器,实现了高分辨率多视角图像生成。其核心功能包括多视图图像生成、适配定制模型、3D模型重建以及高质量3D贴图生成,适用于2D/3D内容创作、虚拟现实、自动驾驶等多个领域。 AI项目与工具 2025年06月12日 23 点赞 0 评论 271 浏览
Piclumen Piclumen 是一款基于AI的图像生成工具,支持文本转图像、图像风格化、背景移除及图像修复等功能,可生成多种艺术风格的高质量图像。其高分辨率输出和便捷操作使其广泛应用于社交媒体、广告设计、艺术创作、游戏开发及教育领域,适合各类用户快速实现视觉创意。 AI项目与工具 2025年06月12日 91 点赞 0 评论 269 浏览
Vinteo AI 一款AI电商产品摄影和可视化产品设计工具,可帮助零售商、制造商等快速生成专业的电商产品视觉图,2 分钟内完成创作,具备背景移除、颜色校正、场景定制等功能。 Ai图片处理 2025年06月05日 69 点赞 0 评论 268 浏览
FancyVideo FancyVideo是一款由360公司与中山大学合作开发的AI文生视频模型,采用创新的跨帧文本引导模块(CTGM)。它能够根据文本描述生成连贯且动态丰富的视频内容,支持高分辨率视频输出,并保持时间上的连贯性。作为开源项目,FancyVideo提供了详尽的文档和代码库,便于研究者和开发者深入研究和应用。主要功能包括文本到视频生成、跨帧文本引导、时间信息注入及时间亲和度细化等。 AI项目与工具 2025年06月12日 28 点赞 0 评论 260 浏览
SnapGen SnapGen是一款由Snap Inc、香港科技大学和墨尔本大学联合开发的文本到图像扩散模型,专为移动设备设计,支持在1.4秒内生成1024×1024像素的高分辨率图像。它通过优化网络架构、跨架构知识蒸馏和对抗性训练等技术,在保持小模型规模的同时,提供了高质量的图像生成能力,适用于社交媒体、移动应用、教育、新闻等多个领域。 AI项目与工具 2025年06月12日 75 点赞 0 评论 245 浏览
Veo Veo是Google DeepMind开发的一款视频生成模型,用户可以通过文本、图像或视频提示来指导其生成所需的视频内容。Veo具备深入的自然语言理解能力,能够准确解析用户的文本提示,生成高质量、高分辨率的视频。其主要功能包括高分辨率视频输出、自然语言处理、风格适应性、创意控制与定制、遮罩编辑功能、参考图像与风格应用、视频片段的剪辑与扩展以及视觉连贯性。Veo技术目前仍处于实验阶段,但已在电影制作 AI项目与工具 2024年01月01日 34 点赞 0 评论 242 浏览