视频
Pixel Reasoner
Pixel Reasoner是由多所高校联合开发的视觉语言模型,通过像素空间推理增强对视觉信息的理解和分析能力。它支持直接对图像和视频进行操作,如放大区域或选择帧,以捕捉细节。采用两阶段训练方法,结合指令调优和好奇心驱动的强化学习,提升视觉推理性能。在多个基准测试中表现优异,适用于视觉问答、视频理解等任务,广泛应用于科研、教育、工业质检和内容创作等领域。
Video Alchemist
Video Alchemist是一款由Snap公司研发的视频生成模型,支持多主体和开放集合的个性化视频生成。它基于Diffusion Transformer模块,通过文本提示和参考图像生成视频内容,无需测试优化。模型引入自动数据构建和图像增强技术,提升主体识别能力。同时,研究团队提出MSRVTT-Personalization基准,用于评估视频个性化效果。该工具适用于短视频创作、动画制作、教育、剧
Stable Artisan
Stable Artisan是一款基于Discord平台的图像和视频生成机器人服务,利用Stability AI的AI技术和模型,如Stable Diffusion 3和Stable Video Diffusion,使用户能够通过自然语言提示生成高质量的图像和视频。此外,它还提供了一系列图像编辑工具,包括搜索替换、背景去除、高清放大、扩展外延、控制素描和结构等功能,适用于创意人士、设计师、内容创作
