自注意力 - 智狐AI导航

UniEdit

UniEdit 是一个强大的视频编辑工具，它通过利用预训练的文本到视频生成器，在无需调优的情况下，提供了一种简单而有效的方法来编辑视频的运动和外观。

Ai平台模型 2026年08月01日 0 点赞 0 评论 407 浏览

DiT

创新的图像生成模型，它通过结合扩散模型和Transformer架构，实现了在图像生成任务中的高效和高质量输出。其可扩展性和条件生成能力使其在多个领域都有广泛的应用潜力。

Ai平台模型 2026年08月01日 0 点赞 0 评论 447 浏览

DCEdit

DCEdit是一款基于双层控制机制的图像编辑工具，结合精确语义定位策略与视觉、文本自注意力优化，提升图像编辑的准确性和可控性。无需额外训练即可应用于现有扩散模型，支持复杂场景下的精细编辑任务，如对象替换、颜色调整等，适用于广告、影视、社交媒体等多个领域。

AI项目与工具 2025年06月12日 15 点赞 0 评论 575 浏览

Florence

Florence-2是微软Azure AI团队研发的多功能视觉模型，支持图像描述、目标检测、视觉定位和图像分割等功能。该模型基于Transformer架构，采用序列到序列学习方法，利用自注意力机制实现多模态信息融合。通过训练大规模数据集，Florence-2在多个应用场景中表现出色，包括图像和视频分析、内容审核、辅助驾驶、医疗影像分析以及零售和库存管理。

AI项目与工具 2025年06月12日 67 点赞 0 评论 621 浏览

xLAM

xLAM 是 Salesforce 开源的一款大型语言模型，专为功能调用任务设计。该模型具备多语言支持、预训练模型、迁移学习、自然语言处理等主要功能，并基于 Transformer 架构实现。它在多个基准测试中表现出色，适用于自动化任务、模板共享、插件开发和教育等多个应用场景。

AI项目与工具 2025年06月12日 55 点赞 0 评论 699 浏览

Micro LLAMA

Micro LLAMA 是一款基于简化版 Llama 3 模型的教学工具，通过约 180 行代码实现 8B 参数的最小化模型，支持自注意力机制和前馈神经网络。它提供 Jupyter 笔记本和 Conda 环境配置指南，帮助用户轻松学习和实验，特别适用于学术教学、研究开发和个人学习。

AI项目与工具 2025年06月12日 77 点赞 0 评论 747 浏览

DesignEdit

DesignEdit是一个由微软亚洲研究院和北京大学的研究人员共同开发的AI图像编辑框架。它采用了多层潜在分解和融合技术，能够实现对象移除、移动、调整大小、翻转、相机平移和缩放等复杂图像编辑任务。DesignEdit还支持跨图像元素的组合，特别适用于设计图像和海报的编辑。通过关键掩码自注意力机制和伪影抑制方案，DesignEdit能够在不破坏图像整体连贯性的情况下，实现高精度的空间感知图像编辑。

AI项目与工具 2024年01月01日 28 点赞 0 评论 786 浏览

Generative Omnimatte

Generative Omnimatte 是一种基于 AI 的视频编辑技术，通过其核心模型 Casper 实现视频的多层次分解与编辑。它能够自动分离物体与背景，并支持动态背景处理及多对象场景的精细编辑。主要功能包括视频分层、对象移除、背景替换、Trimask 控制等，广泛应用于电影制作、广告设计、游戏开发及虚拟现实领域。

AI项目与工具 2025年06月12日 10 点赞 0 评论 792 浏览

MotionCLR

MotionCLR是一款利用自注意力和交叉注意力机制的人体动作生成与编辑工具。它能够根据文本提示生成动作，并支持多种编辑操作，如动作强调、减弱、替换、擦除及风格迁移。MotionCLR在动作生成的精度、多样性及编辑灵活性上表现出色，广泛应用于游戏开发、动画制作、虚拟现实等领域。

AI项目与工具 2025年06月12日 100 点赞 0 评论 820 浏览

Pixtral Large

Pixtral Large是一款由Mistral AI开源的超大规模多模态模型，具备1240亿参数，支持文本、图像和图表的理解与生成。它拥有128K的上下文窗口，能在多语言环境中处理复杂文档和多图像场景，广泛应用于教育、医疗、客服和内容审核等领域。

AI项目与工具 2025年06月12日 39 点赞 0 评论 828 浏览

自注意力

首页

自注意力

列表

默认

浏览次数

发布日期