自回归 - 智狐AI导航

VoiceCraft

VoiceCraft是一款开源的神经编解码器语言模型，专攻零样本语音编辑和文本到语音（TTS）任务。它采用Transformer架构，通过token重排过程结合因果掩蔽和延迟叠加技术，实现在现有音频序列内高效生成自然的语音。VoiceCraft在多种口音、风格和噪声条件下表现出色，适用于有声读物制作、视频内容创作、播客音频编辑及多语言内容生产等场景。

AI项目与工具 2024年01月01日 31 点赞 0 评论 654 浏览

SongGen

SongGen是一款由多家高校和研究机构联合开发的单阶段自回归Transformer模型，能够根据文本生成高质量音乐。它支持混合模式和双轨模式输出，可分别生成人声与伴奏，便于后期编辑。SongGen通过创新的音频标记化和训练策略，显著提升了人声清晰度和音乐自然度。其开源特性及高质量数据集为音乐生成研究提供了新基准，适用于音乐创作、视频配乐、教育辅助等多个领域。

AI项目与工具 2025年06月12日 78 点赞 0 评论 638 浏览

MetaMorph

MetaMorph是一款基于多模态大模型的工具，通过Visual-Predictive Instruction Tuning（VPiT）技术实现文本和视觉token的生成。它在视觉理解和生成领域表现优异，能够克服其他生成模型的常见失败模式，同时有效处理专业术语和复杂语义问题。MetaMorph展示了统一建模方法的优势，支持多模态数据的高效处理，并在视觉生成与理解基准测试中取得竞争力表现。

AI项目与工具 2025年06月12日 53 点赞 0 评论 630 浏览

MovieDreamer

MovieDreamer是一个由浙江大学与阿里巴巴联合开发的AI视频生成框架，专为长视频设计。该框架结合自回归模型和扩散渲染技术，生成复杂的长视频内容。它支持多层次叙事一致性、高质量视觉渲染和多模态脚本，适用于电影预告片、VR叙事、教育视频和游戏内剧情等多种场景。

AI项目与工具 2025年06月12日 34 点赞 0 评论 628 浏览

AIMv2

AIMv2是苹果公司开发的开源多模态自回归预训练视觉模型，通过图像与文本的深度融合提升视觉理解能力。其采用图像块与子词标记拼接的方式进行自回归预训练，支持多种参数规模，适用于不同设备。具备视觉问答、指代表达理解、图像字幕生成、多媒体检索等功能，并可无缝集成到大型语言模型中。模型在多个视觉任务中表现优异，具备良好的可扩展性和零样本适应能力。

AI项目与工具 2025年06月12日 48 点赞 0 评论 618 浏览

UniFluid

UniFluid是由谷歌DeepMind与麻省理工学院联合开发的统一自回归框架，支持图像生成与视觉理解任务。它通过连续视觉标记处理多模态输入，结合Gemma模型和VAE技术，实现高质量图像生成与强大视觉理解能力。该框架在图像编辑、视觉问答和图像描述等任务中表现出色，具备良好的下游任务迁移能力，适用于创意设计、内容创作等多个领域。

AI项目与工具 2025年06月12日 54 点赞 0 评论 612 浏览

Grok

Grok-1是由xAI公司开发的大型语言模型，具备3140亿参数，是目前参数量最大的开源大语言模型之一。该模型基于Transformer架构，专用于自然语言处理任务，如问答、信息检索、创意写作和编码辅助等。尽管在信息处理方面表现出色，但需要人工审核以确保准确性。此外，Grok-1还提供了8bit量化版本，以降低存储和计算需求。

AI项目与工具 2024年01月01日 10 点赞 0 评论 608 浏览

Seed Music

一个强大的音乐生成工具，它通过先进的技术手段，如自回归模型和扩散模型，为用户提供了从音乐创作到编辑再到声音转换的全方位服务。这套系统不仅能够生成高质量的音乐作品，还能...

创作工具 1970年01月01日 0 点赞 0 评论 596 浏览

LanDiff

LanDiff是一种结合自回归语言模型和扩散模型的文本到视频生成框架，采用粗到细的生成策略，有效提升语义理解与视觉质量。其核心功能包括高效语义压缩、高质量视频生成、语义一致性保障及灵活控制能力。支持长视频生成，降低计算成本，适用于视频制作、VR/AR、教育及社交媒体等多个领域。

AI项目与工具 2025年06月12日 92 点赞 0 评论 587 浏览

VideoPoet是一款基于大模型的AI视频生成工具，支持从文本、图像或视频输入中合成高质量的视频内容及匹配的音频。其核心优势在于多模态大模型设计，能够处理和转换不同类型的输入信号，无需特定数据集或扩散模型即可实现多种风格和动作的视频输出。主要功能包括文本到视频转换、图像到视频动画、视频风格化、视频编辑和扩展、视频到音频转换以及多模态学习等。技术原理涉及多模态输入处理、解码器架构、预训练与任务适应

AI项目与工具 2024年01月01日 98 点赞 0 评论 578 浏览

自回归

首页

自回归

列表

默认

浏览次数

发布日期