Transformer

MiLoRA

MiLoRA是一种参数高效的大型语言模型微调方法,通过奇异值分解将权重矩阵分为主要和次要两部分,专注于次要部分的优化以降低计算成本,同时保持模型的高精度和高效性。它在自然语言处理任务中表现出色,适用于文本分类、情感分析、问答系统等多个领域,并在多租户环境和实时内容生成中展现出显著优势。 ---

豆包AI视频模型

豆包AI视频模型包括PixelDance和Seaweed两款工具,分别基于DiT和Transformer架构。PixelDance擅长处理复杂指令和多主体互动,适合制作情节丰富的短片;Seaweed支持多分辨率输出,生成高质量、高逼真的视频,适用于商业领域。两者均提供多样化的风格选择和输出格式,满足不同场景需求。 ---

LTX Video

LTX Video是一款基于开源架构的AI视频生成工具,利用先进的扩散Transformer技术和2亿参数的DiT架构,能够在短时间内生成高质量视频。其功能涵盖实时生成、运动一致性保障、开源可扩展性及广泛的硬件兼容性,适用于游戏、广告、影视等多种行业,为用户提供高效的视频生成解决方案。

PixVerse V2

PixVerse V2是一款基于Diffusion+Transformer(DiT)架构并结合自研时空注意力机制的AI视频生成工具。它支持生成长度可达40秒的视频,单个片段最长可达8秒,且能保持视频片段间的一致性。用户可通过简单操作生成并编辑视频,适用于创意专业人士、社交媒体用户、企业营销人员及独立艺术家等多种人群。

Tora

Tora是阿里推出的一个强大的视频生成工具,它通过集成多种条件来创造高质量的视频内容。其主要优势在于对运动轨迹的精确控制和对物理世界运动的真实模拟,这使得Tora在视频内容创...

Mellum

Mellum 是 JetBrains 推出的一款专为开发者设计的大型语言模型(LLM),通过深度集成 JetBrains IDE,提供低延迟、高精度的代码补全服务,支持多种编程语言,显著提升开发效率。其训练数据仅限于公开可用且许可宽松的代码,保障用户隐私。

FLOAT

FLOAT是一款基于音频驱动的虚拟人像生成模型,利用运动潜在空间和流匹配技术,实现时间一致性视频生成。它支持情感增强,生成自然且富有表现力的虚拟人物,广泛应用于虚拟主播、视频会议、社交媒体、游戏以及电影制作等多个领域,同时具备高效的采样和生成能力。

Flux.1 Lite

Flux.1 Lite是一款轻量级AI图像生成模型,基于Transformer架构,通过参数优化和精度保持技术,在减少内存占用的同时提升运行速度。其主要功能包括高质量图像生成、资源优化、快速部署及广泛适用性,适用于个人创作、教育、游戏开发、数字艺术以及广告营销等多个领域。

GLM

GLM-4-Flash是一款由智谱AI开发的免费大模型API,具备强大的多轮对话、多语言处理能力以及网页检索和代码执行等功能。它利用深度学习技术,尤其是Transformer架构,来实现高效的语言处理和生成。该工具广泛应用于客户服务、内容创作、语言翻译、教育辅助和编程辅助等多个领域,为用户提供了一个全面而高效的AI解决方案。

VideoPoet

VideoPoet是一款基于大模型的AI视频生成工具,支持从文本、图像或视频输入中合成高质量的视频内容及匹配的音频。其核心优势在于多模态大模型设计,能够处理和转换不同类型的输入信号,无需特定数据集或扩散模型即可实现多种风格和动作的视频输出。主要功能包括文本到视频转换、图像到视频动画、视频风格化、视频编辑和扩展、视频到音频转换以及多模态学习等。技术原理涉及多模态输入处理、解码器架构、预训练与任务适应