模型 - 智狐AI导航

谷歌DeepMind推出V2A技术，可为无声视频添加逼真音效

DeepMind推出的V2A（Video-to-Audio）模型能够将视频内容与文本提示相结合，生成包含对话、音效和音乐的详细音频轨道。它不仅能够与DeepMind自身的视频生成模型Veo协同工作，还能与其他视频生成模型，如Sora、可灵或Gen 3等，进行集成，从而为视频添加戏剧性的音乐、逼真的音效或与视频中角色和情绪相匹配的对话。V2A的强大之处在于其能够为每个视频输入生成无限数量的音轨。该模

AI项目与工具 2025年06月12日 21 点赞 0 评论 607 浏览

Unique3D

Unique3D是一款由清华大学团队开发的开源框架，专注于单张图像到3D模型的转换。它利用多视图扩散模型和法线扩散模型，结合多级上采样策略和ISOMER算法，能够在短时间内生成高保真度且纹理丰富的3D网格模型。Unique3D能够从单个2D图像生成3D网格模型、多个正交视图图像和法线贴图，并通过多级上采样过程提高图像分辨率，最终实现颜色和几何细节的高度整合。

AI项目与工具 2025年06月12日 28 点赞 0 评论 790 浏览

琴乐大模型

琴乐大模型是一款由腾讯AI Lab与腾讯TME天琴实验室联合开发的人工智能音乐创作工具。该工具能够根据用户输入的关键词、描述性语句或音频，生成高质量的立体声音频或多轨乐谱，并支持自动编辑功能。琴乐大模型采用先进的技术框架，包括音频文本对齐、乐谱/音频表征提取、大语言模型预测以及流匹配和声码器技术，确保生成的音乐符合音乐理论和人类审美标准。

AI项目与工具 2025年06月12日 33 点赞 0 评论 756 浏览

Diffutoon

Diffutoon是一款基于扩散模型的AI框架，旨在将现实风格的视频转换为动漫风格。该框架支持高分辨率视频处理，能够实现风格化、一致性增强、结构引导和自动着色等功能。此外，Diffutoon具备内容编辑功能，用户可通过文本提示调整视频细节，确保视觉效果和内容的一致性。

AI项目与工具 2025年06月12日 45 点赞 0 评论 850 浏览

ExVideo

ExVideo是一种视频合成模型后调优技术，能够生成长达128帧的连贯视频，同时保持原始模型的生成能力。该技术通过优化3D卷积、时间注意力和位置嵌入等模块，使模型能够处理更长时间跨度的内容。ExVideo的核心优势在于其高效的后调优策略，减少计算资源需求，保持视频质量，适用于计算资源有限的情况。

AI项目与工具 2025年06月12日 57 点赞 0 评论 852 浏览

MOFA

MOFA-Video是由腾讯AI实验室和东京大学研究人员开发的开源图像生成视频模型。该工具通过生成运动场适配器对图像进行动画处理，能够通过稀疏控制信号（如手动轨迹、面部关键点序列或音频）实现对视频生成过程中动作的精准控制。MOFA-Video支持零样本学习，能够将多种控制信号组合使用，生成复杂的动画效果，并能生成较长的视频片段。 ---

AI项目与工具 2025年06月12日 22 点赞 0 评论 653 浏览

Gemma 2

Gemma 2是一款由谷歌DeepMind开发的开源人工智能模型，提供90亿和270亿参数版本。它具有卓越的性能、高效的推理速度和广泛的硬件兼容性，适用于各种应用场景。Gemma 2不仅支持多种AI框架，还提供了丰富的资源和工具，以支持开发者和研究人员负责任地构建和部署AI。

AI项目与工具 2025年06月12日 57 点赞 0 评论 900 浏览

FreeAskInternet

FreeAskInternet是一款免费开源的本地AI搜索引擎，集成了先进的大型语言模型和元搜索引擎，支持本地化搜索聚合和智能答案生成。它确保用户数据的私密性和安全性，无需GPU支持即可运行，并提供自定义的大型语言模型选项。此外，FreeAskInternet具备友好的用户界面，可通过简单的部署流程快速搭建。

AI项目与工具 2025年06月12日 76 点赞 0 评论 766 浏览

Moshi

Moshi是一款由法国Kyutai实验室开发的端到端实时音频多模态AI模型，具备听、说、看的能力，并能模拟70种不同的情绪和风格进行交流。Moshi具有多模态交互、情绪和风格表达、实时响应低延迟、语音理解与生成、文本和音频混合预训练以及本地设备运行等特点。它支持英语和法语，主要应用于虚拟助手、客户服务、语言学习、内容创作、辅助残障人士、研究和开发、娱乐和游戏等领域。

AI项目与工具 2025年06月12日 73 点赞 0 评论 939 浏览

PixVerse V2

PixVerse V2是一款基于Diffusion+Transformer（DiT）架构并结合自研时空注意力机制的AI视频生成工具。它支持生成长度可达40秒的视频，单个片段最长可达8秒，且能保持视频片段间的一致性。用户可通过简单操作生成并编辑视频，适用于创意专业人士、社交媒体用户、企业营销人员及独立艺术家等多种人群。

AI项目与工具 2025年06月12日 47 点赞 0 评论 1159 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期