admin的文章

阶跃星辰推出移动端AI智能问答助手跃问APP

跃问是一款基于阶跃星辰Step系列通用大模型开发的移动应用，具备强大的文本和图像处理能力，能够高效完成内容创作、逻辑推理、数据分析等任务。该应用支持联网搜索、文档解析、推理速度优化，并具备拍照识图和语音输入功能。跃问还提供了高效阅读、智能问答、写作翻译和多端同步等功能，为用户提供便捷的信息获取和处理体验。

449 0

Hallo是由复旦大学、百度公司、苏黎世联邦理工学院和南京大学的研究团队共同开发的一种基于人工智能的肖像图像动画技术。该技术通过分层音频驱动视觉合成、端到端扩散模型、交叉注意力机制、UNet去噪器、时间对齐技术和参考网络等方法，实现了音频与视觉输出的高精度同步。Hallo具备音频同步动画、面部表情生成、头部姿态控制、个性化动画定制、时间一致性维护以及动作多样性等主要功能，显著提升了视频动画的真实感

502 0

Gen

Gen-3 Alpha是一款由Runway公司研发的AI视频生成模型，能够生成长达10秒的高清视频片段，支持文本到视频、图像到视频的转换，并具备精细的时间控制及多种高级控制模式。其特点在于生成逼真的人物角色、复杂的动作和表情，提供运动画笔、高级相机控制和导演模式等高级控制工具，确保内容的安全性和合规性。

453 0

谷歌DeepMind推出V2A技术，可为无声视频添加逼真音效

DeepMind推出的V2A（Video-to-Audio）模型能够将视频内容与文本提示相结合，生成包含对话、音效和音乐的详细音频轨道。它不仅能够与DeepMind自身的视频生成模型Veo协同工作，还能与其他视频生成模型，如Sora、可灵或Gen 3等，进行集成，从而为视频添加戏剧性的音乐、逼真的音效或与视频中角色和情绪相匹配的对话。V2A的强大之处在于其能够为每个视频输入生成无限数量的音轨。该模

396 0

Unique3D

Unique3D是一款由清华大学团队开发的开源框架，专注于单张图像到3D模型的转换。它利用多视图扩散模型和法线扩散模型，结合多级上采样策略和ISOMER算法，能够在短时间内生成高保真度且纹理丰富的3D网格模型。Unique3D能够从单个2D图像生成3D网格模型、多个正交视图图像和法线贴图，并通过多级上采样过程提高图像分辨率，最终实现颜色和几何细节的高度整合。

518 0

琴乐大模型

琴乐大模型是一款由腾讯AI Lab与腾讯TME天琴实验室联合开发的人工智能音乐创作工具。该工具能够根据用户输入的关键词、描述性语句或音频，生成高质量的立体声音频或多轨乐谱，并支持自动编辑功能。琴乐大模型采用先进的技术框架，包括音频文本对齐、乐谱/音频表征提取、大语言模型预测以及流匹配和声码器技术，确保生成的音乐符合音乐理论和人类审美标准。

543 0

Diffutoon

Diffutoon是一款基于扩散模型的AI框架，旨在将现实风格的视频转换为动漫风格。该框架支持高分辨率视频处理，能够实现风格化、一致性增强、结构引导和自动着色等功能。此外，Diffutoon具备内容编辑功能，用户可通过文本提示调整视频细节，确保视觉效果和内容的一致性。

638 0

ExVideo

ExVideo是一种视频合成模型后调优技术，能够生成长达128帧的连贯视频，同时保持原始模型的生成能力。该技术通过优化3D卷积、时间注意力和位置嵌入等模块，使模型能够处理更长时间跨度的内容。ExVideo的核心优势在于其高效的后调优策略，减少计算资源需求，保持视频质量，适用于计算资源有限的情况。

634 0

Toucan TTS

Toucan TTS是一款由德国斯图加特大学自然语言处理研究所开发的文本到语音合成工具箱。它基于Python和PyTorch构建，支持超过7000种语言及多种方言和变体。主要功能包括多说话人语音合成、语音风格克隆、人机交互编辑、语音参数调整以及发音清晰度和性别特征调整。该工具箱适用于语音模型教学、文字朗读和多语言应用开发等场景，并提供在线交互式演示功能，方便用户快速理解和使用。

636 0

MOFA

MOFA-Video是由腾讯AI实验室和东京大学研究人员开发的开源图像生成视频模型。该工具通过生成运动场适配器对图像进行动画处理，能够通过稀疏控制信号（如手动轨迹、面部关键点序列或音频）实现对视频生成过程中动作的精准控制。MOFA-Video支持零样本学习，能够将多种控制信号组合使用，生成复杂的动画效果，并能生成较长的视频片段。 ---

452 0

admin

TA的文章