神经网络

LATTE3D

LATTE3D 是由英伟达多伦多AI实验室开发的一种高效生成高质量3D对象的模型。它基于文本描述,能在约400毫秒内生成逼真的3D内容。LATTE3D采用摊销优化方法,增强了对新提示的适应能力。该模型支持文本到3D合成、快速生成、高质量渲染及3D风格化功能,适用于多种应用场景。

Freestyler

Freestyler是一款由多机构合作开发的AI工具,专注于说唱音乐的自动化生成。它通过结合语言模型、条件流匹配技术和神经声码器,实现了从歌词和伴奏到高质量说唱音频的全流程转化。Freestyler还推出了RapBank数据集,并支持零样本音色控制,广泛应用于音乐创作、现场表演、游戏音效及教育等领域。

VoiceCraft

VoiceCraft是一款开源的神经编解码器语言模型,专攻零样本语音编辑和文本到语音(TTS)任务。它采用Transformer架构,通过token重排过程结合因果掩蔽和延迟叠加技术,实现在现有音频序列内高效生成自然的语音。VoiceCraft在多种口音、风格和噪声条件下表现出色,适用于有声读物制作、视频内容创作、播客音频编辑及多语言内容生产等场景。

Ai Drawing Generator

一个免费的在线AI图像生成器,它可以将用户提供的文本描述或者简单涂鸦转化为详细的图像。

Open Materials 2024

Open Materials 2024 (OMat24) 是Meta发布的开源数据集,包含超过1.1亿个无机材料的密度泛函理论(DFT)计算数据,并配备了预训练的图神经网络模型EquiformerV2。该模型在材料的基态稳定性及形成能预测方面具有卓越表现,为新材料的发现和设计提供了高效工具。其核心功能包括大规模数据集支持、高效的材料属性预测以及在多个领域(如能源、环境、催化等)的实际应用潜力。

千影 QianYing

千影 QianYing 是一款由巨人网络推出的 AI 工具,包含游戏视频生成大模型 YingGame 和视频配音大模型 YingSound。YingGame 支持角色动作交互控制与物理仿真,YingSound 具备视频语义理解和时间对齐能力,两者结合可生成高质量的有声游戏视频。该工具旨在降低游戏开发门槛,促进创作平等,并推动游戏行业的创新发展。

Micro LLAMA

Micro LLAMA 是一款基于简化版 Llama 3 模型的教学工具,通过约 180 行代码实现 8B 参数的最小化模型,支持自注意力机制和前馈神经网络。它提供 Jupyter 笔记本和 Conda 环境配置指南,帮助用户轻松学习和实验,特别适用于学术教学、研究开发和个人学习。

Deepfake Defenders

Deepfake Defenders 是一个由中国科学院自动化研究所的 VisionRush 团队开发的开源 AI 模型,主要用于检测和防御 Deepfake 技术生成的伪造图像和视频。它通过分析媒体内容中的细微像素变化来识别伪造内容,并提供像素级分析、实时检测等功能。该模型采用卷积神经网络(CNN)、生成对抗网络(GAN)等技术,支持多模态分析,具备开源协作特性,广泛应用于社交媒体监控、新闻验证

CityDreamer4D

CityDreamer4D是由南洋理工大学S-Lab开发的4D城市生成模型,通过分离动态与静态元素,结合模块化架构生成逼真城市环境。支持无边界扩展、风格化处理、局部编辑及多视角一致性,适用于城市规划、自动驾驶和虚拟现实等领域。采用高效鸟瞰图表示法与神经场技术,提升生成效率与质量。

OpenCity

OpenCity是一个由香港大学联合华南理工大学和百度共同研发的交通预测模型。该模型采用了Transformer架构和图神经网络,通过大规模预训练学习交通数据中的时空依赖关系,具有卓越的零样本预测能力和快速情境适应能力。OpenCity能够有效处理不同空间区域和时间的城市交通模式,并具备良好的可扩展性。其应用场景包括交通流量预测、交通拥堵分析、公共交通优化以及智能交通信号控制等。