自然语言处理
Scenethesis
Scenethesis是NVIDIA推出的AI框架,可通过文本生成高质量的3D场景。它结合LLM与视觉技术,经过布局规划、视觉细化、物理优化和场景验证四个阶段,确保生成结果具备物理合理性和空间连贯性。支持用户交互与多样化场景构建,广泛应用于VR/AR、游戏开发、具身智能及虚拟内容创作等领域。
Parakeet TDT 0.6B
Parakeet TDT 0.6B 是一款由英伟达开发的开源自动语音识别(ASR)模型,采用 FastConformer 和 TDT 架构,具备高速转录、高精度识别、歌词转录、文本格式化等功能。模型在 Hugging Face Open ASR Leaderboard 中表现优异,实时因子高达 3386,适用于会议记录、法律医疗、字幕生成及音乐索引等多种场景。
WebThinker
WebThinker是一款由多家科研机构联合开发的AI工具,旨在增强大型推理模型在复杂任务中的表现。它支持自主搜索、网页导航与实时报告生成,结合深度网页探索器和强化学习策略,提升信息获取与内容创作的效率与质量。适用于科学研究、数据分析、教育辅助等多种场景,显著增强了模型在知识密集型任务中的可靠性与实用性。