开源专题

Long

Long-VITA是一款由腾讯优图实验室、南京大学和厦门大学联合开发的多模态AI模型，支持处理超长文本（超过100万tokens）及多模态输入（图像、视频、文本）。通过分阶段训练提升上下文理解能力，结合动态分块编码器与并行推理技术，实现高效处理长文本和高分辨率图像。模型基于开源数据训练，适用于视频分析、图像识别、长文本生成等场景，性能在多个基准测试中表现突出。

AI项目与工具 2025年06月12日 65 点赞 0 评论 785 浏览

T2V

T2V-Turbo 是一种高效的文本到视频生成模型，能够快速生成高质量视频，同时确保文本与视频的高度一致性。它通过一致性蒸馏技术和混合奖励机制优化生成过程，适用于电影制作、新闻报道、教育及营销等多个领域，支持从创意草图到成品视频的全流程加速。

AI项目与工具 2025年06月12日 16 点赞 0 评论 511 浏览

NPOA

NPOA是一款开源的舆情监测工具，支持实时数据采集、情感分析、话题分类及多渠道媒体分析，适用于企业品牌管理、政府舆论监控、市场研究等多个领域。系统提供预警机制、可视化报告和大屏展示功能，便于用户快速获取关键信息并做出应对。

AI项目与工具 2025年06月12日 60 点赞 0 评论 651 浏览

StereoCrafter

StereoCrafter是一款由腾讯AI Lab与ARC Lab联合开发的创新性工具，可将传统2D视频转化为高质量的立体3D视频。它采用深度估计、视频变形及立体视频修复等关键技术，确保生成的3D视频具备高保真度和一致性。该工具广泛应用于影视制作、虚拟现实（VR）、增强现实（AR）、游戏开发等领域，为用户提供更加沉浸式的视觉体验。

AI项目与工具 2025年06月12日 69 点赞 0 评论 536 浏览

See3D

See3D是一款基于视觉条件技术的3D生成模型，能够通过大规模无标注的互联网视频学习3D先验知识，实现从文本、单视图或稀疏视图到3D内容的高效转化。其核心功能包括3D编辑、高斯渲染及基于稀疏图片的3D重建，支持在物体级与场景级复杂相机轨迹下生成长序列视图。此外，See3D还适用于游戏开发、建筑设计、电商展示、AR/VR等多个领域的创新应用。

AI项目与工具 2025年06月12日 25 点赞 0 评论 460 浏览

OpenSPG

OpenSPG是一款基于SPG框架的知识图谱引擎，融合了LPG的结构性与RDF的语义性，旨在解决RDF/OWL语义复杂性问题。它提供了明确的语义表示、逻辑规则定义及灵活的算子框架，支持多种基础引擎和服务适配，广泛应用于金融、企业运营、客户服务、搜索引擎、医疗健康等领域。

AI项目与工具 2025年06月12日 73 点赞 0 评论 715 浏览

MooER

MooER是一款基于国产全功能GPU训练的开源音频理解大模型，由摩尔线程推出。它能够进行中文和英文的语音识别，并具备中译英的语音翻译能力。MooER在Covost2中译英测试集中取得25.2的BLEU分数，接近工业级标准。其主要功能包括语音识别、语音翻译、高效率训练以及开源模型。该模型采用深度学习架构和端到端训练模式，具有强大的多语言处理能力和广泛的适用性。

AI项目与工具 2025年06月12日 41 点赞 0 评论 867 浏览

SongGen

SongGen是一款由多家高校和研究机构联合开发的单阶段自回归Transformer模型，能够根据文本生成高质量音乐。它支持混合模式和双轨模式输出，可分别生成人声与伴奏，便于后期编辑。SongGen通过创新的音频标记化和训练策略，显著提升了人声清晰度和音乐自然度。其开源特性及高质量数据集为音乐生成研究提供了新基准，适用于音乐创作、视频配乐、教育辅助等多个领域。

AI项目与工具 2025年06月12日 78 点赞 0 评论 640 浏览