AI项目与工具

ProPainter

ProPainter是一款由南洋理工大学S-Lab团队开发的AI视频修复工具,其核心功能包括自动检测并移除视频中的不需要物体、修补缺失或损坏部分以及扩展视频视野。该工具采用了双域传播技术和蒙版引导的稀疏视频Transformer,旨在提供高质量的视频修复解决方案,广泛应用于电影后期制作、历史视频修复、社交媒体内容创作及虚拟现实等领域。 ---

Nemotron

Nemotron-Mini-4B-Instruct是一款由英伟达开发的小型开源语言模型,针对角色扮演、检索增强生成(RAG)及函数调用任务进行了优化。模型基于Transformer架构,利用蒸馏、剪枝和量化技术提升运行效率与设备端适配能力,适用于实时交互场景,如游戏NPC对话或虚拟助手交互。其快速响应特性使其在客户服务、教育软件及内容创作领域也展现出巨大潜力。

MagicTailor

MagicTailor 是一款基于 DM-Deg 和 DS-Bal 技术的新型 AI 工具,支持组件可控的个性化图像生成。它能够动态干扰不需要的视觉语义,平衡概念与组件的学习,从而显著提升生成图像的质量和控制精度。MagicTailor 的核心功能包括组件可控个性化、动态掩码退化、双流平衡、解耦生成及多组件控制,适用于广告、游戏、电影制作等多个领域。

MisoraAI

Misora AI是一款集成了深度学习与自然语言处理技术的智能搜索引擎,具备快速搜索、精准匹配及自然语言交互等功能。它不仅能为用户提供即时的文本查询结果,还能生成创意内容如诗歌、故事等,并支持图像描述服务。Misora AI适用于多种场景,包括日常信息查询、学术研究、工作辅助以及娱乐资讯获取,为用户提供了便捷高效的智能化解决方案。

Flow

Flow是谷歌推出的AI电影制作工具,整合了Veo 3、Imagen 4和Gemini 2.5等多个AI模型,能根据文本提示生成完整的电影场景或短片,保持连贯性。用户可通过“Camera Controls”操作镜头,“Scenebuilder”编辑场景,“Asset Management”管理创意元素,并通过“Flow TV”学习交流。目前仅对美国的谷歌AI Pro和AI Ultra订阅用户开放。

GCDance

GCDance是一款由英国萨里大学与江南大学联合开发的3D舞蹈生成框架,可根据音乐和文本提示生成风格可控的全身舞蹈序列。它结合多粒度音乐特征融合与CLIP模型文本嵌入技术,实现舞蹈动作与音乐节奏的高度同步。支持多种舞蹈风格生成、局部编辑及高质量全身动作输出,适用于VR、游戏开发、舞蹈教学等场景。

Toucan TTS

Toucan TTS是一款由德国斯图加特大学自然语言处理研究所开发的文本到语音合成工具箱。它基于Python和PyTorch构建,支持超过7000种语言及多种方言和变体。主要功能包括多说话人语音合成、语音风格克隆、人机交互编辑、语音参数调整以及发音清晰度和性别特征调整。该工具箱适用于语音模型教学、文字朗读和多语言应用开发等场景,并提供在线交互式演示功能,方便用户快速理解和使用。

ExVideo

ExVideo是一种视频合成模型后调优技术,能够生成长达128帧的连贯视频,同时保持原始模型的生成能力。该技术通过优化3D卷积、时间注意力和位置嵌入等模块,使模型能够处理更长时间跨度的内容。ExVideo的核心优势在于其高效的后调优策略,减少计算资源需求,保持视频质量,适用于计算资源有限的情况。

书生·万象InternVL 2.5

书生·万象InternVL 2.5是一款开源多模态大型语言模型,基于InternVL 2.0升级而来。它涵盖了从1B到78B不同规模的模型,支持多种应用场景,包括图像和视频分析、视觉问答、文档理解和信息检索等。InternVL 2.5在多模态理解基准上表现优异,性能超越部分商业模型,并通过链式思考技术提升多模态推理能力。

Polymet

Polymet是一款基于AI的产品设计平台,支持用户通过描述需求或上传图片快速生成原型,并提供可直接部署的代码输出。它与Figma等工具无缝集成,具备强大的编辑与迭代能力,适用于产品开发、设计迭代、跨部门协作以及教育等领域,助力团队高效完成创意到产品的转化过程。