模型

HiCo

HiCo是一款基于扩散模型的层次化可控布局到图像生成工具,采用多分支结构设计,能够精确控制对象的位置和文本描述,解决复杂布局中的常见问题。该工具支持高分辨率图像生成,兼容多种快速生成插件,并在多目标布局生成任务中表现出色,适用于图像编辑、游戏设计、虚拟现实等多个领域。

s1

S1是由斯坦福大学和华盛顿大学联合开发的低成本、高性能AI推理模型,采用知识蒸馏技术从大型模型中提取推理能力。通过1000个高质量问题训练,成本低于50美元,训练时间短于30分钟。S1在数学和编程领域表现卓越,支持测试时扩展技术以优化推理效果,并已在GitHub开源,适用于科学问题解决、智能辅导、自动问答等多种场景。

PrimitiveAnything

PrimitiveAnything是由腾讯AIPD与清华大学联合开发的3D形状生成框架,通过将复杂3D形状分解为基本基元并自回归生成,实现高质量、高保真度的3D模型重建。其支持从文本或图像生成内容,具备高效存储、模块化设计及良好的泛化能力,适用于3D建模、游戏开发、UGC创作及VR/AR应用等领域。

Sana

SANA是一个由NVIDIA、麻省理工学院和清华大学共同研发的文本到图像生成框架,支持生成高达4096×4096分辨率的高清图像。它采用了深度压缩自编码器、线性扩散变换器(Linear DiT)和小型语言模型作为文本编码器,并通过优化的训练和采样策略提升了生成效率。SANA在模型大小和运行速度上具备显著优势,适合多种应用场景,包括艺术创作、游戏开发、广告设计和科学研究等。

万相首尾帧模型

万相首尾帧模型(Wan2.1-FLF2V-14B)是一款开源视频生成工具,基于DiT架构和交叉注意力机制,可根据用户提供的首帧和尾帧图像生成高质量、流畅的过渡视频。支持多种风格和特效,适用于创意视频制作、影视特效、广告营销等多个场景。模型具备细节复刻、动作自然、指令控制等功能,且提供GitHub和HuggingFace开源资源供用户使用。

Autocut

AutoCut是一款开源AI视频剪辑工具,利用自动语音识别技术生成字幕并支持文本编辑功能,帮助用户高效剪辑视频片段。支持多模型运行及硬件加速,可输出SRT或Markdown格式文件,广泛应用于视频创作、企业培训、新闻报道、语言学习等多个领域。

CodeGeeX

CodeGeeX是一款基于大模型的全能的智能编程助手。它可以实现代码的生成与补全、自动添加注释、代码翻译以及智能问答等功能,能够帮助开发者显著提高工作效率。

BAG

BAG是一项由香港中文大学与腾讯联合研发的3D可穿戴资产生成技术,结合多视图图像扩散模型与控制网络,根据人体形状和姿态信息生成高质量的服装和配饰。该技术具备高效适配、多样化生成和物理模拟优化等特点,广泛应用于虚拟试衣、游戏开发、VR/AR及时尚设计等领域,有效提升用户体验与设计效率。

Flame

Flame是一款开源的多模态AI模型,能够将UI设计截图转换为高质量的现代前端代码。它支持React等主流框架,具备动态交互、组件化开发和高代码质量的特点。Flame通过创新的数据合成方法提升代码多样性与准确性,适用于快速原型开发、提升开发效率及辅助学习等多种场景。其训练数据、模型和测试集均已开源,为前端开发提供了高效的工具支持。

AnchorCrafter

AnchorCrafter是一款基于扩散模型的智能视频生成工具,利用人-物交互(HOI)技术生成高质量主播风格产品推广视频。它支持物体外观保持、运动控制、遮挡处理及细节增强学习,适用于在线购物、社交媒体营销、电视广告制作等多个领域,显著提升视频真实感和互动性。