OminiControl OminiControl是一款高效且参数节约的图像生成框架,专为扩散变换器模型设计,支持主题驱动和空间控制。通过增加少量参数,它能够生成高质量图像并保持主题一致性,适用于多种应用场景,包括艺术创作、游戏开发和广告设计等。其强大的多模态注意力机制和灵活的架构使其成为图像生成领域的创新工具。 AI项目与工具 2025年06月12日 94 点赞 0 评论 732 浏览
JoyVASA JoyVASA是一个基于扩散模型的音频驱动数字人头项目,能够生成与音频同步的面部动态和头部运动。其主要功能包括唇形同步、表情控制及动物面部动画生成,支持多语言和跨物种动画化。项目采用两阶段训练方法,结合解耦面部表示与扩散模型技术,生成高质量动画视频,广泛应用于虚拟助手、娱乐媒体、教育、广告等多个领域。 AI项目与工具 2025年06月12日 17 点赞 0 评论 733 浏览
FaceSwap FaceSwap是一款开源AI换脸软件,利用深度学习技术实现人脸检测、提取及替换。它支持跨平台操作,包括Windows、macOS和Linux,并可借助GPU加速提升处理效率。FaceSwap还允许用户自定义模型训练以优化换脸效果,广泛应用于影视制作、教育、游戏开发以及虚拟现实等领域。 AI项目与工具 2025年06月12日 45 点赞 0 评论 733 浏览
联通元景 联通元景(UniT2IXL)是一款基于国产昇腾AI平台开发的中文原生文生图模型,具备卓越的中文语义理解和高质量图像生成能力。它通过复合语言编码模块优化中文长文本处理,并利用大量中文图文数据进行预训练,确保信息完整性和生成质量。该模型支持国产化算力环境,适配多种应用场景,包括文物数字化、个性化服装定制、智能家居设计、广告创意生成及在线教育等,为企业提供高效解决方案。 AI项目与工具 2025年06月12日 54 点赞 0 评论 734 浏览
Wonderland Wonderland是一项由多伦多大学、Snap和UCLA联合开发的技术,能够基于单张图像生成高质量的3D场景,并支持精确的摄像轨迹控制。它结合了视频扩散模型和大规模3D重建模型,解决了传统3D重建技术中的视角失真问题,实现了高效的三维场景生成。Wonderland在多个基准数据集上的3D场景重建质量均优于现有方法,广泛应用于建筑设计、虚拟现实、影视特效、游戏开发等领域。 AI项目与工具 2025年06月12日 23 点赞 0 评论 734 浏览
MinMo MinMo是阿里巴巴通义实验室推出的多模态语音交互大模型,具备高精度语音识别与生成能力。支持情感表达、方言转换、音色模仿及全双工交互,适用于智能客服、教育、医疗等多个领域,提升人机对话的自然度与效率。 AI项目与工具 2025年06月12日 59 点赞 0 评论 734 浏览
Goedel Goedel-Prover是一款由多所高校联合开发的开源大型语言模型,专注于自动化数学问题的形式化证明生成。它通过将自然语言数学问题转化为形式语言(如Lean 4),生成准确且完整的证明过程。采用专家迭代方法持续优化模型性能,在多项基准测试中表现优异。该工具可应用于数学研究、教学、软件验证及AI算法验证等领域,具备强大的数学推理能力和广泛的应用前景。 AI项目与工具 2025年06月12日 50 点赞 0 评论 734 浏览
OThink OThink-MR1是由OPPO研究院与香港科技大学(广州)联合研发的多模态语言模型优化框架,基于动态KL散度策略(GRPO-D)和奖励模型,提升模型在视觉计数、几何推理等任务中的泛化与推理能力。其具备跨任务迁移能力和动态平衡探索与利用机制,适用于智能视觉问答、图像描述生成、内容审核等多个领域,具有广阔的应用前景。 AI项目与工具 2025年06月12日 21 点赞 0 评论 737 浏览
MoE++ MoE++是一种基于混合专家架构的新型深度学习框架,通过引入零计算量专家、复制专家和常数专家,有效降低计算成本并提升模型性能。它支持Token动态选择FFN专家,并利用门控残差机制实现稳定路由,同时优化计算资源分配。该框架易于部署,适用于多种应用场景,包括自然语言处理、智能客服及学术研究。 AI项目与工具 2025年06月12日 40 点赞 0 评论 739 浏览
OmniSVG OmniSVG是复旦大学与StepFun联合开发的全球首个端到端多模态SVG生成模型,基于预训练视觉语言模型,通过创新的SVG标记化技术实现结构与细节的解耦,支持从文本、图像或角色参考生成高质量矢量图形。其训练效率高,支持长序列处理,适用于图标设计、网页开发、游戏角色生成等场景,生成结果具备高度可编辑性和跨平台兼容性。 AI项目与工具 2025年06月12日 90 点赞 0 评论 740 浏览