HunyuanDiT 腾讯旗下的混元文生图大模型全面升级并对外开,包含模型权重、推理代码、模型算法等完整模型,这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解,参数量15亿。升级后的混元文生图大模型 文生图 2025年06月26日 0 点赞 0 评论 3 浏览
Linkeddit Linkeddit 是一款基于 AI 技术的 Reddit 数据分析工具,能够根据用户需求智能匹配潜在客户、合作伙伴或目标受众。它提供用户画像分析、多维度筛选、实时数据更新等功能,帮助用户精准定位高价值用户。适用于市场营销、创业拓展、社区运营等场景,支持数据导出和长期使用,提升目标群体识别效率。 AI项目与工具 2025年06月12日 55 点赞 0 评论 138 浏览
Ruyi Ruyi是一款基于DiT架构的图生视频大模型,支持多分辨率和多时长的视频生成,具有首帧、首尾帧控制、运动幅度调整及镜头方向控制等功能。它通过Casual VAE模块和Diffusion Transformer实现视频数据的压缩与生成,旨在降低动漫和游戏内容的开发周期和成本。目前,Ruyi-Mini-7B版本已开源。 AI项目与工具 2025年06月12日 17 点赞 0 评论 176 浏览
Reddit翻译助手 突破语言障碍,Reddit翻译助手让你可以用中文在Reddit上畅聊,无缝翻译帖子内容,,用中文写评论,自动转英文发布,支持一键翻译评论区。 Ai办公效率 2025年06月05日 83 点赞 0 评论 191 浏览
Qihoo Qihoo-T2X是由360 AI研究院与中山大学联合研发的高效多模态生成模型,基于代理标记化扩散 Transformer(PT-DiT)架构。该模型通过稀疏代理标记注意力机制显著降低计算复杂度,支持文本到图像、视频及多视图生成。具备高效生成能力和多任务适应性,适用于创意设计、视频制作、教育、游戏开发及广告等多个领域。 AI项目与工具 2025年06月12日 26 点赞 0 评论 193 浏览
Open Open-Sora是一个开源视频生成模型,基于DiT架构,通过三个阶段的训练(大规模图像预训练、大规模视频预训练和高质量视频数据微调),生成与文本描述相符的视频内容。该模型包括预训练的VAE、文本编码器和STDiT(Spatial-Temporal Diffusion Transformer)核心组件,利用空间-时间注意力机制和交叉注意力模块实现视频生成。项目旨在提供全面的视频生成模型训练过程,供 AI项目与工具 2024年01月01日 97 点赞 0 评论 212 浏览
Inf Inf-DiT是由清华大学与智谱AI联合开发的图像上采样技术,基于扩散模型并引入单向块注意力机制(UniBA),有效降低内存消耗,支持超高分辨率图像生成。其采用扩散变换器(DiT)架构,具备灵活的图像上采样能力,并通过全局图像嵌入和交叉注意力机制增强图像的一致性与质量。该技术适用于设计、影视、印刷及医学等领域,具有广泛的应用前景。 AI项目与工具 2025年06月12日 84 点赞 0 评论 217 浏览
MagicEdit MagicEdit 是字节跳动的一款视频编辑工具,它可以高保真度和时间连贯性地编辑视频,通过学习明确区分外观和动作。 Ai开源项目 2025年06月05日 40 点赞 0 评论 264 浏览
豆包AI视频模型 豆包AI视频模型包括PixelDance和Seaweed两款工具,分别基于DiT和Transformer架构。PixelDance擅长处理复杂指令和多主体互动,适合制作情节丰富的短片;Seaweed支持多分辨率输出,生成高质量、高逼真的视频,适用于商业领域。两者均提供多样化的风格选择和输出格式,满足不同场景需求。 --- AI项目与工具 2025年06月12日 45 点赞 0 评论 283 浏览
MTVCrafter MTVCrafter是由中国科学院深圳先进技术研究院计算机视觉与模式识别实验室、中国电信人工智能研究所等机构推出的新型人类图像动画框架,基于4D运动标记化(4DMoT)和运动感知视频扩散Transformer(MV-DiT)实现高质量动画生成。该工具直接对3D运动序列建模,支持泛化到多种角色和风格,保持身份一致性,并在TikTok基准测试中取得优异成绩。其应用场景包括数字人动画、虚拟试穿、沉浸式内 AI项目与工具 2025年06月11日 50 点赞 0 评论 291 浏览