生成

T2I

T2I-R1是由香港中文大学与上海AI Lab联合开发的文本到图像生成模型,采用双层推理机制(语义级和 Token 级 CoT),实现高质量图像生成与复杂场景理解。其基于 BiCoT-GRPO 强化学习框架,结合多专家奖励模型,提升生成图像的多样性和稳定性。适用于创意设计、内容制作、教育辅助等多个领域,具有广泛的应用潜力。

FilmAgent

FilmAgent是一款由哈尔滨工业大学(深圳)研发的虚拟电影制作工具,基于多智能体协作框架,实现从剧本创作到镜头拍摄的全流程自动化。支持剧本生成、多智能体协作、镜头规划、语音合成等功能,适用于创意视频制作、影视教学及虚拟场景应用。系统在Unity 3D环境中运行,提升电影制作效率与创意表达能力。

TryOffDiff

TryOffDiff是一种基于扩散模型的虚拟试穿技术,通过高保真服装重建实现从单张穿着者照片生成标准化服装图像的功能。它能够精确捕捉服装的形状、纹理和复杂图案,并在生成模型评估和高保真重建领域具有广泛应用潜力,包括电子商务、个性化推荐、时尚设计展示及虚拟时尚秀等场景。

WowTo

WowTo提供了一个全面的平台,使用户能够轻松创建、定制和集成视频知识库。无论是创建教学视频、支持视频还是逐步视频,WowTo都能帮助提高客户满意度并提供全天候的视频支持。

TurboScribe Ai

一项语音AI转文字服务,提供无限音频和视频转录。TurboScribe Ai可以将音频和视频文件转换为98+种语言的文本,准确率极高。

壁纸样机神器

一款为壁纸创作者、设计师及博主们提供一款高效便捷的壁纸样机工具,可以轻松将任何图片转换成适用于各种设备的壁纸样机,让您的壁纸作品瞬间跃然于各类真实设备之上。

Awesome GPT

一个精选的GPT-4o生成图片集锦,收集了OpenAI 最新多模态模型 GPT‑4o 生成的精彩案例,展示其强大的文本‑图像理解与创作能力。

DragAnything

DragAnything 是一款由快手与高校联合研发的视频生成工具,通过实体表示和轨迹输入实现对视频中物体的精确运动控制。它支持多实体独立操作、相机运动调整,并采用扩散模型生成高质量视频内容。具备用户友好的交互方式,适用于视频编辑、游戏开发、教育及广告等多个场景。

Trickle AI

一款基于AI的零代码开发工具,用户可以通过自然语言描述需求,快速生成网页、表单和应用,支持一键部署访问,Trickle适合小商家、创业者、设计师和普通开发者。

MetaMorph

MetaMorph是一款基于多模态大模型的工具,通过Visual-Predictive Instruction Tuning(VPiT)技术实现文本和视觉token的生成。它在视觉理解和生成领域表现优异,能够克服其他生成模型的常见失败模式,同时有效处理专业术语和复杂语义问题。MetaMorph展示了统一建模方法的优势,支持多模态数据的高效处理,并在视觉生成与理解基准测试中取得竞争力表现。