CLIP

Stable Diffusion Reimagine

Stable Diffusion Reimagine,简称SD-R是一款新的Clipdrop工具,允许用户无限制地生成单张图片的多种变化。

混元DiT

混元DiT(Hunyuan-DiT)是腾讯混元团队开源的高性能文本到图像的扩散Transformer模型,具备细粒度的中英文理解能力,能够生成多分辨率的高质量图像。该模型结合了双语CLIP和多语言T5编码器,通过精心设计的数据管道进行训练和优化。混元DiT的主要功能包括双语文本到图像生成、细粒度中文元素理解、长文本处理能力、多尺寸图像生成、多轮对话和上下文理解、高一致性和艺术性。此外,混元DiT在

LucidDreamer

LucidDreamer,可以从单个图像的单个文本提示中生成可导航的3D场景。 单击并拖动(导航)/移动和滚动(缩放)以感受3D。

Paperclips Copilot

Paperclips Copilot是一个旨在让学生学习更轻松的在线平台。它通过GPT提供了一种方便有效的方法来创建和管理抽认卡。

Clipconverter

clipconverter是一个youtube等在线视频下载工具,能够帮助我们非常方便地下载各个平台的在线视频并保存到本地。

GCDance

GCDance是一款由英国萨里大学与江南大学联合开发的3D舞蹈生成框架,可根据音乐和文本提示生成风格可控的全身舞蹈序列。它结合多粒度音乐特征融合与CLIP模型文本嵌入技术,实现舞蹈动作与音乐节奏的高度同步。支持多种舞蹈风格生成、局部编辑及高质量全身动作输出,适用于VR、游戏开发、舞蹈教学等场景。

Click2Mask

Click2Mask 是一种创新的图像编辑工具,通过点击操作实现局部内容的高效编辑。它采用动态遮罩生成技术,并结合混合潜在扩散(BLD)模型及基于 CLIP 的语义损失,使用户无需复杂操作即可完成图像编辑。该工具支持局部内容添加、自由形式编辑等功能,适用于数字艺术创作、照片编辑、社交媒体内容制作及广告设计等场景。

VQAScore

VQAScore是一种基于视觉问答(VQA)模型的评估工具,用于衡量文本提示生成图像的质量。它通过计算回答“是”概率的方式评估图像与文本提示的对齐程度,无需额外标注,提供更精确的结果。VQAScore支持多种生成任务,包括图像、视频及3D模型,并能作为多模态学习的研究工具,在自动化测试和质量控制中发挥重要作用。

Clipchamp

Clipchamp,可帮助你创作内容的智能工具,有自动生成字幕、文本转语音、调整视频大小等功能,现在是Microsoft旗下公司。