工具

BAGEL

BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,采用混合变换器专家架构(MoT),通过两个独立编码器捕捉图像的像素级和语义级特征。它能够进行图像与文本融合理解、视频内容理解、文本到图像生成、图像编辑与修改、视频帧预测、三维场景理解与操作、世界导航以及跨模态检索等任务。BAGEL在多模态理解基准测试中表现优异,生成质量接近SD3,并适用于内容创作、三维场景生成、可视化学习和创意广告生成等

Sku Fetch

Sku Fetch 是一个基于 Web 的应用程序,可让您从不同的网站获取产品信息并将其上传到您自己的在线商店。Sku Fetch通过自动化查找和列出产品的过程来节省您的时间和麻烦。

Image Upscaler

Image Upscaler 是一款简单但功能强大的工具,它使用AI技术将较小的图像或分辨率较低的图像的大小提升到 4K 分辨率,也就是图像长尺寸的 4096 px。

Bigjpg

补充噪点和锯齿,实现图片无损放大

DeepEyes

DeepEyes是由小红书团队和西安交通大学联合开发的多模态深度思考模型,基于端到端强化学习实现“用图思考”能力,无需依赖监督微调。它在推理过程中动态调用图像工具,增强对细节的感知与理解,在视觉推理基准测试V* Bench上准确率高达90.1%。具备图像定位、幻觉缓解、多模态推理和动态工具调用等功能,适用于教育、医疗、交通、安防和工业等多个领域。

Fish Audio

Fish Audio是一款生成式AI文本转语音(TTS)和声音克隆平台,支持多种语言和声音风格,可将文本转换为自然流畅的语音。用户可上传音频样本克隆特定人物的声音,并通过API接口集成到应用程序中。Fish Audio适用于视频制作、有声读物、语音助手、教育与培训以及娱乐创意等领域,满足个性化语音内容生成需求。

HeroPack

HeroPack是一款头像生成器,它使用人工智能来生成受电子游戏启发的头像。

Nooka

Nooka是一款基于AI技术的听书应用,提供全球非虚构类书籍的20分钟音频摘要,适合碎片化时间学习。用户可随时提问并获得AI即时回答,实现深度互动。应用支持多语言字幕、音频剪辑分享及社区交流,适用于通勤、运动、家务等多种场景,提升学习效率与趣味性。

Haikei 背景生成器

Haikei 是一个可在线免费生成样式多样的SVG背景生成神器,免费免注册。提供了多种特殊排布的背景样式,如通过波浪形、圆形、圆环、三角形、五星形等,每一种都十分好看,可以自定义、随机化创建和生成导出SVG背景。

Mubert

人类×人工智能生成音乐,对于您的视频内容、播客和应用程序