转换

MinerU

MinerU是一款开源智能数据提取工具,专注于复杂PDF文档的高效解析与提取。它能够将包含多种内容类型的PDF文档转换为结构化的Markdown格式,支持图像、公式、表格和文本等多种内容处理,保留原始文档结构和格式,支持公式识别与转换成LaTeX格式,自动删除页眉、页脚、脚注和页码等非内容元素,适用于学术、财务、法律等多个领域。

WarpVideo

WarpVideo是一款基于人工智能的视频创作工具,提供视频转视频、图像转视频、文本转视频及视频缩放等多种功能,支持用户快速高效地完成视频风格转换与格式调整。它广泛应用于电影制作、营销推广、社交媒体内容创作、教育培训及新闻报道等领域,助力用户轻松打造专业级视频内容。

6pen pro

整合最新AI技术,为有深度需求的用户打造更专业的内容创作体验,提供内容库、AI生成器等专业化功能,助您轻松创造令人惊叹的多媒体内容。

Pixelied

Pixelied是一款基于浏览器的在线图形设计工具,提供丰富的模板库、版权免费的照片与图标资源以及一键背景移除等功能。用户可在线完成图片编辑、格式转换等任务,并利用其强大的AI图像生成技术实现高效创作。产品适用于社交媒体营销、内容创作、品牌推广等多个领域,支持团队协作,满足多样化视觉需求。

PDF.ai

PDF.ai是一个创新平台,使用 AI 与任何文档聊天并提出问题、获取摘要、查找信息等。

CopyFish

一个免费的 OCR 程序,可从图片、视频和 PDF 文件中提取文本。

pdf

pdf-craft 是一款专注于将扫描书籍的 PDF 文件转换为 Markdown 和 EPUB 格式的工具。它结合 DocLayout-YOLO 布局分析与 PaddleOCR 文本识别技术,精准提取正文内容并优化阅读顺序,支持跨页处理与结构化输出。适用于学术研究、电子书制作、文档存档及教育资料整理等多种场景。

Imglarger

Imglarger是一款利用AI技术的在线图像处理工具,主要功能包括图像放大(最高可达800%)、增强、编辑以及格式转换。它具备AI Uncrop功能,可优化图像视觉效果,并支持多种格式间的无缝转换。此外,Imglarger提供在线编辑工具、批量处理能力和安全保障,适用于摄影、设计、社交媒体内容制作及电子商务等多个领域。

GTSinger

GTSinger是一项由浙江大学研发的开源高质量歌声数据集,包含80.59小时的多语言专业录音棚歌声数据,支持歌声合成、技巧识别、风格迁移和语音到歌声转换等多种任务。它通过音素级标注和真实乐谱支持,为歌唱技巧的研究和应用提供了强大工具。

INFP

INFP是一款基于音频驱动的头部生成框架,专为双人对话设计,具备自动角色转换功能。它通过两个阶段实现头部生成:基于动作的头部模仿和音频引导的动作生成。同时,INFP提出了大规模双人对话数据集DyConv,推动了相关领域的研究进展。该工具适用于视频会议、虚拟助手、教育培训、客户服务等多个场景,支持实时互动并可调节生成风格。