R

PDF to Podcast

PDF to Podcast 是一款由 NVIDIA 开发的 AI 工具,能够将 PDF 文档自动转换为高质量的音频内容,如播客。该工具结合了大型语言模型、文本到语音技术以及 NVIDIA NIM 微服务架构,支持从 PDF 提取信息并生成结构化文本,再通过语音合成输出自然流畅的音频。用户可自定义生成内容的重点,并支持多种部署方式,适用于企业培训、技术简报、客户服务、医疗教育等多个领域。

博思AIPPT

只需输入一句话,博思AIPPT为你自动生成PPT模板、目录、文案、配色、配图百款设计风格任选,零基础也可创作令人惊叹的专业PPT。

RecCloud

一个人工智能驱动的多媒体服务平台,RecCloud专门为视频和音频处理提供一套全面的工具。

ResAdapter

ResAdapter是一种专为扩散模型设计的分辨率适配器,允许图像生成模型生成任意分辨率和宽高比的图像,同时保持原始风格。其主要功能包括分辨率插值、分辨率外推、域一致性、即插即用设计以及广泛的兼容性。通过在扩散模型中插入ResCLoRA和引入ResENorm,ResAdapter能够在不影响模型风格的情况下扩展其分辨率范围。

Versatile

Versatile-OCR-Program是一款开源多模态OCR工具,支持从教育材料中提取文本、公式、表格等结构化数据,输出为JSON或Markdown格式,准确率高达90%-95%。它基于DocLayout-YOLO、Google Vision和MathPix等技术,支持多语言处理,适用于教育数据集制作、教学辅助、AI模型训练及个人学习等场景。

Kheish

Kheish 是一款基于大型语言模型的开源多智能体协作平台,支持复杂任务的分解与处理。它通过多智能体工作流、模块化集成和反馈循环机制,实现任务的高效执行与优化。Kheish 可无缝接入外部模块,如文件系统、Shell 和向量存储,广泛应用于代码审计、法律文件分析、客户服务自动化、内容创作等领域。

CatVTON

CatVTON是一款基于先进AI算法的虚拟试衣工具,能够将服装从一个人无缝转移到另一个人身上,同时保留服装细节的一致性。该工具采用轻量级网络架构,减少了计算资源的需求,无需复杂的预处理步骤,即可实现高效的服装试穿效果。CatVTON适用于电子商务、时尚设计、个性化推荐等多个领域,为用户提供了便捷且真实感强的虚拟试衣体验。

MultiTalk

MultiTalk是由中山大学深圳校区、美团和香港科技大学联合推出的音频驱动多人对话视频生成框架。它根据多声道音频输入、参考图像和文本提示,生成包含人物互动且口型与音频一致的视频。通过Label Rotary Position Embedding (L-RoPE) 方法解决多声道音频与人物绑定问题,并采用部分参数训练和多任务训练策略,保留基础模型的指令跟随能力。MultiTalk适用于卡通、歌唱及

ai宇宙吧

Ai宇宙吧作为一个专注于AI绘画的教程和提示词分享平台,为广大艺术创作者提供了一个学习和交流的空间。

xAR

xAR是由字节跳动与约翰·霍普金斯大学联合研发的自回归视觉生成框架,采用“下一个X预测”和“噪声上下文学习”技术,提升视觉生成的准确性和效率。其支持多种预测单元,具备高性能生成能力,在ImageNet数据集上表现优异,适用于艺术创作、虚拟场景生成、老照片修复、视频内容生成及数据增强等多种应用场景。