模型

Valley

Valley是一款由字节跳动开发的多模态大语言模型,擅长处理文本、图像和视频数据,广泛应用于内容分析、图像和视频描述、电子商务及短视频平台等领域。其Eagle版本通过引入VisionEncoder增强了模型性能,支持灵活调整令牌数量,实现了更高效的多模态数据处理。Valley在多项基准测试中表现出色,尤其在参数规模较小的情况下依然保持优异的成绩。

Motion Prompting

Motion Prompting 是一种利用点轨迹表示的视频生成技术,支持对象控制、相机控制及物理现象模拟等功能。它通过将用户输入转化为详细的运动轨迹,结合预训练的视频扩散模型与控制网络,在保持灵活性的同时提高生成质量。这项技术广泛应用于电影制作、游戏开发、虚拟现实等领域,为用户提供了强大的交互式视频生成工具。 ---

紫东太初 – 多模态大模型

“紫东太初”平台展现了中国科学院自动化研究所在人工智能领域的深厚实力。它不仅具备强大的多模态处理能力,还通过自监督学习和跨模态语义关联技术,为广泛的AI应用提供了坚实的模...

ChatTS

ChatTS-14B 是一款由字节跳动开发的大型语言模型,专为时间序列数据的理解与推理设计,具备 140 亿参数规模。通过合成数据对齐技术提升任务表现,支持自然语言交互,可应用于金融、气象、工业、医疗和运维等多个场景,提供数据分析、预测与诊断功能。模型已开源,便于开发者使用和扩展。

元象大模型XChat

元象大模型XChat是元象XVERSE推出的高性能AI产品,它通过自研技术,能够满足不同复杂度任务的需求,并在中文领域表现突出。

Bark

Bark是一款开源的文本到音频转换模型,由Suno AI开发,能够生成逼真的多语言语音及多种音频类型,包括音乐和背景噪音,并支持非语言交流的声音。该模型提供预训练模型,适用于研究和商业用途。其主要功能涵盖文本到音频转换、多语言支持、音频多样性和非语言交流模拟。Bark在多语言内容创作、音频内容生成和非语言交流场景中具有广泛应用。

Waters AI

WATERS作为Minister AI旗下的头部产品,仅需输入简单的关键词,即可在几秒钟内创造出令人惊叹的 AI 艺术作品。

Open NotebookLM

Open NotebookLM是一个开源工具,能够将PDF文档转换为播客形式的音频内容。它基于Llama 3.1 405B、MeloTTS和Bark等先进AI模型,生成自然流畅的对话式音频,并支持多语言及个性化音调设置。用户可通过简单易用的Gradio界面上传PDF文件并下载MP3格式的音频文件,适用于教育、科研、商业分析等多个领域。

IFAdapter

IFAdapter是一种由腾讯与新加坡国立大学联合开发的文本到图像生成模型,专为提高多实例图像生成时的空间定位与特征表达准确性而设计。它通过“外观标记”与“实例语义图”两大关键技术解决了传统方法中的定位与特征问题,并支持以即插即用的形式融入现有扩散模型,无需重新训练即可实现高效的空间控制。