模型

Audimee

一款由AI驱动的音乐创作工具,专注于为音乐人和制作人提供创新的声乐处理功能。用户可以使用Audimee将自己的声乐转换为免版税的声音,甚至可以训练自己的声音模型。

心辰Lingo语音大模型

实现了从语音输入到语音输出的全程无缝对接,心辰Lingo能够直接理解语音内容,捕捉语气、节奏和情绪,并以同样丰富的语音形式进行回复。

PixelDance

字节跳动研发的一种视频生成模型,PixelDance通过结合文本指导和首尾帧图片指导的方式,能够生成具有复杂场景与动作的视频。

VILA

VILA-U 是一款由 MIT 汉实验室开发的统一基础模型,整合了视频、图像和语言的理解与生成能力。它通过自回归框架简化模型结构,支持视觉理解、视觉生成、多模态学习和零样本学习等功能。VILA-U 在预训练阶段采用混合数据集,利用残差向量量化和深度变换器提升表示能力,适用于图像生成、内容创作辅助、自动化设计、教育和残障人士辅助等多种场景。

AigcCafe

AIGC Cafe 是一个专门为 Al 爱好者和开发者提供的平台,它提供了一系列的 AI 模型供用户使用和学习。

实在智能

实在智能,一款基于AI+RPA技术的智能助理,他可以模拟人类操作和决策流程,来提高工作的效率

PixVerse V2

PixVerse V2是一款基于Diffusion+Transformer(DiT)架构并结合自研时空注意力机制的AI视频生成工具。它支持生成长度可达40秒的视频,单个片段最长可达8秒,且能保持视频片段间的一致性。用户可通过简单操作生成并编辑视频,适用于创意专业人士、社交媒体用户、企业营销人员及独立艺术家等多种人群。

PICPIK.AI

PICPIK.AI是主要为专业用户设计的人工智能绘图产品。它针对各种专业人士,例如企业设计部门,游戏策划和艺术,广告,设计机构以及漫画家和插画家。

Custom

Custom-SVG 是一种基于文本提示生成定制风格 SVG 图形的框架,结合前馈模型与扩散模型的优势,实现结构规整且风格统一的矢量图形生成。支持风格定制、语义对齐和高效生成,适用于图形设计、UI 设计、网页设计及教育等多个领域。其核心技术包括路径级表示的扩散模型训练和基于图像扩散先验的风格迁移。

BlueLM

BlueLM-V-3B是一种针对移动设备设计的多模态大型语言模型,结合了高效算法与系统优化,支持快速、低功耗的文本与图像处理。其主要特性包括多模态理解、实时响应、隐私保护、高效率部署及跨语言能力。该模型通过动态分辨率调整、批量图像编码及令牌下采样等技术,实现了在有限资源下的高性能表现。