学习

AudioX

AudioX 是一种基于多模态输入的音频生成模型,支持文本、视频、图像等多种输入方式,能够生成高质量的音频和音乐。其核心创新在于多模态掩码训练策略,提升了跨模态理解和生成能力。具备零样本生成、自然语言控制及强大的泛化能力,适用于视频配乐、动画音效、音乐创作等多个场景。

PhotoPrism

PhotoPrism是一款开源的AI照片管理工具,采用Go语言开发,支持用户在本地服务器上运行,确保数据隐私与安全性。它通过AI技术实现照片的智能分类与搜索,涵盖人物、物体和场景识别,还支持RAW、JPG等多种文件格式,提供面部识别、地理标签及WebDAV同步等功能,适用于个人、家庭、企业和教育机构等多样化需求。

触站AI | P站

触站AI(P站画师通)是国内专业的AI绘画网站平台,结合了Midjourney、Stable Diffusion、NovelAI、Dalle等主流AI插画绘图APP、软件模型技术,是专业的免费AI作图工具和AI作画自动生成器。

Character

Character-3 是 Hedra Studio 推出的全模态 AI 视频生成工具,支持图像、文本和音频输入,生成高质量动态视频。具备全身动作捕捉、情感控制、精准对口型等功能,适用于创意视频、虚拟形象、教育、营销等多个场景。采用多模态融合与先进 AI 技术,提升视频自然度与连贯性,提高内容创作效率。

源2.0

源2.0-M32是由浪潮信息开发的一种混合专家模型(MoE),包含32个专家,采用“注意力路由器”技术,显著提升了模型的效率和准确性。该模型在代码生成、数学问题解决、科学推理等多个领域表现出色,尤其在ARC-C和MATH基准测试中超越了其他模型。源2.0-M32具有高效的计算能力和广泛的适用性,适用于多种复杂任务。

anime.gf

Anime.gf 是一款基于开源技术开发的本地应用程序,支持用户创建和管理个性化虚拟角色。它利用先进的自然语言处理技术和多种大型语言模型 API,提供智能化的对话体验。主要功能涵盖角色创建、编辑与删除、多 API 接入、聊天记录管理以及响应再生成等。适用于娱乐、情感陪伴、语言学习、故事创作、教育辅助以及心理治疗等多个领域。

Aligner

Aligner是由北京大学团队开发的大语言模型对齐工具,通过学习对齐答案与未对齐答案之间的差异来提升模型性能。采用自回归seq2seq结构,在Q-A-C数据集上训练,无需RLHF流程。具备高效、灵活、即插即用等特点,支持多模型兼容,提升模型帮助性和安全性。适用于多轮对话、价值观对齐及MoE架构优化等场景。

33台词

通过台词找影片的网站,找到相关影片后,支持视频片段预览、截图、查看台词上下文、以及视频片段截取下载。

CogVideoX

CogVideoX是由智谱AI开发的开源AI视频生成模型,支持英文提示词生成6秒长、每秒8帧、分辨率为720x480的视频。它具备低显存需求、视频参数定制、3D Causal VAE技术和推理与微调功能。该模型采用基于Transformer的架构和3D Causal Variational Autoencoder技术,支持多阶段训练和自动及人工评估,适用于创意视频制作、教育材料、广告、游戏、电影编