AI项目与工具

Fractal Generative Models

Fractal Generative Models 是一种基于分形架构的图像生成技术,通过递归调用“原子模块”实现逐像素生成高分辨率图像。该模型结合 Transformer 模块,采用分而治之策略,大幅提升计算效率。不仅适用于图像生成,还可扩展至分子结构、蛋白质等高维数据建模,具有广泛的应用潜力。

LCVD

LCVD是一种由四川大学开发的高保真肖像动画生成框架,支持光照可控的动态视频生成。它通过分离肖像的内在与外在特征,并结合多条件分类器自由引导机制,实现对光照和姿态的精细控制。LCVD在图像质量、视频一致性和光照真实感方面表现突出,适用于虚拟现实、视频会议、影视制作及内容创作等多个领域。

Marco

Marco是一款由阿里国际研发的大规模商用翻译大模型,支持15种主流语种,具备基于语境的精准翻译能力。其核心功能包括多语种翻译支持、跨境电商优化、多样化风格翻译以及高并发处理能力。Marco采用深度学习技术,结合多语言数据筛选和参数扩展方法,确保翻译质量和效率。它广泛应用于商品信息本地化、多语言客户服务、跨境电商平台及个人文档翻译等领域,助力全球化沟通。

千影 QianYing

千影 QianYing 是一款由巨人网络推出的 AI 工具,包含游戏视频生成大模型 YingGame 和视频配音大模型 YingSound。YingGame 支持角色动作交互控制与物理仿真,YingSound 具备视频语义理解和时间对齐能力,两者结合可生成高质量的有声游戏视频。该工具旨在降低游戏开发门槛,促进创作平等,并推动游戏行业的创新发展。

STOCKIMG.AI

STOCKIMG.AI 是一款以人工智能驱动的在线设计与内容生成平台,用户可通过文本提示生成高质量图像、标志、书籍封面、海报等内容。平台支持 4K 分辨率图像放大、多风格 AI 模型选择及快速生成,适用于设计师、营销人员及内容创作者,广泛应用于社交媒体营销、品牌设计、图书出版等领域。

Emotion

Emotion-LLaMA是一款基于多模态输入的情绪识别与推理模型,结合音频、视觉和文本信息,提升情感理解的准确性与可解释性。模型采用改进版LLaMA架构,通过指令调整增强情感处理能力,并依托自建的MERR数据集进行训练与验证。在多个挑战赛中表现优异,适用于人机交互、教育、心理健康、客户服务等领域,具有广泛的应用前景。

九歌

九歌是清华大学研发的AI诗歌生成系统,基于深度学习技术,可生成符合古诗格律的多种体裁作品。支持关键词、文本及图片输入,操作便捷,无需登录即可使用。适用于诗词创作辅助、文化教育、艺术融合及个人娱乐等多个场景,助力中华传统文化的传承与创新。

JoyAgent智能体平台

JoyAgent智能体平台是京东云推出的企业级一站式AI智能体搭建与发布平台,聚合大模型、知识库、插件和工作流等能力,支持低代码开发,用户可通过自然语言快速构建基于大语言模型的AI智能体。平台提供丰富的预置模板和工具,支持一键发布到微信、企业微信等主流IM和协同办公渠道,适用于智能客服、OA自动化、热点营销等场景,帮助企业提升业务效率和客户体验。

OCTAVE

OCTAVE是一款由Hume AI研发的语音语言处理工具,融合了多种领先AI技术,具备强大的个性化语音生成能力,支持从文字到语音的即时转化,并能精准模仿不同说话者的声线与情感表达。其主要功能包括多角色对话生成、复杂指令理解与响应,以及实时语音处理等。此外,OCTAVE可应用于客户服务、虚拟助手、教育培训、娱乐游戏等多个领域,为用户带来更加自然、生动的交互体验。

MARS

MARS是一款由字节跳动开发的优化框架,专注于提升大型模型训练效率。它融合了预条件梯度方法与方差减少技术,并通过缩放随机递归动量技术优化梯度估计。MARS支持多种Hessian近似方式,可生成基于AdamW、Lion和Shampoo的优化算法实例。该框架适用于深度神经网络、大规模语言模型、计算机视觉任务及强化学习等领域,能有效加速模型收敛并提高训练稳定性。