admin的文章

Act

Act-One是一款由Runway开发的AI生成式角色表演工具，能够基于简单视频输入生成逼真的虚拟角色动画。它简化了面部动画制作流程，无需复杂设备，仅需单一摄像头即可完成，同时支持多样化角色表现和多轮对话场景生成，广泛应用于电影、动画、角色设计及叙事内容创作等领域。

625 0

PUMA

PUMA是一款先进的多模态大型语言模型，专注于通过整合多粒度视觉特征提升视觉生成与理解能力。它支持文本到图像生成、图像编辑、条件图像生成及多粒度视觉解码等功能，适用于艺术创作、媒体娱乐、广告营销等多个领域，凭借其强大的多模态预训练和微调技术，成为多模态AI领域的前沿探索。

526 0

Janus

Janus是一种由DeepSeek AI开发的自回归框架，专注于多模态理解和生成任务的统一化。它通过分离视觉编码路径并使用单一Transformer架构来提升灵活性和性能，支持多种输入模态如图像、文本等，并在某些任务中表现出色。Janus具备多模态理解、图像生成及跨模态交互能力，适用于图像创作、自动标注、视觉问答等多个领域。

705 0

PaddleOCR 2.9

PaddleOCR 2.9 是一个基于深度学习的开源 OCR 工具库，提供了强大的文本识别、版面分析和信息抽取功能。支持多语言识别和多种硬件平台，通过低代码开发模式简化了模型的部署和定制，广泛应用于文档数字化、智能办公、身份验证、物流管理和金融服务等领域。

767 0

Kanana

Kanana是一款由Kakao推出的生成式AI助手，具备强大的上下文理解和记忆能力。其核心功能包括群聊助手（Kana）和私人伴侣（Nana），前者专注于处理团队协作中的具体任务，后者则用于管理个人及集体事务。此外，该工具还支持多模态输入输出方式，可应用于商务、教育、社交等多个领域，并计划扩展至车载场景以提升用户体验。

741 0

Ideogram Canvas

Ideogram Canvas是一款基于AI技术的创意画布工具，支持用户在一个无限制的虚拟画布上生成、编辑及合并图像。其核心功能包括Magic Fill和Extend，可实现图像局部修改与扩展，同时保持风格统一。适用于平面设计、品牌营销、内容创作、艺术设计及教育培训等多个领域，助力提升创意工作效率。

848 0

Mellum

Mellum 是 JetBrains 推出的一款专为开发者设计的大型语言模型（LLM），通过深度集成 JetBrains IDE，提供低延迟、高精度的代码补全服务，支持多种编程语言，显著提升开发效率。其训练数据仅限于公开可用且许可宽松的代码，保障用户隐私。

626 0

Easegen 是一款开源的 AI 工具，支持数字人课程的制作与管理。它能够批量生成 PPT 课件、克隆数字人形象和声音，并通过 AI 技术实现视频渲染和智能出题。其核心功能包括课程制作、视频管理、智能课件生成、数字人克隆及声音克隆，旨在提升教学内容的互动性和趣味性。Easegen 的技术基础涵盖人工智能、计算机视觉、自然语言处理和语音合成等，适用于在线教育、企业培训、学术研究、语言学习及职业培训

555 0