AI项目与工具

悦灵犀AI

悦灵犀AI是一款基于先进AI技术的创作平台,支持文生图、文生视频、背景替换、证件照生成及照片修复等多种功能。其智能助手和丰富工具使用户能够高效创作艺术作品,并广泛应用于艺术设计、广告营销、教育等领域。

LLaVA

LLaVA-OneVision是字节跳动开发的开源多模态AI模型,主要功能包括多模态理解、任务迁移、跨场景能力、开源贡献及高性能。该模型采用多模态架构,集成了视觉和语言信息,通过Siglip视觉编码器和Qwen-2语言模型,实现高效特征映射和任务迁移学习。广泛应用于图像和视频分析、内容创作辅助、聊天机器人、教育和培训以及安全监控等领域。

DemoFusion

DemoFusion是一个技术框架,旨在低成本生成高分辨率图像。该框架通过扩展现有的开源生成人工智能模型(如Stable Diffusion),使得这些模型能够在不进行额外训练和不产生过高内存需求的情况下,将模糊的低分辨率图像转化为高清晰度图像。DemoFusion采用渐进式增强、跳跃残差和扩张采样机制,确保高分辨率图像生成的同时,保持图像的全局语义一致性和细节质量。适用于艺术创作、游戏开发、电影

jagoda.AI

[jagoda.AI是一款利用人工智能技术的在线学习平台,主要面向学生提供个性化辅导服务。它支持超过30个学科的解答,可翻译20多种语言,帮助学生解决家庭作业难题。平台通过分析学生的年级和学校水平,提供定制化辅导,并附带详细解题步骤,促进自主学习。此外,jagoda.AI支持拍照上传和语音输入,提供基础免费计划及付费订阅选项,适用于家庭作业帮助、自主学习、语言学习支持等多种场景。]

One Shot, One Talk

One Shot, One Talk是一项由中国科学技术大学和香港理工大学研究者开发的图像生成技术,它可以从单张图片生成具有个性化细节的全身动态说话头像。该工具支持逼真的动画效果,包括自然的表情变化和生动的身体动作,同时具备对新姿势和表情的泛化能力。One Shot, One Talk结合了姿势引导的图像到视频扩散模型和3DGS-mesh混合头像表示技术,提供了精确的控制能力和高质量的重建效果。

CircleBack

CircleBack 是一款基于 AI 的会议记录工具,支持多语言转录与智能总结,能自动生成结构化笔记和行动项。其具备强大的口音识别能力,可与 Zoom、Google Meet、Microsoft Teams 等平台集成,适用于企业会议、远程协作、教育、客户服务及医疗等多个场景。此外,它还支持语义搜索和工作流自动化,提升会议管理效率。

Stagehand

Stagehand 是一款基于自然语言处理的 AI 工具,专注于网页自动化操作。其核心功能包括自然语言驱动的 `act`、`extract` 和 `observe` API,支持原子化指令执行和多模型适配。Stagehand 可实现网页测试、数据抓取、表单操作及内容监控等多样化任务,广泛应用于网页测试、数据分析、办公自动化等领域。

DeepPDF

DeepPDF 是一款基于 AI 的在线 PDF 处理工具,支持文档智能问答、自动摘要生成、多语言翻译、图像与公式解析、术语解释及格式转换等功能。其特点在于保留原文排版、支持多种语言、提供高效的文档管理能力,广泛应用于教育、科研和职场场景,提升文档处理效率与信息理解能力。

Kiss3DGen

Kiss3DGen是一款基于2D扩散模型的3D资产生成框架,通过“3D Bundle Image”结构实现多视角图像与法线图的融合,从而高效生成和编辑3D模型。它支持文本与图像输入,具备3D编辑、网格优化和纹理增强等功能,适用于游戏开发、影视制作、VR/AR、数字孪生及教育等多个领域。

Bookwiz

Bookwiz是一款依托人工智能技术的电子书创作平台,涵盖创意构思、角色发展、大纲规划等功能,支持作者从初步构想到最终成品的全流程。其特色在于通过AI技术提升写作效率,并提供团队协作与文本编辑功能,广泛应用于小说创作、学术研究、商业文档编写及教育资源制作等领域。