AI项目与工具

StereoCrafter

StereoCrafter是一款由腾讯AI Lab与ARC Lab联合开发的创新性工具,可将传统2D视频转化为高质量的立体3D视频。它采用深度估计、视频变形及立体视频修复等关键技术,确保生成的3D视频具备高保真度和一致性。该工具广泛应用于影视制作、虚拟现实(VR)、增强现实(AR)、游戏开发等领域,为用户提供更加沉浸式的视觉体验。

智面星

智面星是一款以AI为核心技术的面试辅助平台,集成了AI选岗、AI模拟面试、面试精灵、深度复盘及实时反馈等功能模块,通过个性化指导和全面分析助力求职者提升面试表现,同时支持企业和教育机构用于招聘筛选、教学培训及职业咨询服务。

Same.dev

Same.dev 是一款基于 AI 的前端开发工具,能够将网页截图、设计文件或链接转化为高质量的前端代码。它支持多种输入方式,具备智能元素识别、代码优化、自适应布局等功能,并提供调试与一键部署支持。适用于快速原型开发、前端开发辅助、学习与教学、设计协作等多个场景,提升开发效率与协作体验。

easegen

Easegen 是一款开源的 AI 工具,支持数字人课程的制作与管理。它能够批量生成 PPT 课件、克隆数字人形象和声音,并通过 AI 技术实现视频渲染和智能出题。其核心功能包括课程制作、视频管理、智能课件生成、数字人克隆及声音克隆,旨在提升教学内容的互动性和趣味性。Easegen 的技术基础涵盖人工智能、计算机视觉、自然语言处理和语音合成等,适用于在线教育、企业培训、学术研究、语言学习及职业培训

Tolan

Tolan是一款AI驱动的陪伴应用,提供个性化对话、星球互动、照片反馈及语音交流等功能,帮助用户在日常生活中获得情感支持与互动体验。其应用场景涵盖社交娱乐、创意写作、语言学习等,适用于寻求情感陪伴或趣味互动的用户。支持多平台使用,提供灵活的订阅方案。

Loopy

Loopy是一款由字节跳动开发的音频驱动的AI视频生成模型。该模型能够将静态照片转化为具有面部表情和头部动作的动态视频,与给定的音频文件同步。Loopy利用先进的扩散模型技术,无需额外的空间信号或条件,捕捉并学习长期运动信息,从而生成自然流畅的动作。其主要功能包括音频驱动、面部动作生成、无需额外条件以及长期运动信息捕捉。Loopy适用于娱乐、教育、影视制作等多种场景。

OmniParse

OmniParse是一款开源数据解析平台,支持多种文件类型的非结构化数据转换为结构化格式,包括文档、图像、视频、音频及网页内容。其核心功能涵盖表格提取、图像字幕生成、音视频转录以及网页内容结构化处理,利用自然语言处理、光学字符识别及深度学习技术提升解析效率与准确性。OmniParse完全在本地运行,确保数据隐私与安全,广泛应用于文档自动化处理、客户服务、市场研究、法律合规及医疗记录管理等领域。

SmartEraser

SmartEraser是中科大与微软亚洲研究院联合开发的图像编辑工具,采用“掩码区域引导”技术实现精准对象移除,同时保留周围上下文。基于Syn4Removal数据集训练,支持多种掩码输入,适用于复杂场景,广泛应用于照片编辑、设计、文物修复及科研等领域。

小途问问

小途问问是一款基于AI技术的学习辅助工具,支持作业批改、拍照解题、多语翻译及智能对话等功能。它能为学生提供精准的学习指导,优化学习路径,提升学习效率。适用于作业检查、语言学习、知识查询等多个场景,具有便捷高效的使用体验。

AnimateDiff

AnimateDiff是一款由上海人工智能实验室、香港中文大学和斯坦福大学的研究人员共同开发的框架,旨在将文本到图像模型扩展为动画生成器。该框架利用大规模视频数据集中的运动先验知识,允许用户通过文本描述生成动画序列,无需进行特定的模型调优。AnimateDiff支持多种领域的个性化模型,包括动漫、2D卡通、3D动画和现实摄影等,并且易于与现有模型集成,降低使用门槛。