AI项目与工具

StochSync

StochSync是一种基于扩散同步(DS)和分数蒸馏采样(SDS)的图像生成技术,适用于360°全景图和3D纹理生成。它通过引入最大随机性与多步去噪方法,兼顾图像细节与连贯性,无需额外训练即可生成高质量图像。支持高分辨率输出,适用于复杂几何纹理化任务。

Codev

Codev 是一款基于 AI 的全栈应用开发平台,允许用户通过自然语言描述需求,自动生成基于 Next.js 和 Supabase 的现代化代码。生成的代码完全属于用户,支持自由修改和部署,避免供应商锁定。平台还提供一键部署、多项目管理和社区支持等功能,适用于初创企业、非技术用户及开发者,广泛应用于 MVP 开发、快速原型设计和教育学习等领域。

Sonic

Sonic是由腾讯与浙江大学联合开发的音频驱动肖像动画框架,基于音频信号生成逼真面部表情和动作。它通过上下文增强音频学习和运动解耦控制器,提升唇部同步精度与运动多样性。Sonic在长视频生成中表现出色,具备高稳定性与自然连贯性,支持用户自定义参数。适用于虚拟现实、影视制作、在线教育、游戏开发和社交媒体等多个领域。

FireRedASR

FireRedASR是小红书推出的工业级自动语音识别(ASR)模型系列,支持普通话、中文方言和英语,具备高精度和高效推理能力。其包含FireRedASR-LLM和FireRedASR-AED两个版本,分别聚焦于极致精度和计算效率。模型在多个场景如智能助手、视频字幕生成、歌词识别和语音输入中表现出色,且已开源,推动语音识别技术的发展。

AI Chat

AI Chat-avatar 是一款基于AI的数字人交互工具,支持多语言实时翻译与自然对话,适用于销售、客服、培训等多种场景。它能动态展示多媒体内容,提升信息理解度,并提供数据分析报告以优化沟通策略。用户可通过低代码方式快速定制虚拟形象,满足不同业务需求。

MVoT

MVoT是一种多模态推理框架,通过生成图像形式的推理痕迹,增强多模态大语言模型在复杂空间推理任务中的表现。其核心技术包括多模态推理范式、token discrepancy loss以及递归生成机制,有效提升推理准确性和可解释性。该工具适用于机器人导航、自动驾驶、智能教育、医疗影像分析及VR/AR交互等多个领域,具有广泛的应用潜力。

DynVFX

DynVFX是一种基于文本指令的视频增强技术,能够将动态内容自然地融入真实视频中。它结合了文本到视频扩散模型与视觉语言模型,通过锚点扩展注意力机制和迭代细化方法,实现新内容与原始视频的像素级对齐和融合。无需复杂输入或模型微调,即可完成高质量的视频编辑,适用于影视特效、内容创作及教育等多个领域。

Omakase AI

Omakase AI 是一款基于AI技术的智能购物助手,支持多平台整合与多语言界面,可根据用户输入的网址和偏好提供个性化商品推荐。具备智能筛选、实时更新、用户反馈优化等功能,适用于个人购物、电商运营及数据分析场景,提升购物体验与决策效率。

WorldSense

WorldSense是由小红书与上海交通大学联合开发的多模态基准测试工具,用于评估大型语言模型在现实场景中对视频、音频和文本的综合理解能力。该平台包含1662个同步视频、3172个问答对,覆盖8大领域及26类认知任务,强调音频与视频信息的紧密耦合。所有数据经专家标注并多重验证,确保准确性。适用于自动驾驶、智能教育、监控、客服及内容创作等多个领域,推动AI模型在多模态场景下的性能提升。

Kiln AI

Kiln AI 是一款开源 AI 开发工具,支持多平台使用,提供零代码微调、合成数据生成及团队协作功能。内置交互式工具,兼容多种模型和 AI 提供商,支持 Git 版本控制与自动部署,适用于智能客服、医疗、教育、金融等场景,注重数据隐私与安全性。