admin的文章

FireRedASR

FireRedASR是小红书推出的工业级自动语音识别（ASR）模型系列，支持普通话、中文方言和英语，具备高精度和高效推理能力。其包含FireRedASR-LLM和FireRedASR-AED两个版本，分别聚焦于极致精度和计算效率。模型在多个场景如智能助手、视频字幕生成、歌词识别和语音输入中表现出色，且已开源，推动语音识别技术的发展。

731 0

AI Chat

AI Chat-avatar 是一款基于AI的数字人交互工具，支持多语言实时翻译与自然对话，适用于销售、客服、培训等多种场景。它能动态展示多媒体内容，提升信息理解度，并提供数据分析报告以优化沟通策略。用户可通过低代码方式快速定制虚拟形象，满足不同业务需求。

889 0

MVoT

MVoT是一种多模态推理框架，通过生成图像形式的推理痕迹，增强多模态大语言模型在复杂空间推理任务中的表现。其核心技术包括多模态推理范式、token discrepancy loss以及递归生成机制，有效提升推理准确性和可解释性。该工具适用于机器人导航、自动驾驶、智能教育、医疗影像分析及VR/AR交互等多个领域，具有广泛的应用潜力。

728 0

DynVFX

DynVFX是一种基于文本指令的视频增强技术，能够将动态内容自然地融入真实视频中。它结合了文本到视频扩散模型与视觉语言模型，通过锚点扩展注意力机制和迭代细化方法，实现新内容与原始视频的像素级对齐和融合。无需复杂输入或模型微调，即可完成高质量的视频编辑，适用于影视特效、内容创作及教育等多个领域。

961 0

Omakase AI

Omakase AI 是一款基于AI技术的智能购物助手，支持多平台整合与多语言界面，可根据用户输入的网址和偏好提供个性化商品推荐。具备智能筛选、实时更新、用户反馈优化等功能，适用于个人购物、电商运营及数据分析场景，提升购物体验与决策效率。

591 0

WorldSense

WorldSense是由小红书与上海交通大学联合开发的多模态基准测试工具，用于评估大型语言模型在现实场景中对视频、音频和文本的综合理解能力。该平台包含1662个同步视频、3172个问答对，覆盖8大领域及26类认知任务，强调音频与视频信息的紧密耦合。所有数据经专家标注并多重验证，确保准确性。适用于自动驾驶、智能教育、监控、客服及内容创作等多个领域，推动AI模型在多模态场景下的性能提升。

585 0

Kiln AI

Kiln AI 是一款开源 AI 开发工具，支持多平台使用，提供零代码微调、合成数据生成及团队协作功能。内置交互式工具，兼容多种模型和 AI 提供商，支持 Git 版本控制与自动部署，适用于智能客服、医疗、教育、金融等场景，注重数据隐私与安全性。

691 0

Airweave

Airweave 是一款开源数据同步工具，支持将多种数据源（如 API、数据库、网站等）同步到图数据库和向量数据库中，提升数据检索效率。其核心功能包括无代码集成、多租户支持、数据分块、自动同步及版本控制。支持多种向量数据库，并提供灵活的部署方式，适用于企业开发、数据分析、SaaS 平台及内容管理等多个场景。

579 0

Basedash

Basedash 是一款基于 AI 技术的无代码数据库管理工具，支持多种数据库和 API 连接，提供数据可视化、仪表板创建、SQL 编辑器及团队协作功能。其 AI 自动生成界面，简化数据操作流程，适用于 CRM、客户支持、产品分析等场景，具备高安全性与易用性，目前处于 Beta 测试阶段，支持免费使用。

640 0