多模态 - 智狐AI导航

MCP万能工具箱

MCP万能工具箱是一个基于MCP开放协议的AI工具集成平台，提供近百款免费工具，覆盖办公、金融、数据处理等场景。支持一键调用多种功能，如财报解析、投资建议、地图导航等，并集成多个主流大模型。用户无需编程即可创建个性化智能体，提升工作效率与决策能力。平台具备安全机制，兼容多系统，适用于办公自动化、金融分析及专业领域支持等多种应用。

AI项目与工具 2025年06月11日 100 点赞 0 评论 794 浏览

InternVL

InternVL是由上海人工智能实验室开发的多模态大模型，融合视觉与语言处理能力，支持图像、视频、文本等多种输入。其基于ViT-MLP-LLM架构，具备多模态理解、多语言处理、文档解析、科学推理等能力，广泛应用于视觉问答、智能客服、图像分析等领域。模型采用动态高分辨率与渐进式训练策略，提升处理效率与准确性。

AI项目与工具 2025年06月12日 78 点赞 0 评论 793 浏览

ACTalker

ACTalker 是一种基于视频扩散模型的端到端工具，可生成高质量、自然的说话人头部视频。支持多信号控制（如音频、表情），采用并行 Mamba 结构和门控机制，实现跨时间和空间的精准面部动作控制。实验表明其在音频同步性和视频质量上表现优异，适用于虚拟主播、远程会议、在线教育等多种场景。

AI项目与工具 2025年06月12日 99 点赞 0 评论 792 浏览

MVoT

MVoT是一种多模态推理框架，通过生成图像形式的推理痕迹，增强多模态大语言模型在复杂空间推理任务中的表现。其核心技术包括多模态推理范式、token discrepancy loss以及递归生成机制，有效提升推理准确性和可解释性。该工具适用于机器人导航、自动驾驶、智能教育、医疗影像分析及VR/AR交互等多个领域，具有广泛的应用潜力。

AI项目与工具 2025年06月12日 57 点赞 0 评论 792 浏览

阿里妈妈·智造字

阿里妈妈·智造字，以研习古今造字的脉络，跨越历史长河，传承汉字基因，探寻中华深层审美规律。

字体字库 2025年06月05日 34 点赞 0 评论 792 浏览

OmniAudio

OmniAudio-2.6B是一款专为边缘设备设计的高性能音频语言模型，具备语音识别、转录、问答、对话生成及内容创作等核心功能。其技术优势在于多模态架构的高效集成、稀疏性利用以及三阶段训练流程，支持FP16和Q4_K_M量化版本，确保在资源受限的环境下仍能稳定运行。OmniAudio-2.6B可应用于智能助手、车载系统、会议记录、教育和医疗等多个领域，为用户提供便捷、高效的语音交互体验。

AI项目与工具 2025年06月12日 95 点赞 0 评论 791 浏览