模型 - 智狐AI导航

Liquid

Liquid是由华中科技大学、字节跳动和香港大学联合开发的多模态生成框架，通过VQGAN将图像编码为离散视觉token并与文本共享词汇空间，使大型语言模型无需修改结构即可处理视觉任务。该框架降低训练成本，提升视觉生成与理解性能，并在多模态任务中表现出色。支持图像生成、视觉问答、多模态融合等应用，适用于创意设计、内容创作及智能交互等领域。

AI项目与工具 2025年06月12日 82 点赞 0 评论 563 浏览

牛小影

原牛学长视频修复工具,视频画质增强器,模糊视频修复高清。

视频剪辑 2025年06月05日 54 点赞 0 评论 563 浏览

POINTS 1.5

POINTS 1.5 是腾讯微信开发的多模态大模型，基于LLaVA架构设计，包含视觉编码器、投影器和大型语言模型。它在复杂场景OCR、推理、关键信息提取、数学问题解析及图片翻译等方面表现突出，适用于票据识别、自动客服、新闻摘要、学术论文处理、旅游翻译和在线教育等多个领域。该模型通过高效的数据处理和特征融合技术，实现了跨模态任务的精准处理与高效输出。

AI项目与工具 2025年06月12日 14 点赞 0 评论 563 浏览

OpenVision

OpenVision是加州大学圣克鲁兹分校推出的多模态视觉编码器系列，具备从5.9M到632.1M参数的多种模型，适用于不同硬件环境。其采用渐进式多阶段分辨率训练策略，训练效率比同类模型高2至3倍，在多模态任务中表现优异。支持可变大小patch输入，兼具灵活性与高效性，广泛应用于工业检测、机器人视觉、自动驾驶及科研教育等领域。

AI项目与工具 2025年06月11日 58 点赞 0 评论 563 浏览

Whispo

Whispo是一款AI驱动的语音转录工具，支持用户通过快捷键快速录制语音并将其转写为文本，同时具备本地数据处理、隐私保护及基于大型语言模型的文本后处理功能。它适用于会议记录、教育、自动字幕生成等多个场景，旨在提升工作效率和用户体验。

AI项目与工具 2025年06月12日 47 点赞 0 评论 564 浏览

生数

生数以其创新的多模态大模型和深度生成式算法研究，为艺术设计、游戏制作、影视后期和内容社交等领域提供了强大的技术支持和解决方案。

创作工具 2026年06月10日 0 点赞 0 评论 564 浏览

WorldSense

WorldSense是由小红书与上海交通大学联合开发的多模态基准测试工具，用于评估大型语言模型在现实场景中对视频、音频和文本的综合理解能力。该平台包含1662个同步视频、3172个问答对，覆盖8大领域及26类认知任务，强调音频与视频信息的紧密耦合。所有数据经专家标注并多重验证，确保准确性。适用于自动驾驶、智能教育、监控、客服及内容创作等多个领域，推动AI模型在多模态场景下的性能提升。

AI项目与工具 2025年06月12日 61 点赞 0 评论 564 浏览

AbletonMCP

AbletonMCP 是一个开源工具，通过模型上下文协议（MCP）将 Ableton Live 与 Claude AI 连接，实现音乐制作过程中的 AI 辅助。支持双向通信，允许用户通过 AI 创建和编辑 MIDI 与音频轨道、选择乐器和效果、控制播放等。技术上采用 JSON 协议和套接字通信，适用于音乐创作、实时制作、教学及音频后期处理等多种场景。

AI项目与工具 2025年06月12日 99 点赞 0 评论 564 浏览

DeepSeek R1

DeepSeek R1-Zero 是一款基于纯强化学习训练的推理模型，无需监督微调即可实现高效推理。在 AIME 2024 竞赛中 Pass@1 分数达到 71.0%，展现强大逻辑与数学推理能力。支持长上下文处理，具备自我进化、多任务泛化等特性，并通过开源和蒸馏技术推动模型应用与优化。

AI项目与工具 2025年06月12日 34 点赞 0 评论 564 浏览

百聆

百聆是一款开源语音对话系统，融合语音识别、语音活动检测、大语言模型和语音合成技术，实现自然流畅的语音交互。支持低延迟运行，无需GPU，适用于边缘设备。具备记忆、工具调用和任务管理等功能，适用于智能家居、个人助理、车载系统等多种场景，提供高效的语音交互解决方案。

AI项目与工具 2025年06月12日 90 点赞 0 评论 564 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期