语言模型 - 智狐AI导航

PaliGemma 2

PaliGemma 2是一款由Google DeepMind研发的视觉语言模型（VLM），结合了SigLIP-So400m视觉编码器与Gemma 2语言模型，支持多种分辨率的图像处理。该模型具备强大的知识迁移能力和出色的学术任务表现，在OCR、音乐乐谱识别以及医学图像报告生成等方面实现了技术突破。它能够处理多模态任务，包括图像字幕生成、视觉推理等，并支持量化和CPU推理以提高计算效率。

AI项目与工具 2025年06月12日 10 点赞 0 评论 673 浏览

AgentRefine

AgentRefine 是由北京邮电大学与美团联合开发的智能体合成框架，采用“精炼调整”方法提升基于大语言模型的智能体在多样化任务中的泛化能力。它通过轨迹中的观察实现错误纠正与自我优化，增强智能体在复杂环境中的适应性和鲁棒性。该框架支持多样化推理路径，广泛应用于自动化决策、游戏 AI、代码生成及自然语言处理等领域。

AI项目与工具 2025年06月12日 19 点赞 0 评论 672 浏览

Kimi+

Kimi 是由月之暗面科技有限公司开发的人工智能助手。它具备多语言对话能力，擅长中文和英文，能够处理长文本，支持文件阅读和网址解析，具备搜索能力，并且能够结合搜索结果为用户...

Ai编程建站 1970年01月01日 0 点赞 0 评论 671 浏览

SFR-RAG

先进的大型语言模型，它通过强化对上下文的理解，提高了机器在生成文本方面的准确性和可靠性。无论是在客户服务、知识问答、内容创作还是专业咨询领域，SFR-RAG都能提供高质量的文...

Ai平台模型 1970年01月01日 0 点赞 0 评论 670 浏览

文心大模型4.5 Turbo

文心大模型4.5 Turbo是百度推出的高性能、低成本多模态大模型，支持文本、图像、视频等多种输入形式，具备强大的逻辑推理与去幻觉能力，可辅助代码编写。相比前代产品，其速度更快、成本更低，适用于内容创作、智能客服、电商营销、教育及办公自动化等多个场景，已在文心一言平台上线。

AI项目与工具 2025年06月11日 19 点赞 0 评论 667 浏览

WhisperKeyboard

WhisperKeyboard 是一款基于 OpenAI Whisper 技术的 AI 语音输入工具，支持多语言实时语音转文字，适用于写作、编程、会议记录等场景。具备离线识别、文本润色、多语言翻译和隐私保护等功能，兼容多平台，提升输入效率与文本质量。

AI项目与工具 2025年06月12日 76 点赞 0 评论 666 浏览

OmniAudio

OmniAudio-2.6B是一款专为边缘设备设计的高性能音频语言模型，具备语音识别、转录、问答、对话生成及内容创作等核心功能。其技术优势在于多模态架构的高效集成、稀疏性利用以及三阶段训练流程，支持FP16和Q4_K_M量化版本，确保在资源受限的环境下仍能稳定运行。OmniAudio-2.6B可应用于智能助手、车载系统、会议记录、教育和医疗等多个领域，为用户提供便捷、高效的语音交互体验。

AI项目与工具 2025年06月12日 95 点赞 0 评论 663 浏览

书生

书生通用大模型体系是一套全面、高效的AI解决方案，涵盖了语言处理、多模态分析、气象预报、翼型设计和三维建模等多个领域。

Ai平台模型 1970年01月01日 0 点赞 0 评论 663 浏览

InternVL

InternVL是由上海人工智能实验室开发的多模态大模型，融合视觉与语言处理能力，支持图像、视频、文本等多种输入。其基于ViT-MLP-LLM架构，具备多模态理解、多语言处理、文档解析、科学推理等能力，广泛应用于视觉问答、智能客服、图像分析等领域。模型采用动态高分辨率与渐进式训练策略，提升处理效率与准确性。

AI项目与工具 2025年06月12日 78 点赞 0 评论 661 浏览

孟子大模型

孟子大模型作为澜舟科技的核心产品之一，展现了公司在认知智能领域的技术实力和创新能力。通过其强大的语言处理和多模态数据处理能力，孟子大模型为不同行业提供了灵活、高效的解...

创作工具 1970年01月01日 0 点赞 0 评论 659 浏览

语言模型

首页

语言模型

列表

默认

浏览次数

发布日期