Qwen3

简介：Qwen3 是阿里巴巴推出的下一代大型语言模型，支持“思考模式”和“非思考模式”，适用于复杂与简单任务。具备 119 种语言支持，优化了编码与 Agent 能力，数据量达 36 万亿 token，采用四阶段训练流程。提供多种模型配置，涵盖从轻量级到企业级应用。在多项基准测试中表现优异，广泛应用于文本生成、机器翻译、法律文书、技术文档、医疗辅助等领域。

AI小编 526 阅读 0 评论 11 点赞

项目地址

Qwen3 介绍

Qwen3 是阿里巴巴推出的新一代大型语言模型，具备“思考模式”和“非思考模式”两种运行方式。在思考模式下，模型能够逐步推理并提供深度解答，适用于复杂问题；非思考模式则以快速响应为特点，适合处理简单任务。Qwen3 支持 119 种语言和方言，较前代模型显著扩展了语言覆盖范围。此外，该模型优化了编码与 Agent 能力，支持 MCP 协议，便于与外部工具和数据源集成。其预训练数据量达约 36 万亿个 token，是 Qwen2.5 的两倍，并采用四阶段训练流程，包括长思维链冷启动、强化学习等，提升模型性能。

阿里巴巴最新发布的两款 Qwen3 系列模型为 Qwen3-Embedding 和 Qwen3-Reranker。

Qwen3-Embedding 在多语言文本表征测试中表现优异，8B 参数版本在 MTEB 多语言 Leaderboard 榜单上以 70.58 分位列第一，超越多个商业 API 服务。它通过提取文本的语义向量，适用于文本分类、聚类和相似度计算等任务。

Qwen3-Reranker 在多语言检索任务中表现突出，8B 版本在中文检索中得分高达 77.45，英文任务中得分为 69.76。该模型接收文本对输入，计算相关性得分，可用于搜索引擎排序、问答系统等场景。

Qwen3 的主要功能

混合推理模式：Qwen3 支持“思考模式”和“非思考模式”，可根据任务复杂度灵活选择，兼顾效率与质量。
多语言支持：涵盖 119 种语言和方言，适应全球多语言应用场景。
增强的 Agent 能力：支持 MCP 协议，结合 Qwen-Agent 框架，提升与外部工具的交互能力。
多样化模型配置：提供多种参数规模的模型，如 Qwen3-235B-A22B、Qwen3-32B 等，满足不同部署需求。

Qwen3 的技术原理

大规模预训练：Qwen3 使用约 36 万亿 token 数据进行训练，涵盖 119 种语言和方言，分三阶段完成。
优化的后训练：通过四阶段训练流程，提升模型在推理和快速响应方面的能力。
多种模型配置：包括 MoE 模型和 Dense 模型，覆盖从轻量级设备到企业级应用。
性能优化：相比同类模型，Qwen3 显存占用更低，部署成本更优。

Qwen3 的项目信息

项目官网：https://qwenlm.github.io/blog/qwen3/
Github 仓库：
- Qwen3：https://github.com/QwenLM/Qwen3
- Qwen3-Embedding：https://github.com/QwenLM/Qwen3-Embedding
HuggingFace 模型库：
- Qwen3：https://huggingface.co/collections/Qwen/qwen3
- Qwen3-Embedding：https://huggingface.co/collections/Qwen/qwen3-embedding
- Qwen3-Reranker：https://huggingface.co/collections/Qwen/qwen3-reranker

Qwen3 的性能表现

Qwen3 在多个基准测试中表现卓越，例如：

AIME25：获得 81.5 分，刷新开源记录。
LiveCodeBench：超过 70 分，表现优于 Grok3。
ArenaHard：以 95.6 分超越 OpenAI-o1 和 DeepSeek-R1。

Qwen3 的应用场景

文本生成：适用于新闻、文章、故事等内容创作。
机器翻译：支持 119 种语言，实现高质量多语言转换。
法律文书生成：可自动生成合同、法律意见书等。
技术文档编写：帮助生成产品手册、技术说明等。
医疗辅助：用于生成医学报告、诊断建议等。
法律领域应用：通过微调生成专业法律文件。

本文分类：AI项目与工具
本文标签：AI模型语言模型多语言支持文本生成机器翻译大模型自然语言处理模型优化开源项目 AI工具
浏览次数：526 次浏览
发布日期：2025-06-11 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/8002.html

评论列表共有 0 条评论

暂无评论