语言模型 - 智狐AI导航

Qwen2

Qwen2是由阿里云通义千问团队开发的大型语言模型系列，涵盖从0.5B到72B的不同规模版本。该系列模型在自然语言理解、代码编写、数学解题及多语言处理方面表现出色，尤其在Qwen2-72B模型上，其性能已超过Meta的Llama-3-70B。Qwen2支持最长128K tokens的上下文长度，并已在Hugging Face和ModelScope平台上开源。 ---

AI项目与工具 2024年01月01日 48 点赞 0 评论 526 浏览

Arctic是一款由云计算公司Snowflake的AI研究团队开发的高效且开源的企业级大型语言模型，拥有480亿参数。该模型采用混合专家模型（MoE）架构，结合了密集变换器（Dense Transformer）和128个专家的特点。Arctic在成本效益、训练效率和推理效率方面具有显著优势，特别适用于企业任务，例如SQL生成、编程和指令遵循。模型基于Apache 2.0许可发布，用户可以自由使用和

AI项目与工具 2024年01月01日 90 点赞 0 评论 757 浏览

Llama 3

Llama 3是Meta公司开发的一款最新大型语言模型，提供了8B和70B两种参数规模的模型。它通过增加参数规模、扩大训练数据集、优化模型架构和增强安全性等功能，显著提升了自然语言处理能力，适用于编程、问题解决、翻译和对话生成等多种应用场景。Llama 3在多个基准测试中表现出色，并且通过指令微调进一步增强了特定任务的表现。

AI项目与工具 2025年06月12日 40 点赞 0 评论 581 浏览

Jamba

Jamba是由AI21 Labs开发的基于Mamba架构的生产级别大语言模型，结合了结构化状态空间模型（SSM）和传统Transformer架构，具备高吞吐量和低内存占用的特点。Jamba拥有256K的上下文窗口，适用于处理长文本序列，并且以开放权重的形式发布，遵循Apache 2.0开源许可。该模型主要用于研究领域，未来将推出更安全的版本。

AI项目与工具 2024年01月01日 29 点赞 0 评论 482 浏览

Grok

Grok-1是由xAI公司开发的大型语言模型，具备3140亿参数，是目前参数量最大的开源大语言模型之一。该模型基于Transformer架构，专用于自然语言处理任务，如问答、信息检索、创意写作和编码辅助等。尽管在信息处理方面表现出色，但需要人工审核以确保准确性。此外，Grok-1还提供了8bit量化版本，以降低存储和计算需求。

AI项目与工具 2024年01月01日 10 点赞 0 评论 609 浏览

ELLA

ELLA（Efficient Large Language Model Adapter）是一种由腾讯研究人员开发的方法，旨在提升文本到图像生成模型的语义对齐能力。它通过引入时序感知语义连接器（TSC），动态提取预训练大型语言模型（LLM）中的时序依赖条件，从而提高模型对复杂文本提示的理解能力。ELLA无需重新训练，可以直接应用于预训练的LLM和U-Net模型，且能与现有模型和工具无缝集成，显著提升

AI项目与工具 2024年01月01日 74 点赞 0 评论 490 浏览

Moondream

Moondream是一款小型的开源人工智能视觉语言模型，具有强大的图像处理能力和灵活性，能够在不同设备上运行。它基于Apache 2.0许可证，支持商业使用，并广泛应用于安全监控、无人机和机器人技术以及零售与购物领域。

AI项目与工具 2024年01月01日 84 点赞 0 评论 848 浏览

ScreenAI

ScreenAI是一款专为理解和处理用户界面（UI）及信息图表而设计的AI视觉语言模型。它能够识别和理解UI元素及其相互关系，并生成与屏幕UI元素相关的文本，如问题回答、UI导航指令和内容摘要。ScreenAI通过多模态编码器结合视觉和语言信息，并采用自回归解码器生成自然语言响应。此外，ScreenAI还能适应不同屏幕格式，提供精确的UI导航和内容摘要功能。

AI项目与工具 2024年01月01日 16 点赞 0 评论 789 浏览

Mistral Large

Mistral Large是Mistral AI开发的一款先进的大型语言模型，具备出色的多语言推理能力和强大的上下文理解能力。它在多个基准测试中表现出色，尤其是在多语言处理、推理和知识、数学与编程方面。Mistral Large支持多语言处理，并且能精确遵循指令，还支持函数调用，便于与开发者工具集集成。此外，该模型可通过Azure AI Studio和Azure Machine Learning平

AI项目与工具 2024年01月01日 86 点赞 0 评论 759 浏览

DiffusionGPT

DiffusionGPT是一款基于大型语言模型的开源文本到图像生成系统，由字节跳动与中山大学联合开发。它采用思维树和优势数据库技术，能够解析和处理多样化的文本提示，生成高质量图像。系统通过多模型的选择与集成、基于人类反馈的优化以及高效的图像生成执行，实现了从文本到图像的无缝转换。DiffusionGPT适用于多种应用场景，具有广泛适用性和灵活性。

AI项目与工具 2024年01月01日 93 点赞 0 评论 657 浏览

语言模型

首页

语言模型

列表

默认

浏览次数

发布日期