大型语言模型

Mistral Large

Mistral Large是Mistral AI开发的一款先进的大型语言模型，具备出色的多语言推理能力和强大的上下文理解能力。它在多个基准测试中表现出色，尤其是在多语言处理、推理和知识、数学与编程方面。Mistral Large支持多语言处理，并且能精确遵循指令，还支持函数调用，便于与开发者工具集集成。此外，该模型可通过Azure AI Studio和Azure Machine Learning平

AI项目与工具 2024年01月01日 86 点赞 0 评论 759 浏览

ELLA

ELLA（Efficient Large Language Model Adapter）是一种由腾讯研究人员开发的方法，旨在提升文本到图像生成模型的语义对齐能力。它通过引入时序感知语义连接器（TSC），动态提取预训练大型语言模型（LLM）中的时序依赖条件，从而提高模型对复杂文本提示的理解能力。ELLA无需重新训练，可以直接应用于预训练的LLM和U-Net模型，且能与现有模型和工具无缝集成，显著提升

AI项目与工具 2024年01月01日 74 点赞 0 评论 490 浏览

Grok

Grok-1是由xAI公司开发的大型语言模型，具备3140亿参数，是目前参数量最大的开源大语言模型之一。该模型基于Transformer架构，专用于自然语言处理任务，如问答、信息检索、创意写作和编码辅助等。尽管在信息处理方面表现出色，但需要人工审核以确保准确性。此外，Grok-1还提供了8bit量化版本，以降低存储和计算需求。

AI项目与工具 2024年01月01日 10 点赞 0 评论 609 浏览

Arctic

Arctic是一款由云计算公司Snowflake的AI研究团队开发的高效且开源的企业级大型语言模型，拥有480亿参数。该模型采用混合专家模型（MoE）架构，结合了密集变换器（Dense Transformer）和128个专家的特点。Arctic在成本效益、训练效率和推理效率方面具有显著优势，特别适用于企业任务，例如SQL生成、编程和指令遵循。模型基于Apache 2.0许可发布，用户可以自由使用和

AI项目与工具 2024年01月01日 90 点赞 0 评论 757 浏览

Qwen2

Qwen2是由阿里云通义千问团队开发的大型语言模型系列，涵盖从0.5B到72B的不同规模版本。该系列模型在自然语言理解、代码编写、数学解题及多语言处理方面表现出色，尤其在Qwen2-72B模型上，其性能已超过Meta的Llama-3-70B。Qwen2支持最长128K tokens的上下文长度，并已在Hugging Face和ModelScope平台上开源。 ---

AI项目与工具 2024年01月01日 48 点赞 0 评论 526 浏览