架构

Lumina

Lumina-Image 2.0 是一款开源图像生成模型,基于扩散模型与 Transformer 架构,具有 26 亿参数。它能根据文本描述生成高质量、多风格的图像,支持中英文提示词,并具备强大的复杂提示理解能力。模型支持多种推理求解器,适用于艺术创作、摄影风格图像生成及逻辑推理场景,兼具高效性和灵活性。

SAM 2.1

SAM 2.1是一款由Meta开发的先进视觉分割模型,支持图像和视频的实时分割处理。其核心功能包括用户交互式分割、多对象跟踪、数据增强以及遮挡处理等。通过引入Transformer架构和流式记忆机制,SAM 2.1显著提升了对复杂场景的理解能力。该工具具有广泛的应用场景,涵盖内容创作、医疗影像分析、自动驾驶等多个领域。

StreamMultiDiffusion

StreamMultiDiffusion是一款开源的实时交互式图像生成框架,结合了扩散模型的高质量图像合成能力和区域控制的灵活性。用户可以实时生成和编辑图像,通过文本提示和手绘区域生成特定部分的图像,提供高质量的图像输出。其主要功能包括实时图像生成、指定区域文本到图像生成、直观的用户界面、多提示流批处理架构、快速推理技术、区域控制、稳定化技术和Semantic Palette交互式图像生成。

LalaEval

LalaEval是由香港中文大学与货拉拉数据科学团队联合开发的针对特定领域大语言模型的人类评估框架。它提供了一套完整的端到端评估流程,涵盖领域界定、能力指标构建、评测集生成、标准制定及结果分析。通过争议度与评分波动分析,有效减少主观误差,提升评估质量。该工具已在物流领域成功应用,并具备良好的跨领域扩展性,适用于企业内部模型优化与多场景评测。

Talker

Talker-Reasoner是一种结合了直觉与逻辑推理能力的双模块AI代理架构,由谷歌DeepMind研发。它通过Talker模块快速生成自然语言回应,以及Reasoner模块执行复杂的逻辑推理和规划,实现了高效的任务处理和自然的人机交互。该架构支持多步推理、信念状态管理及上下文感知,适用于客户服务、健康管理、教育辅导等多个领域。

HiDream

HiDream-I1是一款由HiDream.ai团队开发的开源AI图像生成模型,具备17亿参数,支持多种图像风格生成,包括真实、卡通和艺术风格。其在提示词理解、细节渲染和图像一致性方面表现出色,适用于艺术创作、商业设计、教育科研等领域。模型采用扩散模型和混合专家架构(MoE),并集成多种文本编码器,实现高质量与高效率的图像生成。项目已在GitHub和HuggingFace开源,便于研究与应用。

CogView

CogView-3-Plus是智谱AI研发的AI文生图模型,采用Transformer架构替代传统的UNet,优化了扩散模型中的噪声规划。它能够根据用户指令生成高质量、高美学评分的图像,支持多种分辨率,并具有实时生成图像的能力。该模型已被集成到“智谱清言”APP中,并提供API服务,适用于艺术创作、游戏设计、广告制作等多个图像生成领域。

Bocha Semantic Reranker

Bocha Semantic Reranker是一款基于语义的排序模型,用于提升搜索和问答系统的准确性。它通过二次优化初步排序结果,评估查询与文档的语义相关性,并为文档分配语义得分。该工具支持多种语言模型,适用于搜索引擎优化、问答系统、推荐系统和智能客服等领域,旨在改善用户体验并提高系统效率。

腾讯混元Turbo S

腾讯混元Turbo S是腾讯推出的高效AI模型,采用Hybrid-Mamba-Transformer架构,提升推理效率并降低计算成本。支持快速响应、多领域推理、内容创作及多模态生成,适用于对话、代码、逻辑推理等场景。兼具短思维链与长思维链能力,性能对标行业领先模型。

Casevo

Casevo是一款由中国传媒大学研发的开源社会传播模拟系统,结合大语言模型与多智能体技术,用于模拟人类认知、决策和社会交互,分析并预测社会传播现象。其模块化设计支持从场景设定到复杂社会网络建模的全流程仿真,适用于新闻传播、社会计算、公共政策等多个领域,助力研究者进行理论构建与策略优化,推动AI在社会科学中的应用发展。