模型

Whisk

Whisk是一款基于AI的图像生成工具,由谷歌推出,支持用户通过上传图像并指定主题、场景和风格生成新图像。它具备多图像输入、自动图像提示及额外文字细节添加等功能,基于谷歌最新的Imagen 3模型,适用于艺术创作、广告营销、社交媒体内容生产等多个领域,助力用户高效完成创意设计。

CogView4

CogView4是一款由智谱推出的开源文生图模型,具有60亿参数,支持中英文输入与高分辨率图像生成。在DPG-Bench基准测试中表现优异,达到当前开源模型的领先水平。模型具备强大的语义理解能力,尤其在中文文字生成方面表现突出,适用于广告设计、教育、儿童绘本及电商等领域。其技术架构融合扩散模型与Transformer,并采用显存优化技术提升推理效率。

NoteLLM

NoteLLM 是一款基于多模态大型语言模型的笔记推荐框架,支持文本与图像信息的融合处理。通过自动生成标签、压缩嵌入、对比学习和指令微调等技术,提升推荐准确性与相关性。其升级版 NoteLLM-2 引入多模态上下文学习与晚期融合机制,增强视觉信息处理能力,适用于个性化推荐、冷启动优化及内容创作辅助等场景。

Amazon Bedrock

Amazon Bedrock是一款由AWS推出的完全托管型AI服务平台,集成了多家顶级AI公司的基础模型,支持企业通过单一API访问高性能模型。它提供了从基础模型接入、微调到代理构建的一系列功能,包括检索增强生成(RAG)、自动推理检查及多Agent协作等特性。此外,其模型蒸馏技术能够有效提升效率并降低运行成本,广泛适用于文本生成、虚拟助手、图像生成等多种应用场景。

阿帕斯大模型

阿帕斯大模型是APUS公司推出的以人工智能技术为核心的多模态大模型,它通过提供行业定制化的AI解决方案和创意工具,致力于帮助全球用户实现更优质的移动互联网使用体验和创造个性...

FineWeb 2

FineWeb 2是一个涵盖超过1000种语言的多语言预训练数据集,通过语言识别、去重、内容过滤及PII匿名化处理生成。它支持多种NLP任务,如机器翻译和文本分类,旨在增强多语言模型的性能与普适性,并为研究者提供技术验证的工具与资源。

Veo 3

Veo 3是谷歌推出的新一代视频生成模型,在I/O开发者大会上发布。它是首个能生成视频背景音效的模型,可合成画面并匹配人物对话和口型,支持1080P高质量视频生成,具备物理模拟与口型同步能力,可生成超过60秒的视频片段,并支持多种视觉风格。Veo 3整合了多项先进技术,适用于影视制作、广告营销及教育领域。

炉米Lumi

炉米Lumi是一款由字节跳动开发的AIGC图像创作平台,主要功能包括模型上传与展示、工作流搭建以及LoRA微调。它为AI爱好者、研究人员和开发者提供了一个协作环境,用于分享和优化AI模型。炉米Lumi支持多种应用场景,如科研、教育、艺术创作、商业应用开发等,具有开放性和高灵活性。 ---

MAI

MAI-DS-R1 是微软基于 DeepSeek R1 优化的 AI 模型,具备高敏感话题响应能力(99.3%),有害内容风险降低 50%,并保持与原版相同的推理水平。支持多语言输出,适用于国际组织、企业及教育机构。已开源,可用于研究与开发,适用于内容审核、多语言客服、学术研究等多种场景。

DeepFaceLab

DeepFaceLab 是一种利用深度学习识别来交换图片和视频中的人脸的工具。