训练

T2V

T2V-Turbo 是一种高效的文本到视频生成模型,能够快速生成高质量视频,同时确保文本与视频的高度一致性。它通过一致性蒸馏技术和混合奖励机制优化生成过程,适用于电影制作、新闻报道、教育及营销等多个领域,支持从创意草图到成品视频的全流程加速。

Torch

Torch-MLU 是一个开源的 PyTorch 扩展插件,支持开发者将寒武纪 MLU 系列智能加速卡作为 PyTorch 的加速后端。它实现了对 PyTorch 的原生支持,使开发者能够无缝地将基于 GPU 的深度学习模型迁移到 MLU 硬件上,显著提高模型的训练和推理效率。此外,Torch-MLU 还支持自动混合精度训练,通过优化计算图等技术,进一步提升了模型的执行效率。

秒画Sensemirage

商汤秒画Sensemirage是一款基于AI大模型的文生图创作平台,可以让用户通过输入文字描述,快速生成高质量的图像。

MMedAgent

MMedAgent是一款面向医疗领域的多模态AI平台,集成了指令优化的多模态大型语言模型(MLLM)及一系列定制化医疗工具,支持多种医学成像模式(如MRI、CT、X射线等),可高效处理视觉问答、分类、定位、分割、医学报告生成(MRG)及检索增强生成(RAG)等任务,显著提升了医疗数据处理效率与准确性。

Transfusion

Transfusion是由Meta公司开发的多模态AI模型,能够同时生成文本和图像,并支持图像编辑功能。该模型通过结合语言模型的下一个token预测和扩散模型,在单一变换器架构上处理混合模态数据。Transfusion在预训练阶段利用了大量的文本和图像数据,表现出强大的扩展性和优异的性能。其主要功能包括多模态生成、混合模态序列训练、高效的注意力机制、模态特定编码、图像压缩、高质量图像生成、文本生成

Fluently

Fluently 是一款基于AI的英语学习工具,能够根据用户水平生成个性化学习计划,涵盖发音、语法、词汇和流利度训练。用户可在真实场景中与AI导师进行对话练习,并获得即时反馈。支持Zoom等主流会议平台,帮助用户在实际交流中提升英语表达能力,适用于面试模拟、日常练习、国际交流等多种场景。

Gen

Gen-3 Alpha是一款由Runway公司研发的AI视频生成模型,能够生成长达10秒的高清视频片段,支持文本到视频、图像到视频的转换,并具备精细的时间控制及多种高级控制模式。其特点在于生成逼真的人物角色、复杂的动作和表情,提供运动画笔、高级相机控制和导演模式等高级控制工具,确保内容的安全性和合规性。

Eagle

Eagle是一个由英伟达开发的多模态大模型,专长于处理高分辨率图像,提高视觉问答和文档理解能力。该模型采用多专家视觉编码器架构,通过简单的特征融合策略实现图像内容的深入理解。Eagle模型已开源,适用于多个行业,具有高分辨率图像处理、多模态理解、多专家视觉编码器、特征融合策略和预对齐训练等特点。

Awesome Chinese LLM

整理了开源的中文大语言模型(LLM),主要关注规模较小、可私有化部署且训练成本较低的模型,目前已收录了100多个相关资源。

Chatbond

Chatbond 是一款专为企业设计的 AI 聊天机器人开发平台,支持多语言、个性化定制及多数据源集成,具备自动重新训练功能以保障信息准确性。其应用场景涵盖客户服务、电子商务、教育、人力资源和医疗保健等领域,能够显著提升运营效率和服务质量。