模型

Lobe Vidol

Lobe Vidol是一个开源的数字人创作平台,支持用户轻松创建和定制虚拟偶像。它具备流畅的对话交互、背景设定、动作库、角色编辑功能,还支持MMD舞蹈和PMX舞台加载。通过TTS与STT技术,Lobe Vidol实现了语音与文本的双向转换,提供沉浸式用户体验。 ---

DreamGen

DreamGen是英伟达推出的机器人学习技术,基于AI视频世界模型生成合成数据,使机器人能在梦境中学习新技能。它通过微调视频世界模型、生成虚拟数据、提取虚拟动作和训练下游策略四步流程,实现机器人在新环境中的行为和环境泛化。DreamGen无需大量真实数据,仅凭文本指令即可完成复杂任务,提升学习效率和泛化能力。其支持多种机器人系统和策略架构,适用于工业生产、家庭服务、医疗护理等多个领域。

Aibiye

Aibiye是一款基于先进语言模型的AI论文辅助工具,支持从选题建议、结构生成到内容填充的全流程写作服务。用户可输入关键词、选择专业及字数,生成符合学术规范的论文初稿,支持中英文文献引用和图表插入,具备降重与改写功能,助力提升论文质量。

VRAG

VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架,旨在提升视觉语言模型在处理视觉丰富信息时的检索、推理和理解能力。通过定义视觉感知动作空间,实现从粗粒度到细粒度的信息获取,并结合强化学习和综合奖励机制优化模型性能。该框架支持多轮交互推理,具备良好的可扩展性,适用于智能文档问答、视觉信息检索、多模态内容生成等多种场景。

LTXV

LTXV-13B 是 Lightricks 推出的开源 AI 视频生成模型,拥有 130 亿参数,可在消费级显卡上高效运行,生成速度比同类产品快 30 倍。支持文本、图像转视频及多关键帧调节,具备多尺度渲染和高压缩率技术,适用于影视、广告、游戏、教育等多个领域,提升内容创作效率与质量。

FinRobot

FinRobot是一款开源的AI代理平台,专注于金融领域的应用,基于大型语言模型(LLMs)构建能够执行复杂分析和决策的专业金融AI代理。平台通过金融思维链(CoT)提示功能提升分析能力,并通过开源方式促进AI在金融决策中的广泛应用。架构涵盖金融AI代理层、金融LLM算法层、LLMOps和DataOps层以及多源LLM基础模型层,支持市场预测、文档分析及交易策略等多种金融专业AI代理。

YAYI

YAYI-Ultra是中科闻歌研发的企业级大语言模型,具备多领域专业能力与多模态内容生成能力,支持数学、代码、金融、中医等领域。模型支持超长文本处理、数据分析、任务规划及联网创作,适用于媒体、医疗、财税等行业。采用混合专家架构,结合指令微调技术,在多项评测中表现优异,提供高效、精准的智能化服务。

RepText

RepText是一款由Shakker Labs与Liblib AI联合开发的多语言视觉文本渲染框架,采用字形模仿技术实现高质量文本生成。支持多种语言及复杂排版,具备精准控制、高效兼容和自然融合等特点,广泛应用于平面设计、艺术创作和数字内容生产等领域。

AgileGen

AgileGen是一个基于人机协作的生成式软件开发框架,通过Gherkin语言定义用户需求并生成代码,支持快速原型设计和迭代优化。其主要功能包括需求收集与澄清、场景设计、代码生成及反馈迭代,同时具备记忆池机制以提升决策效率。适用于初创公司、教育领域及企业内部工具开发等场景。

LatentSync

LatentSync是由字节跳动与北京交通大学联合研发的端到端唇形同步框架,基于音频条件的潜在扩散模型,无需中间3D或2D表示,可生成高分辨率、动态逼真的唇同步视频。其核心技术包括Temporal Representation Alignment (TREPA)方法,提升视频时间一致性,并结合SyncNet监督机制确保唇部动作准确。适用于影视制作、教育、广告、远程会议及游戏开发等多个领域。