计算

Eagle 2.5

Eagle 2.5 是一款由英伟达开发的视觉语言模型,专注于长上下文多模态学习,具备处理高分辨率图像和长视频序列的能力。其参数规模为 8B,但性能接近更大模型。采用信息优先采样和渐进式后训练策略,提升模型稳定性与适应性。支持多样任务,适用于视频分析、图像处理、内容创作及教育等多个领域。

DistriFusion

DistriFusion是一个专为加速高分辨率扩散模型在多GPU环境中生成图像的分布式并行推理框架。通过将图像分割成多个小块并分配至不同设备上进行独立处理,它能够在不增加额外训练负担的情况下,将推理速度提升高达六倍,同时保持图像质量。其技术原理包括Patch Parallelism(分片并行)、异步通信、位移补丁并行性等,适用于多种现有的扩散模型。应用场景包括AI艺术创作、游戏和电影制作、VR/A

FlashVideo

FlashVideo是由字节跳动团队研发的高分辨率视频生成框架,采用两阶段方法优化计算效率。第一阶段在低分辨率下生成高质量内容,第二阶段通过流匹配技术提升至1080p,仅需4次函数评估。其特点包括高效计算、细节增强、快速预览及多场景应用,适用于广告、影视、教育等领域。

Pyramid

Pyramid-Flow是一款基于文本生成高清视频的AI工具,利用创新的金字塔流匹配算法,支持从低分辨率到高分辨率的逐步生成过程,可生成长达10秒、分辨率达1280×768的视频内容。该模型具备端到端优化能力,支持连续帧生成,确保视频内容的连贯性和高质量。

Skyvern

Skyvern是一款基于开源的浏览器自动化工具,集成了大型语言模型和计算机视觉技术,用于实现网页内容解析、交互计划生成及执行。其主要功能涵盖CAPTCHA解决、双因素认证支持、代理网络配置、可解释AI操作以及数据提取等,适用于网站数据抓取、表单填写、网页测试等多种应用场景。

灵犀 X2

灵犀 X2 是智元机器人推出的双足人形机器人,具备 28 个自由度和高灵活性,可完成跳舞、奔跑、骑车等复杂动作。搭载 Diffusion 动作生成引擎和多模态交互系统,支持情感识别与毫秒级响应。适用于家庭服务、教育、医疗护理、工业协作及娱乐场景,具备强大的环境感知与任务执行能力。

MAETok

MAETok是一种基于掩码建模的图像标记化方法,通过自编码器结构学习更具语义丰富性的潜在空间,提升图像生成质量与训练效率。它支持高分辨率图像生成,具备多特征预测能力和灵活的潜在空间设计,适用于娱乐、数字营销、计算机视觉等多个领域。实验表明其在ImageNet数据集上表现优异。

ChatLearn

ChatLearn是一款由阿里云开发的高效对齐训练框架,支持多种对齐训练方法,包括RLHF、DPO、OnlineDPO和GRPO。它提供灵活的编程接口、资源调度机制和分布式计算支持,适用于自动化对话系统训练及复杂多模型训练场景。用户可以自定义模型执行流程,实现个性化训练策略。

百聆

百聆是一款开源语音对话系统,融合语音识别、语音活动检测、大语言模型和语音合成技术,实现自然流畅的语音交互。支持低延迟运行,无需GPU,适用于边缘设备。具备记忆、工具调用和任务管理等功能,适用于智能家居、个人助理、车载系统等多种场景,提供高效的语音交互解决方案。

CreatiLayout

CreatiLayout 是一种先进的布局到图像生成技术,由复旦大学与字节跳动联合开发。它基于大规模布局数据集 LayoutSAM,结合 SiamLayout 框架和 MM-DiT 架构,实现高质量、细粒度可控的图像生成。同时,其 LayoutDesigner 工具支持多种输入方式,帮助用户优化布局设计。适用于海报制作、室内设计、视觉创作及教学等多个领域。