模型

Auto Think

Auto Think是快手Kwaipilot团队开源的KwaiCoder-AutoThink-preview自动思考大模型,针对深度思考大模型的“过度思考”问题,提出了一种全新的训练范式。模型融合“思考”和“非思考”能力,能根据问题难度自动切换模式,提升复杂任务表现。在代码和数学类任务中,性能提升可达20分。其技术原理包括最小提示干预和多阶段强化学习,适用于视频生成、文案创作、智能客服等多个场景。

Modeli.ai

一个旨在使用AI模型为时尚产品优化和替代传统的拍照流程的AI模特生成工具。

Chromox AI

一个由AlkaidVision开发的文生视频、图生视频的AI工具,专注于将创意转化为视觉故事,适用于各种动态内容生成。

ELLA

ELLA(Efficient Large Language Model Adapter)是一种由腾讯研究人员开发的方法,旨在提升文本到图像生成模型的语义对齐能力。它通过引入时序感知语义连接器(TSC),动态提取预训练大型语言模型(LLM)中的时序依赖条件,从而提高模型对复杂文本提示的理解能力。ELLA无需重新训练,可以直接应用于预训练的LLM和U-Net模型,且能与现有模型和工具无缝集成,显著提升

WebDreamer

WebDreamer是一款基于大型语言模型的网络智能体,专注于通过模拟和预测网络交互结果来进行高效的任务规划与决策。它具备模拟函数、评分函数以及候选动作生成等功能,能够显著提升网络任务执行的效率与安全性,同时支持多种应用场景,包括网页自动化、智能搜索、客户服务等领域。

ReCapture

ReCapture是一种先进的视频处理技术,由谷歌与新加坡国立大学联合研发。它通过多视图扩散模型和点云渲染生成新视角视频,同时使用掩码视频微调技术优化视频质量,保留场景运动并补全不可见部分,广泛应用于电影制作、视频编辑、虚拟现实及新闻报道等领域。

Audio2Photoreal

从音频生成全身逼真的虚拟人物形象。它可以从多人对话中语音中生成与对话相对应的逼真面部表情、完整身体和手势动作。

MultiTalk

MultiTalk是由中山大学深圳校区、美团和香港科技大学联合推出的音频驱动多人对话视频生成框架。它根据多声道音频输入、参考图像和文本提示,生成包含人物互动且口型与音频一致的视频。通过Label Rotary Position Embedding (L-RoPE) 方法解决多声道音频与人物绑定问题,并采用部分参数训练和多任务训练策略,保留基础模型的指令跟随能力。MultiTalk适用于卡通、歌唱及

Dezgo

Dezgo是一款集文本到图像生成、图像编辑与多模型支持于一体的AI艺术工具,支持用户通过输入文本描述快速生成高质量图像。其主要功能包括文本到图像生成、图像到图像调整、自定义纵横比及图像编辑,广泛应用于艺术创作、营销材料、内容创作、教育研究、游戏开发及影视制作等领域。