模型 - 智狐AI导航

商汤日日新 | SenseNova

商汤日日新垂直领域场景落地应用丰富。

Ai平台模型 2025年06月05日 20 点赞 0 评论 400 浏览

MultiTalk是由中山大学深圳校区、美团和香港科技大学联合推出的音频驱动多人对话视频生成框架。它根据多声道音频输入、参考图像和文本提示，生成包含人物互动且口型与音频一致的视频。通过Label Rotary Position Embedding (L-RoPE) 方法解决多声道音频与人物绑定问题，并采用部分参数训练和多任务训练策略，保留基础模型的指令跟随能力。MultiTalk适用于卡通、歌唱及

AI项目与工具 2025年06月11日 11 点赞 0 评论 401 浏览

Auto Think

Auto Think是快手Kwaipilot团队开源的KwaiCoder-AutoThink-preview自动思考大模型，针对深度思考大模型的“过度思考”问题，提出了一种全新的训练范式。模型融合“思考”和“非思考”能力，能根据问题难度自动切换模式，提升复杂任务表现。在代码和数学类任务中，性能提升可达20分。其技术原理包括最小提示干预和多阶段强化学习，适用于视频生成、文案创作、智能客服等多个场景。

AI项目与工具 2025年06月11日 26 点赞 0 评论 401 浏览

WebDreamer

WebDreamer是一款基于大型语言模型的网络智能体，专注于通过模拟和预测网络交互结果来进行高效的任务规划与决策。它具备模拟函数、评分函数以及候选动作生成等功能，能够显著提升网络任务执行的效率与安全性，同时支持多种应用场景，包括网页自动化、智能搜索、客户服务等领域。

AI项目与工具 2025年06月12日 35 点赞 0 评论 401 浏览

ReCapture

ReCapture是一种先进的视频处理技术，由谷歌与新加坡国立大学联合研发。它通过多视图扩散模型和点云渲染生成新视角视频，同时使用掩码视频微调技术优化视频质量，保留场景运动并补全不可见部分，广泛应用于电影制作、视频编辑、虚拟现实及新闻报道等领域。

AI项目与工具 2025年06月12日 55 点赞 0 评论 403 浏览

Show

Show-o 是一款基于统一 Transformer 架构的多模态 AI 工具，集成了自回归和离散扩散建模技术，可高效处理视觉问答、文本到图像生成、图像修复与扩展以及混合模态生成等多种任务。其创新性技术显著提高了生成效率，减少了采样步骤，适用于社交媒体内容创作、虚拟助手、教育与培训、广告营销、游戏开发及影视制作等多个领域。

AI项目与工具 2025年06月12日 86 点赞 0 评论 403 浏览

ELLA

ELLA（Efficient Large Language Model Adapter）是一种由腾讯研究人员开发的方法，旨在提升文本到图像生成模型的语义对齐能力。它通过引入时序感知语义连接器（TSC），动态提取预训练大型语言模型（LLM）中的时序依赖条件，从而提高模型对复杂文本提示的理解能力。ELLA无需重新训练，可以直接应用于预训练的LLM和U-Net模型，且能与现有模型和工具无缝集成，显著提升

AI项目与工具 2024年01月01日 74 点赞 0 评论 403 浏览

幻方AI

成立于2019年12月，专注于人工智能（AI）领域的算法与基础应用研究。公司致力于通过前沿科技的研发，激发创造力和想象力，推动人类梦想的实现。

Ai科技公司 2025年06月05日 28 点赞 0 评论 404 浏览

DistriFusion

DistriFusion是一个专为加速高分辨率扩散模型在多GPU环境中生成图像的分布式并行推理框架。通过将图像分割成多个小块并分配至不同设备上进行独立处理，它能够在不增加额外训练负担的情况下，将推理速度提升高达六倍，同时保持图像质量。其技术原理包括Patch Parallelism（分片并行）、异步通信、位移补丁并行性等，适用于多种现有的扩散模型。应用场景包括AI艺术创作、游戏和电影制作、VR/A

AI项目与工具 2025年06月12日 50 点赞 0 评论 404 浏览

VMix

VMix是一款提升文本到图像生成美学质量的工具，通过解耦文本内容与美学描述，并引入细粒度美学标签，增强图像在色彩、光线、构图等方面的视觉表现。其核心技术为交叉注意力混合控制模块，可在不改变原有模型结构的情况下注入美学条件，保持图文一致性。VMix兼容多种扩散模型及社区模块，支持多源输入、高质量视频处理、实时直播与远程协作，广泛应用于电视直播、网络直播、现场活动及虚拟演播室等场景。

AI项目与工具 2025年06月12日 97 点赞 0 评论 405 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期