DiffSensei DiffSensei是一款由北京大学、上海AI实验室及南洋理工大学联合开发的漫画生成框架,它结合了基于扩散的图像生成技术和多模态大型语言模型(MLLM)。该工具能够根据用户提供的文本提示和角色图像,生成具有高精度和视觉吸引力的黑白漫画面板,支持多角色场景下的互动与布局调整。其核心技术包括掩码交叉注意力机制、对话布局编码以及MLLM作为特征适配器等,广泛应用于漫画创作、个性化内容生成、教育和培训等领 AI项目与工具 2025年06月12日 47 点赞 0 评论 548 浏览
澜舟科技 澜舟科技是业界领先的认知智能公司,致力于以自然语言处理(NLP)技术为基础,为全球企业提供新一代认知智能平台,助力企业数字化转型升级。 Ai科技公司 2025年06月05日 74 点赞 0 评论 549 浏览
子曰 子曰-o1是网易有道推出的国内首款支持分步式讲解的推理模型,采用14B参数轻量化设计,适配消费级显卡,在低显存设备上运行稳定。通过思维链技术模拟人类思考过程,输出详细解题步骤,特别适合教育场景,如K12数学教学和AI学习辅助。其具备强逻辑推理能力和自我纠错机制,支持启发式学习,提升用户理解与自主学习能力。 AI项目与工具 2025年06月12日 39 点赞 0 评论 550 浏览
VASA VASA-1是一个由微软亚洲研究院开发的生成框架,能够将静态照片转化为动态的口型同步视频。该框架利用精确的唇音同步、丰富的面部表情和自然的头部运动,创造出高度逼真的虚拟人物形象。VASA-1支持在线生成高分辨率视频,具有低延迟的特点,并且能够处理多种类型的输入,如艺术照片、歌唱音频和非英语语音。此外,通过灵活的生成控制,用户可以调整输出的多样性和适应性。 AI项目与工具 2025年06月12日 83 点赞 0 评论 550 浏览
AIMv2 AIMv2是苹果公司开发的开源多模态自回归预训练视觉模型,通过图像与文本的深度融合提升视觉理解能力。其采用图像块与子词标记拼接的方式进行自回归预训练,支持多种参数规模,适用于不同设备。具备视觉问答、指代表达理解、图像字幕生成、多媒体检索等功能,并可无缝集成到大型语言模型中。模型在多个视觉任务中表现优异,具备良好的可扩展性和零样本适应能力。 AI项目与工具 2025年06月12日 48 点赞 0 评论 550 浏览
爱作画 爱作画是一个专业的AI绘画图片创作平台,可以让用户通过Stable Diffusion、NovelAI、Midjourney生成各种风格的图片。 Ai绘画生成 2025年06月05日 46 点赞 0 评论 551 浏览
Soundwave Soundwave是由香港中文大学(深圳)开发的开源语音理解大模型,专注于语音与文本的智能对齐与处理。它采用对齐适配器和压缩适配器技术,提升语音特征压缩效率,支持语音翻译、语音问答、情绪识别及多模态交互等功能。适用于智能语音助手、语言学习、内容创作等多个领域,具有广泛的应用前景。 AI项目与工具 2025年06月12日 50 点赞 0 评论 551 浏览
Perception Perception-as-Control是由阿里巴巴通义实验室开发的图像动画框架,支持对相机和物体运动的细粒度控制。它基于3D感知运动表示,结合U-Net架构的扩散模型,实现多种运动相关的视频合成任务,如运动生成、运动克隆、转移和编辑。通过三阶段训练策略,提升运动控制精度和稳定性,适用于影视、游戏、VR/AR、广告及教育等多个领域。 AI项目与工具 2025年06月12日 20 点赞 0 评论 551 浏览
LongWriter LongWriter是一款由清华大学与智谱AI合作开发的长文本生成模型,能够生成超过10,000字的连贯文本。该模型基于增强的长上下文大型语言模型,采用了直接偏好优化(DPO)技术和AgentWrite方法,能够处理超过100,000个token的历史记录。LongWriter适用于多种应用场景,包括学术研究、内容创作、出版行业、教育领域和新闻媒体等。 AI项目与工具 2025年06月12日 67 点赞 0 评论 552 浏览