VideoAgent VideoAgent是一款基于自改进机制的视频生成系统,结合图像观察与语言指令生成机器人控制视频计划。它采用自我条件一致性方法优化视频质量,通过预训练视觉-语言模型反馈和实际执行数据的收集,持续提升生成效果,减少幻觉内容并提高任务成功率。VideoAgent在模拟环境中有优异表现,并已应用于机器人控制、模拟训练、教育研究、游戏开发以及电影制作等领域,展现出广泛的应用潜力。 AI项目与工具 2025年06月12日 66 点赞 0 评论 777 浏览
URM URM是由阿里妈妈开发的通用推荐模型,结合大语言模型与电商领域知识,提升推荐效果。其采用多模态融合与Sequence-In-Set-Out生成方式,支持多场景、多目标、长尾及发现性推荐。具备高效率、零样本学习能力,适用于工业级推荐系统,已应用于阿里妈妈展示广告场景,优化用户体验与商家投放效果。 AI项目与工具 2025年06月11日 85 点赞 0 评论 776 浏览
SignLLM SignLLM是一款支持多语言手语生成的AI模型,能将文本转换为自然流畅的手语视频,覆盖包括ASL、GSL、LSA、KSL在内的八种手语。其核心技术包括离散化与层次化表示、自监督学习、符号-文本对齐等。该工具可用于教育、医疗、法律、媒体等多个场景,提升听障人群的沟通便利性与信息获取能力。 AI项目与工具 2025年06月12日 86 点赞 0 评论 776 浏览
MatAnyone MatAnyone是一款由南洋理工大学S-Lab实验室与商汤科技联合开发的视频抠图框架,专注于复杂背景下人像视频的精准分割。采用一致内存传播和区域自适应内存融合技术,确保视频中目标的语义稳定性和边界细节精度。结合大规模分割数据和优化的训练策略,提升了模型在真实场景下的性能。适用于影视制作、直播、广告、游戏开发等多个领域,具备高精度、强适应性和良好的交互性。 AI项目与工具 2025年06月12日 48 点赞 0 评论 775 浏览
Psi R0 Psi R0是一款基于强化学习的端到端具身模型,支持双灵巧手协同操作,具备多技能串联混训和跨物品、跨场景的泛化能力。通过仿真数据训练及技能优化,Psi R0能在复杂环境中完成长程任务,同时具备自主切换技能的功能,确保高成功率和鲁棒性。主要应用场景包括电商商品打包、工厂产线组装、服务业拣货打包及家居环境清洁整理。 AI项目与工具 2025年06月12日 18 点赞 0 评论 775 浏览
今天学点啥 “今天学点啥”是一款由秘塔AI开发的AI学习工具,支持用户通过关键词、文档或网页链接生成个性化互动课程,包含PPT和语音讲解。提供多种讲解风格与知识水平适配,具备实时互动、答题挑战和智能推荐功能,适用于学术、职业、兴趣及教育等多种学习场景,提升学习效率与趣味性。 AI项目与工具 2025年06月11日 33 点赞 0 评论 774 浏览
宾夕法尼亚大学 宾夕法尼亚大学(University of Pennsylvania),简称宾大(UPenn),位于宾夕法尼亚州费城,私立研究型大学,常春藤盟校之一,美国大学协会创始成员。全球大学校长论坛成员。 宾... 教育学习 1970年01月01日 0 点赞 0 评论 774 浏览
In In-Context LoRA是一种基于扩散变换器(DiTs)的图像生成框架,通过微调少量数据实现多样化图像生成任务。它无需修改原始模型结构,减少了对大规模标注数据的依赖,同时保持了高质量的生成效果。该工具支持多任务图像生成、上下文学习能力、任务无关性以及条件图像生成等功能,适用于故事板生成、字体设计、家居装饰等多个领域。 AI项目与工具 2025年06月12日 35 点赞 0 评论 773 浏览
Color Pop Color Pop是一款结合人工智能技术的涂色应用,用户可输入文本生成精美线条图,并利用丰富的纹理与工具进行个性化涂色创作。它支持超过600种设计图样,兼具娱乐性与减压功能,适用于家庭亲子活动、教育学习、艺术治疗等多种场景。 AI项目与工具 2025年06月12日 71 点赞 0 评论 773 浏览