深度学习 - 智狐AI导航

纸质书:《动手学深度学习》

全球60多个国家400多所大学用于教学

Ai编程建站 1970年01月01日 0 点赞 0 评论 559 浏览

VideoTuna

VideoTuna是一款基于AI的开源视频生成工具，支持文本到视频、图像到视频以及文本到图像的转换。它提供预训练、微调和后训练对齐等功能，兼容U-Net和DiT架构，并计划引入3D视频生成能力。VideoTuna旨在简化视频内容创作流程，提升生成质量与可控性，适用于内容创作、电影制作、广告营销、教育培训等多个领域。

AI项目与工具 2025年06月12日 30 点赞 0 评论 563 浏览

RF

RF-DETR是一款由Roboflow推出的实时目标检测模型，支持多分辨率训练，具备高精度和低延迟特性，在COCO数据集上达到60+ mAP。结合Transformer架构和预训练DINOv2主干，提升领域适应性和检测效果。适用于安防、自动驾驶、工业检测等多个场景，提供预训练检查点以支持快速微调和部署。

AI项目与工具 2025年06月12日 35 点赞 0 评论 563 浏览

喜娜AI助手

喜娜AI助手是新浪财经推出的智能工具，具备AI摘要和个股公告解读两大功能。AI摘要可快速提炼财经新闻核心信息，帮助用户高效掌握公司业务、财务状况及行业动态；个股公告解读则基于深度学习技术，对A股公告进行专业分析，识别关键数据并用可视化方式标注风险与机会，提升信息理解效率，助力用户做出更明智的投资决策。

AI项目与工具 2025年06月12日 27 点赞 0 评论 563 浏览

3DTown

3DTown是由哥伦比亚大学联合Cybever AI等机构开发的AI工具，能够从单张俯视图生成高精度的3D城镇场景。它采用区域化生成和空间感知3D修复技术，将输入图像分解为重叠区域，分别生成3D内容并修复缺失结构，确保几何和纹理一致性。支持多种风格的场景生成，适用于虚拟世界构建、游戏开发、机器人模拟等领域，优于现有方法。

AI项目与工具 2025年06月11日 17 点赞 0 评论 565 浏览

HippoRAG 2

HippoRAG 2是俄亥俄州立大学开发的检索增强生成框架，旨在提升RAG系统在模拟人类长期记忆方面的表现。它通过个性化PageRank算法、深度段落整合和知识图谱构建，实现高效的多跳推理与上下文感知检索。系统具备持续学习能力，可实时吸收新知识，适用于智能问答、知识管理、教育、医疗及法律金融等领域。

AI项目与工具 2025年06月12日 12 点赞 0 评论 565 浏览

MMAudio

MMAudio是一款基于多模态联合训练的音频合成工具，通过深度学习技术实现视频到音频、文本到音频的精准转换。它具备强大的同步模块，确保生成的音频与视频帧或文本描述时间轴完全对应，适用于影视制作、游戏开发、虚拟现实等多种场景，极大提升了跨模态数据处理的能力和应用效率。

AI项目与工具 2025年06月12日 68 点赞 0 评论 568 浏览

Transformer Debugger

Transformer Debugger (TDB) 是一款由OpenAI的对齐团队开发的工具，用于帮助研究人员和开发者理解和分析Transformer模型的内部结构和行为。它提供了无需编程即可探索模型结构的能力，并具备前向传递干预、组件级分析、自动生成解释、可视化界面及后端支持等功能。TDB 支持多种模型和数据集，包括GPT-2模型及其自动编码器。

AI项目与工具 2024年01月01日 95 点赞 0 评论 569 浏览

MetaHuman

MetaHuman-Stream 是一种先进的实时交互流式AI数字人技术，集成了多种尖端模型，支持声音克隆和深度学习算法，确保对话流畅自然。通过全身视频整合和低延迟通信技术，提供沉浸式的用户体验，适用于在线教育、客户服务、游戏和新闻等多个领域。其主要功能包括多模型支持、声音克隆、对话处理能力和全身视频整合。

AI项目与工具 2025年06月12日 91 点赞 0 评论 570 浏览

HumanDiT

HumanDiT是一种由浙江大学与字节跳动联合开发的高保真人体视频生成框架，基于扩散变换器（DiT）实现姿态引导的视频生成。它支持长序列、多分辨率视频生成，并通过关键点扩散变换器（Keypoint-DiT）确保动作的连贯性与自然性。引入前缀潜在参考策略以保持个性化特征，结合姿态适配器和细化模块提升细节质量。适用于虚拟人、动画制作、沉浸式体验及视频续写等多种场景。

AI项目与工具 2025年06月12日 41 点赞 0 评论 570 浏览

深度学习

首页

深度学习

列表

默认

浏览次数

发布日期