架构 - 智狐AI导航

Faster Whisper

Faster Whisper 是一款基于 OpenAI Whisper 模型的高效语音识别工具，利用 CTranslate2 引擎显著提升转写速度并降低内存消耗。它支持多语言处理，可应用于实时语音转写、视频字幕生成、客户服务、医疗记录等领域。其核心技术包括 8 位量化、语音活动检测（VAD）及模型优化，同时提供灵活的 API 接口供开发者集成。

AI项目与工具 2025年06月12日 30 点赞 0 评论 513 浏览

小浣熊AI助手

代码小浣熊Raccoon是商汤科技最新推出的一个智能AI编程助手和工具，由商汤自研的大模型驱动，支持多种编程语言和多项任务能力，可为开发人员带来全新的编程体验。

创作工具 2026年06月29日 0 点赞 0 评论 514 浏览

V-JEPA

创新的自监督学习模型，它通过预测视频帧的特征表示来学习视频的视觉表示。这种方法不仅能够处理视频内容，还能在图像任务上表现出色，具有广泛的应用潜力。

Ai平台模型 2026年06月29日 0 点赞 0 评论 514 浏览

Llama Nemotron

Llama Nemotron是NVIDIA推出的推理模型系列，具备强大的复杂推理、多任务处理和高效对话能力，适用于企业级AI代理应用。模型基于Llama架构优化，采用神经架构搜索与知识蒸馏技术，提升计算效率。包含Nano、Super和Ultra三种版本，分别面向边缘设备、数据中心和高性能计算场景。广泛应用于科研、客服、医疗、物流和金融等领域。

AI项目与工具 2025年06月12日 72 点赞 0 评论 518 浏览

Flex3D

Flex3D是一款由Meta和牛津大学联合研发的两阶段3D生成框架，通过多视图扩散模型和视图筛选机制生成高质量3D模型，支持从文本、单张图片或稀疏视图生成逼真的3D内容。其核心在于基于Transformer架构的灵活重建模型（FlexRM），结合三平面表示与3D高斯绘制技术，实现高效且详细的三维重建，广泛应用于游戏开发、AR/VR、影视制作等领域。

AI项目与工具 2025年06月12日 45 点赞 0 评论 529 浏览

CogVideoX是由智谱AI开发的开源AI视频生成模型，支持英文提示词生成6秒长、每秒8帧、分辨率为720x480的视频。它具备低显存需求、视频参数定制、3D Causal VAE技术和推理与微调功能。该模型采用基于Transformer的架构和3D Causal Variational Autoencoder技术，支持多阶段训练和自动及人工评估，适用于创意视频制作、教育材料、广告、游戏、电影编

AI项目与工具 2025年06月12日 55 点赞 0 评论 530 浏览

GameGen

GameGen-O 是一款基于 Transformer 架构的AI工具，专注于开放世界游戏视频的生成。它具备角色生成、环境构建、动作模拟及交互式控制等功能，通过两阶段训练方法提升了生成质量和灵活性，可应用于游戏原型设计、场景生成及开发辅助等领域，有助于降低开发成本并提高创作效率。

AI项目与工具 2025年06月12日 17 点赞 0 评论 531 浏览

Florence

Florence-2是微软Azure AI团队研发的多功能视觉模型，支持图像描述、目标检测、视觉定位和图像分割等功能。该模型基于Transformer架构，采用序列到序列学习方法，利用自注意力机制实现多模态信息融合。通过训练大规模数据集，Florence-2在多个应用场景中表现出色，包括图像和视频分析、内容审核、辅助驾驶、医疗影像分析以及零售和库存管理。

AI项目与工具 2025年06月12日 67 点赞 0 评论 538 浏览

Promptriever

Promptriever是一款基于自然语言处理的新型检索模型，融合了大型语言模型提示技术与信息检索优势。它通过双编码器架构及指令训练集优化，实现了对复杂查询的高度适应性与鲁棒性，适用于搜索引擎优化、智能助手、企业内部搜索及学术研究等多个领域。

AI项目与工具 2025年06月12日 12 点赞 0 评论 543 浏览

Ming

Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型，基于MoE架构，支持文本、图像、音频和视频等多种模态的输入输出，具备强大的理解和生成能力。模型在多个任务中表现优异，如图像识别、视频理解、语音问答等，适用于OCR识别、知识问答、视频分析等多个领域。其高效处理能力和多模态交互特性，为用户提供一体化智能体验。

AI项目与工具 2025年06月11日 79 点赞 0 评论 544 浏览

架构

首页

架构

列表

默认

浏览次数

发布日期