训练 - 智狐AI导航

DRT

DRT-o1是一套由腾讯研究院开发的基于长链思考推理（CoT）技术的AI翻译模型，专门针对文学作品翻译设计，尤其擅长处理比喻和隐喻等复杂修辞手法。模型通过多智能体框架和迭代优化机制，显著提升了翻译质量和效率，同时具备强大的复杂语言结构处理能力。DRT-o1已在多个应用场景中展现出广泛潜力，包括文学翻译、跨文化交流、教育辅助以及多语言内容创作等领域。

AI项目与工具 2025年06月12日 29 点赞 0 评论 442 浏览

DreamOmni

DreamOmni是一款由香港中文大学、字节跳动与香港科技大学联合研发的统一图像生成与编辑模型。它集成了文本到图像生成（T2I）及多种编辑功能，包括指令式编辑、修复、拖拽编辑和参考图像生成。DreamOmni利用合成数据管道高效生成高质量编辑数据，并通过联合训练提升图像生成与编辑质量。该模型在多任务处理、复杂提示兼容性及训练效率优化上表现优异，适用于数字艺术、影视特效、广告设计等多个领域。

AI项目与工具 2025年06月12日 97 点赞 0 评论 452 浏览

Baichuan4

Baichuan4-Finance是一款针对金融领域的增强型大语言模型，融合了通用与专业能力。它支持金融知识的理解与生成、金融认证问题解答、多轮对话交互、文档处理以及数据分析等功能，并通过领域自约束训练、混合数据策略及强化学习等技术手段优化性能。该模型适用于智能投顾、自动化客户服务、风险评估与管理等多个应用场景，旨在促进金融行业的智能化转型。

AI项目与工具 2025年06月12日 63 点赞 0 评论 548 浏览

MetaMorph

MetaMorph是一款基于多模态大模型的工具，通过Visual-Predictive Instruction Tuning（VPiT）技术实现文本和视觉token的生成。它在视觉理解和生成领域表现优异，能够克服其他生成模型的常见失败模式，同时有效处理专业术语和复杂语义问题。MetaMorph展示了统一建模方法的优势，支持多模态数据的高效处理，并在视觉生成与理解基准测试中取得竞争力表现。

AI项目与工具 2025年06月12日 53 点赞 0 评论 539 浏览

VisionFM

VisionFM是一款专为眼科设计的多模态多任务视觉基础模型，通过大规模预训练支持多种眼科成像模态处理，涵盖疾病筛查、诊断、预后预测、表型细分及全身性生物标志物分析等功能。其在疾病诊断上的表现超越了大部分眼科医生，并具备强大的泛化能力和少样本学习能力。

AI项目与工具 2025年06月12日 83 点赞 0 评论 348 浏览

Lyra

Lyra是一款由香港中文大学、SmartMore和香港科技大学联合研发的高效多模态大型语言模型（MLLM）。它通过整合视觉、语音和文本三种模态的信息，实现了强大的跨模态理解和推理能力。Lyra不仅擅长处理长语音数据，还支持流式文本-语音生成及跨模态信息交互，适用于智能助手、客户服务、教育培训、医疗健康等多个领域。

AI项目与工具 2025年06月12日 18 点赞 0 评论 401 浏览

SnapGen

SnapGen是一款由Snap Inc、香港科技大学和墨尔本大学联合开发的文本到图像扩散模型，专为移动设备设计，支持在1.4秒内生成1024×1024像素的高分辨率图像。它通过优化网络架构、跨架构知识蒸馏和对抗性训练等技术，在保持小模型规模的同时，提供了高质量的图像生成能力，适用于社交媒体、移动应用、教育、新闻等多个领域。

AI项目与工具 2025年06月12日 75 点赞 0 评论 513 浏览

360gpt2

360gpt2-o1是一款专注于数学与逻辑推理的人工智能大模型，具备强大的推理能力和深度学习能力。它通过合成数据优化、分阶段训练及“慢思考”范式提升了模型的表现，尤其在数学竞赛和基础数学评测中成绩显著。此外，模型还支持编程问题解决、复杂问题分析及教育领域应用，为企业决策提供逻辑支持。

AI项目与工具 2025年06月12日 62 点赞 0 评论 539 浏览

Meta Motivo

Meta Motivo是一款由Meta公司研发的人工智能模型，专为提高元宇宙中虚拟人形智能体的真实性和自然性而设计。通过无监督强化学习算法，Meta Motivo实现了对全身动作的有效控制，支持零样本学习、多任务泛化以及行为模仿等功能。其核心优势在于将状态、动作和奖励统一映射至潜在空间，显著增强了元宇宙体验的真实感。此外，该模型还适用于机器人控制、虚拟助手、游戏动画等多个应用场景。

AI项目与工具 2025年06月12日 22 点赞 0 评论 633 浏览

STIV

STIV是一款由苹果公司开发的视频生成大模型，具有8.7亿参数，擅长文本到视频（T2V）及文本图像到视频（TI2V）任务。它通过联合图像-文本分类器自由引导（JIT-CFG）技术提升生成质量，并结合时空注意力机制、旋转位置编码（RoPE）及流匹配训练目标优化性能。STIV支持多种应用场景，包括视频预测、帧插值、长视频生成等，适用于娱乐、教育、广告及自动驾驶等多个领域。

AI项目与工具 2025年06月12日 57 点赞 0 评论 327 浏览

训练

首页

训练

列表

默认

浏览次数

发布日期

DRT