文本理解 - 智狐AI导航

Molmo 72B

Molmo 72B是一款由艾伦人工智能研究所推出的开源多模态AI模型，集成了图像和文本处理能力，适用于图像描述生成、视觉问答、文档解析及多模态交互等多种任务。凭借其强大的视觉编码能力和先进的模型架构，Molmo 72B在学术基准测试中表现优异，为开源AI技术的发展做出了重要贡献。

AI项目与工具 2025年06月12日 69 点赞 0 评论 686 浏览

TextHarmony

TextHarmony是一款由华东师范大学与字节跳动联合开发的多模态生成模型，擅长视觉与文本信息的生成与理解。该模型基于Slide-LoRA技术，支持视觉文本生成、编辑、理解及感知等功能，广泛应用于文档分析、场景文本识别、视觉问题回答、图像编辑与增强以及信息检索等领域。通过高质量数据集的构建与多模态预训练，TextHarmony在视觉与语言生成任务中表现出色。

AI项目与工具 2025年06月12日 47 点赞 0 评论 812 浏览

DocMind

DocMind是一款基于Transformer架构的文档智能大模型，融合了深度学习、NLP和CV技术，用于处理富文本文档的复杂结构和视觉信息。它能够精准识别文档实体、捕捉文本依赖关系并深入理解文档内容，支持知识库结合，提升专业文档理解能力。DocMind还具备自动执行文档相关任务的功能，如问题解答、文档分类整理等，广泛应用于法律、教育、金融等领域。

AI项目与工具 2025年06月12日 89 点赞 0 评论 1013 浏览

联通元景

联通元景（UniT2IXL）是一款基于国产昇腾AI平台开发的中文原生文生图模型，具备卓越的中文语义理解和高质量图像生成能力。它通过复合语言编码模块优化中文长文本处理，并利用大量中文图文数据进行预训练，确保信息完整性和生成质量。该模型支持国产化算力环境，适配多种应用场景，包括文物数字化、个性化服装定制、智能家居设计、广告创意生成及在线教育等，为企业提供高效解决方案。

AI项目与工具 2025年06月12日 54 点赞 0 评论 963 浏览

清影

清影2.0是一款基于CogVideoX模型的AI视频生成工具，支持4K超高清视频生成，具备强大文本理解能力与多通道输出功能。集成CogSound模型提供音效匹配，支持任意比例输出，提升创作灵活性。适用于教育、营销、娱乐等多个领域，提供高效、高质量的视频生成服务。

AI项目与工具 2025年06月12日 31 点赞 0 评论 708 浏览

Gemini 2.0 Flash

Gemini 2.0 Flash是Google推出的多模态AI模型，支持文本与图像生成及对话式编辑，能根据自然语言生成连贯图像，并保持上下文一致性。其在长文本渲染方面表现优异，适用于广告、社交媒体、教育等领域。开发者可通过Google AI Studio或Gemini API进行测试和集成，广泛应用于创意插图、互动故事、设计辅助等场景。

AI项目与工具 2025年06月12日 18 点赞 0 评论 880 浏览

CosyVoice

一种深度融合文本理解和语音生成的一项新型语音合成技术，CosyVoice能够精准解析并诠释各类文本内容，将其转化为宛如真人般的自然语音。

Ai语音工具 2025年06月05日 33 点赞 0 评论 738 浏览

Stable Diffusion 3

Stable Diffusion 3 是一款由 Stability AI 开发的先进文本到图像生成模型，通过改进的文本渲染能力、多主题提示支持、可扩展的参数量、图像质量提升及先进的架构技术，实现了高质量和多样性的图像生成。该模型在图像生成和文本理解方面取得了显著进展，并通过 Diffusion Transformer 架构和 Flow Matching 技术提升了模型效率和图像质量。

AI项目与工具 2024年01月01日 87 点赞 0 评论 843 浏览

乾元BigBangTransformer

BBT-2-12B-Text基于中文700亿tokens进行预训练，经过指令微调的BBT-2基础模型可以回答百科类和日常生活的问题。BBT-2.5-13B-Text基于中文+英文 2000亿tokens进行预训练。

Ai平台模型 2026年07月27日 0 点赞 0 评论 643 浏览

子曰大模型

子曰是网易有道推出的教育领域垂直大模型，包含基于子曰大模型研发的六大创新应用——“LLM翻译”、“虚拟人口语教练”、“AI作文指导”、“语法精讲”、“AI Box”以及“文档问答”。

Ai平台模型 2026年07月27日 0 点赞 0 评论 624 浏览

文本理解

首页

文本理解

列表

默认

浏览次数

发布日期