自然语言处理
Jina Reader
Jina Reader是一款由Jina AI开发的开源工具,专注于将互联网上的HTML网页内容转换为适合大型语言模型处理的纯文本格式。它支持多种内容格式,具备流模式、JSON模式和Alt生成模式等功能,能够高效提取网页核心内容,去除冗余信息,并通过自然语言处理和动态内容处理技术提升文本质量和理解能力。Jina Reader适用于内容聚合、SEO优化、学术研究及个性化推荐等多个领域。
MemoryScope
MemoryScope 是一款面向大型语言模型的长期记忆系统,通过向量数据库存储记忆片段,支持记忆检索、巩固及反思等核心功能。它具备时间感知能力,能提供个性化的交互体验,广泛应用于个人助理、情感陪伴、客户服务、教育辅导和健康咨询等领域。
Gemini Embedding
Gemini Embedding 是 Google 推出的文本嵌入模型,能将文本转化为高维向量以捕捉语义和上下文信息。支持超过 100 种语言,具备高效的检索、分类、聚类和相似性检测能力。其支持长文本输入和灵活的维度调整,适用于多场景应用,如智能搜索、数据分析和自然语言处理。模型基于 Gemini 训练,具有优秀的语言理解能力。
乾元BigBangTransformer
BBT-2-12B-Text基于中文700亿tokens进行预训练,经过指令微调的BBT-2基础模型可以回答百科类和日常生活的问题。BBT-2.5-13B-Text基于中文+英文 2000亿tokens进行预训练。
OpenAI 12天发布会内容全记录,一文快速捕捉亮点信息
OpenAI举办为期12天的系列发布活动,推出包括强化微调技术、Sora视频生成工具、ChatGPT Canvas和高级语音模式在内的多项创新功能,涵盖推理模型、搜索升级和跨平台集成,显著提升AI工具的性能与应用范围。
