语言处理

OmniAlign

OmniAlign-V是由多所高校联合开发的多模态大语言模型对齐数据集,包含约20万个多模态样本,涵盖自然图像和信息图表。其核心功能包括提供高质量训练数据、提升模型的开放式问答能力、增强推理与创造力,并支持模型持续优化。数据集通过图像筛选、任务设计及后处理优化确保数据质量,适用于多模态对话系统、图像辅助问答、创意生成等多个应用场景。

Hibiki

Hibiki是一款由Kyutai Labs开发的开源语音翻译解码器,支持实时语音到语音(S2ST)和语音到文本(S2TT)的翻译。其基于多流语言模型架构,结合弱监督学习和上下文对齐技术,实现低延迟、高保真度的翻译效果。适用于国际会议、在线教育、旅游、新闻采访及客户服务等场景,具备良好的实用性和可扩展性。

灵伴科技Rokid

也和称Rokid,2014年成立,总部在杭州,创始人是前阿里巴巴M工作室负责人祝铭明,是一家专注于AI与AR技术的杭州高科技公司。

千川AI

通过使用自然语言处理(NLP)技术,AI可以理解给定内容的上下文、语气和意图,并生成相关且吸引人的书面输出。

GPTEngineer

GPTEngineer 是一款基于AI技术的开源工具,通过简单的文本提示快速生成网页应用原型。它支持自然语言交互,能够根据用户描述自动生成代码,并具备代码改进、错误检测与修正等功能。此外,GPTEngineer 还支持与 GitHub 同步和一键部署。该工具兼容多种AI模型,适用于快速原型开发、Web应用开发、自动化测试、代码重构及教育等多个领域。

Tesseract

Tesseract是一款开源的光学字符识别(OCR)引擎,支持多语言识别和多种图像格式。其具备高精度的文字识别能力,适用于文档数字化、表格数据提取、发票识别及移动OCR应用等多个场景。支持跨平台运行,并提供丰富的编程接口和自定义训练功能,便于开发者集成和优化识别效果。

Perplexity Deep Research

Perplexity Deep Research 是一款基于 AI 的深度研究工具,能执行多轮搜索并整合海量信息,生成结构化研究报告,支持多种格式导出。具备强大的推理能力与高效处理速度,适用于金融、市场、技术等多个领域,也可用于个人场景。在准确性方面优于多个主流模型,提供免费与付费两种使用模式。

CodeName Goose

一款开源代码智能体Agent,Codename Goose不仅能自动生成代码,还能安装、执行、测试。

Ola

Ola是一款由多机构联合开发的全模态语言模型,支持文本、图像、视频和音频等多种输入形式。通过渐进式模态对齐策略,逐步扩展模型的多模态理解能力,同时采用流式解码技术提升交互体验。其架构融合多种编码器与解码器,结合局部-全局注意力机制,实现高效多模态处理,在多项任务中表现优异。

HippoRAG 2

HippoRAG 2是俄亥俄州立大学开发的检索增强生成框架,旨在提升RAG系统在模拟人类长期记忆方面的表现。它通过个性化PageRank算法、深度段落整合和知识图谱构建,实现高效的多跳推理与上下文感知检索。系统具备持续学习能力,可实时吸收新知识,适用于智能问答、知识管理、教育、医疗及法律金融等领域。