自然语言

CCI 3.0

CCI 3.0是一项由智源研究院开发的大规模中文互联网语料库,包含1000GB主数据集及498GB高质量子集。该语料库覆盖新闻、社交媒体、博客等领域,数据规模较前代扩大近一倍,来源增至20余家机构。通过多维度标注与数据清洗技术,CCI 3.0筛选出高价值数据,适用于自然语言处理、大模型训练、知识图谱构建、内容推荐系统以及教育科研等多种应用场景。

CODEPAL

CODEPAL是一款AI驱动的编程辅助工具,支持30多种编程语言,具备代码生成、解释、文档生成、审阅及错误检测等功能。它适用于快速原型开发、教育培训、代码审查优化以及跨语言开发等多种场景,帮助用户提高编码效率和代码质量。

ICEdit

ICEdit是由浙江大学与哈佛大学联合开发的指令式图像编辑框架,基于扩散变换器实现自然语言驱动的图像修改。支持多轮编辑、风格转换、对象替换等功能,具有高效处理能力(单张图像约9秒)。采用LoRA-MoE混合微调策略,降低资源需求,适用于创意设计、影视制作、社交媒体等多个领域。开源且提供在线体验,便于研究与应用。

TradingAgents

TradingAgents是由加州大学洛杉矶分校与麻省理工学院联合开发的多代理LLM金融交易框架,整合多种专业角色的AI代理,通过辩论与对话进行交易决策。该系统支持多类型市场数据分析,具备风险控制、动态调整与高可解释性,适用于量化交易、资产管理、个人投资等多个场景,显著提升交易效率与透明度。

SmolLM2

SmolLLM2是一款由Hugging Face研发的紧凑型大型语言模型,支持设备端运行,具有1.7B、360M、135M三种参数规模。它通过监督微调与超反馈优化提升指令理解能力,在文本重写、摘要生成、函数调用等方面表现突出,适用于智能助手、聊天机器人等需要自然语言处理的场景,尤其适合延迟敏感、隐私保护和硬件资源受限的应用。

PandasAI

一个基于Python的库,PandasAI将将该库依赖到自己项目中,只需几行代码,轻松实现数据读取,并能通过对话方式向数据进行提问

TinyVLA

TinyVLA是一种轻量级的视觉-语言-动作(VLA)模型,专为机器人操控设计。它通过结合多模态模型和扩散策略解码器,实现了快速推理、数据高效和多任务学习的能力,并在泛化性能上表现优异。TinyVLA可应用于家庭、工业、服务等多个领域,具有广泛的实用价值。

Memory Layers

Memory Layers是一种由Meta研发的技术,通过引入可训练的键值查找机制,为模型增加了额外参数而不增加计算负担。它通过稀疏激活模式补充计算密集型前馈层,显著提升了模型在事实性任务中的表现,同时增强了模型的记忆与知识获取能力。Memory Layers的核心优势在于其高效的信息存储与检索机制,并且在问答、语言模型、推荐系统、知识图谱及对话系统等场景中具有广泛应用前景。

FunASR

FunASR是一个由阿里巴巴达摩院开源的多功能语音识别工具包,涵盖语音识别(ASR)、语音活动检测(VAD)、标点恢复、说话人验证及分离等功能。它支持工业级模型的训练与微调,并提供预训练模型和易用接口,便于快速部署。新增的Whisper-large-v3-turbo模型进一步提升了其性能,广泛应用于智能助手、会议记录、客服系统和语音搜索等领域。

ChatBotKit

ChatBotKit是一个领先的对话式AI平台,专为简化高级对话系统的开发而设计。它允许用户通过简单的界面快速创建和部署聊天机器人,支持多渠道集成,并强调数据隐私保护。主要功能包括强大的自然语言处理、灵活的数据集管理和定制化机器人配置,适用于客户服务、销售支持、教育培训等多个领域。