学习

Happy Scribe

一个将音频转换为文字的自动化和人工转录字幕工具,以高准确度支持多种语言和格式。

LetMeEnglish

专注于帮助用户提升英文水平,LetMeEnglish提供免费的英文学习内容与练习资源,网站提供英文语法、英文词汇、英文句型、日常英文四大板块。

COVE

COVE是一款以AI驱动的协作工具,提供共享工作空间和实时编辑功能,支持用户与AI共同思考和工作。它能从用户的文本、表格、图像等内容中学习,提供个性化建议和多样化思路,同时无缝集成于常用工具,适用于项目管理、研究分析、内容创作、教育学习及会议记录等多个场景。

ParGo

ParGo是一种由字节与中山大学联合开发的多模态大语言模型连接器,通过结合局部与全局token,提升视觉与语言模态的对齐效果。其核心模块PGP和CPP分别提取图像的局部和全局信息,增强细节感知能力。在多个基准测试中表现优异,尤其在文字识别和图像描述任务中优势明显。采用自监督学习策略,提高模型泛化能力,适用于视觉问答、图像字幕生成、跨模态检索等多种场景。

OThink

OThink-MR1是由OPPO研究院与香港科技大学(广州)联合研发的多模态语言模型优化框架,基于动态KL散度策略(GRPO-D)和奖励模型,提升模型在视觉计数、几何推理等任务中的泛化与推理能力。其具备跨任务迁移能力和动态平衡探索与利用机制,适用于智能视觉问答、图像描述生成、内容审核等多个领域,具有广阔的应用前景。

RDT

RDT是清华大学AI研究院推出的一款双臂机器人操作任务扩散基础模型,拥有十亿参数量,可自主完成复杂任务,如调酒和遛狗。该模型基于模仿学习,具备强大的泛化能力和操作精度,支持多种模态输入和少样本学习。RDT已在餐饮、家庭、医疗、工业及救援等领域展现广泛应用前景,推动机器人技术发展。

LearnCoach

LearnCoach 是一款面向 K12 学生的 AI 学习平台,提供个性化课程、智能辅导和多种学习模式,如辅导课程与视频播放列表。平台包含丰富的视频教程和考试题库,帮助学生掌握重点知识,提升学习效率。支持语音输入与全天候访问,适用于日常学习、考前复习及课堂教学辅助,助力学生高效学习与成绩提升。

VILA

VILA-U 是一款由 MIT 汉实验室开发的统一基础模型,整合了视频、图像和语言的理解与生成能力。它通过自回归框架简化模型结构,支持视觉理解、视觉生成、多模态学习和零样本学习等功能。VILA-U 在预训练阶段采用混合数据集,利用残差向量量化和深度变换器提升表示能力,适用于图像生成、内容创作辅助、自动化设计、教育和残障人士辅助等多种场景。

Lingo

Lingo是一款由西湖心辰开发的国内首个端到端语音大模型,具备实时交互、语音理解、多风格语音表达、情绪价值等功能。Lingo在人机对话的自然流畅度和情绪感知方面表现出色,适用于智能家居、客户服务、教育、医疗等多个领域。其核心技术包括端到端设计、深度学习算法和自然语言处理,旨在提供高质量的语音交互体验。