模型

MMSearch

MMSearch 是一款用于评估大型多模态模型(LMMs)搜索能力的基准测试工具,包含 MMSearch-Engine 框架和 MMSearch 测试集。其核心功能包括问题重构、网页排序和答案总结,通过多模态搜索能力评估提升 LMMs 的性能。实验结果显示 GPT-4o 在该测试中表现优异,且增加计算量比扩大模型规模更具优势。

Askchat.ai

一个基于chatGPT,提供永久角色扮演和prompt工具的人工智能网站,Askchat.ai使用GPT-3.5和GPT-4.0算法进行训练。能够理解和解释人类自然语言,并用合适的方式进行回答。

EvolveDirector

EvolveDirector是一个由阿里巴巴与南洋理工大学合作开发的文本到图像生成框架,通过与高级模型API交互获取数据对,结合预训练的视觉语言模型(VLMs)动态优化训练集,大幅降低数据量和训练成本。该框架支持多模型学习、动态数据集管理及在线训练,显著提升了生成图像的质量和多样性,广泛应用于内容创作、媒体娱乐、广告营销、教育科研等多个领域。

AlphaQubit

AlphaQubit是一款由谷歌推出的基于人工智能的量子错误解码工具,主要功能包括错误识别与纠正、基于AI的解码、性能优化以及泛化能力提升。它采用量子纠错码(如表面码)、神经网络架构(Transformer)及软读出技术,通过一致性检查与实验数据微调,实现对量子比特状态的高精度预测与校正。AlphaQubit可广泛应用于量子计算机开发、药物发现、材料设计、密码学及优化问题解决等场景。

TeleChat2

TeleChat2-115B是一款由中国电信人工智能研究院开发的大型语言模型,具备强大的文本生成能力。它支持多语言处理,包括中文和英文,并且能够高效执行多种任务,如文本生成、代码编写、数据分析和语言翻译等。此外,TeleChat2-115B通过先进的架构设计,如Decoder-only结构和Rotary Embedding位置编码方法,提升了模型性能与稳定性。该模型适用于智能客服、内容创作、教育辅

Video Alchemist

Video Alchemist是一款由Snap公司研发的视频生成模型,支持多主体和开放集合的个性化视频生成。它基于Diffusion Transformer模块,通过文本提示和参考图像生成视频内容,无需测试优化。模型引入自动数据构建和图像增强技术,提升主体识别能力。同时,研究团队提出MSRVTT-Personalization基准,用于评估视频个性化效果。该工具适用于短视频创作、动画制作、教育、剧

晓象

晓象是一款基于自研可信大模型的AI克隆工具,可创建各领域知识博主的虚拟分身。该工具能够模仿博主的声音、风格和表达方式,生成个性化的高质量内容,并支持实时互动,帮助用户获取知识分享和信息解读。应用场景广泛,包括知识传播、教育辅助、内容创作及信息解读。

Kimi Latest

Kimi Latest是月之暗面推出的实时更新AI模型,支持128k上下文长度,可自动选择模型规模并优化成本。具备图像理解、自动上下文缓存和多模态处理能力,适用于聊天应用、内容创作及数据分析等多种场景,为开发者和用户提供稳定高效的AI解决方案。

ConceptMaster

ConceptMaster是一款基于扩散Transformer模型的多概念视频生成框架,可在无需测试调优的情况下生成高质量、概念一致的视频。通过解耦多概念嵌入并独立注入模型,有效解决身份解耦问题,尤其擅长处理高度相似的视觉概念。该工具支持多概念视频定制、高质量数据收集和全面的基准测试,适用于视频创作、动画制作、游戏开发及产品展示等领域。

Pixel Reasoner

Pixel Reasoner是由多所高校联合开发的视觉语言模型,通过像素空间推理增强对视觉信息的理解和分析能力。它支持直接对图像和视频进行操作,如放大区域或选择帧,以捕捉细节。采用两阶段训练方法,结合指令调优和好奇心驱动的强化学习,提升视觉推理性能。在多个基准测试中表现优异,适用于视觉问答、视频理解等任务,广泛应用于科研、教育、工业质检和内容创作等领域。