PaliGemma 2 PaliGemma 2是一款由Google DeepMind研发的视觉语言模型(VLM),结合了SigLIP-So400m视觉编码器与Gemma 2语言模型,支持多种分辨率的图像处理。该模型具备强大的知识迁移能力和出色的学术任务表现,在OCR、音乐乐谱识别以及医学图像报告生成等方面实现了技术突破。它能够处理多模态任务,包括图像字幕生成、视觉推理等,并支持量化和CPU推理以提高计算效率。 AI项目与工具 2025年06月12日 10 点赞 0 评论 594 浏览
AskManyAI AskManyAI是一站式AI大模型聚合平台,汇集了多个顶级AI模型,如GPT、Claude、Kimi等。它通过多角度解答提升问题解决的效率和可信度,支持多AI模型协同工作、高效决策与智能筛选、智能写作与文案生成、AI绘画与设计、论文检索与学术探索等功能。平台界面简洁,支持多种文件格式和输入方式,并持续集成最新的AI模型更新。AskManyAI适用于各类创作和研究需求,提供免费和VIP套餐,VIP AI项目与工具 2025年06月12日 28 点赞 0 评论 594 浏览
腾讯混元游戏 腾讯发布的混元游戏视觉生成平台,这是依托混元大模型打造的首个工业级AIGC游戏内容生产引擎,可以优化游戏资产生成与游戏制作流程。 3D&游戏 2025年06月05日 38 点赞 0 评论 594 浏览
MVoT MVoT是一种多模态推理框架,通过生成图像形式的推理痕迹,增强多模态大语言模型在复杂空间推理任务中的表现。其核心技术包括多模态推理范式、token discrepancy loss以及递归生成机制,有效提升推理准确性和可解释性。该工具适用于机器人导航、自动驾驶、智能教育、医疗影像分析及VR/AR交互等多个领域,具有广泛的应用潜力。 AI项目与工具 2025年06月12日 57 点赞 0 评论 594 浏览
MoshiVis MoshiVis是一款由Kyutai开发的开源多模态语音模型,支持图像与语音的自然交互。它基于Moshi 7B架构,集成了视觉编码器和跨注意力机制,实现低延迟、自然流畅的对话体验。支持多种后端部署,适用于无障碍应用、智能家居、教育及工业场景,提升人机交互的智能化水平。 AI项目与工具 2025年06月12日 72 点赞 0 评论 594 浏览
MathGPT MathGPT,是国内首个专为数学打造的大模型。仅需要通过文字或图片上传数学题,即可得到对话式的解答反馈。另外,你也可以通过「随机来一题」的选项,随机生成数学题目并由系统给出解答。 Ai平台模型 2025年06月05日 81 点赞 0 评论 594 浏览
Venturekit AI 可为企业家和企业主生成全面且量身定制的商业计划的AI工具,只需回答几个关于您的业务的问题,Venturekit 就会为您制定一份全面的商业计划。 创业营销 2025年06月05日 80 点赞 0 评论 594 浏览
快降鸭 提供自研AI论文降重系统,快降鸭支持各大主流查重报告一键降重,保障句子通顺度的同时快速降低论文查重率,为大家的毕业论文提供安全保障。 AI写作对话 2025年06月05日 65 点赞 0 评论 594 浏览
AdamCAD 只需通过用简单的语言描述就能为你生成复杂的CAD图纸,而且还能通过3D打印机直接打印出来,适用于工业设计和机械工程行业。 3D&游戏 2025年06月05日 24 点赞 0 评论 595 浏览
AnimeGamer AnimeGamer是一款由腾讯PCG与香港城市大学联合开发的动漫生活模拟系统,基于多模态大语言模型(MLLM),支持玩家通过自然语言指令操控动漫角色,沉浸于动态游戏世界中。系统能生成高一致性的动态动画视频,并实时更新角色状态,如体力、社交和娱乐值。其核心技术包括多模态表示、视频扩散模型及上下文一致性机制,适用于个性化娱乐、创意激发、教育辅助及游戏开发等多种场景。 AI项目与工具 2025年06月12日 49 点赞 0 评论 595 浏览