AI项目与工具

EMO2

EMO2是一种由阿里巴巴智能计算研究院开发的音频驱动头像视频生成技术,通过音频输入和静态人像照片生成高质量、富有表现力的动态视频。其核心技术包括音频与手部动作的协同建模、扩散模型生成视频帧,以及高精度音频同步。该工具支持多样化动作生成,适用于虚拟现实、动画制作和跨语言内容创作等场景,具备自然流畅的视觉效果和丰富的应用场景。

Florence

Florence-2是微软Azure AI团队研发的多功能视觉模型,支持图像描述、目标检测、视觉定位和图像分割等功能。该模型基于Transformer架构,采用序列到序列学习方法,利用自注意力机制实现多模态信息融合。通过训练大规模数据集,Florence-2在多个应用场景中表现出色,包括图像和视频分析、内容审核、辅助驾驶、医疗影像分析以及零售和库存管理。

Cooragent

Cooragent是清华大学LeapLab团队推出的开源AI Agent协作框架,支持通过自然语言快速创建Agent并实现多Agent协同。采用Prompt-Free设计,无需手动编写Prompt,系统自动优化功能。支持本地部署,保障数据安全,兼容Langchain工具链和MCP协议,提供全面API支持,适用于旅行规划、股票分析、文档处理等多种场景。

Phidias

Phidias是一款基于检索增强生成(RAG)技术的3D内容生成模型,通过元控制网络、动态参考路由和自参考增强等技术,实现高质量的3D模型生成。它可以从文本、图像或现有模型生成新内容,具备交互式生成、高保真补全等功能,广泛应用于3D艺术、游戏开发、建筑设计等领域。

汉王语音王

汉王语音王是一款由汉王科技开发的智能语音应用程序,集成了AI语音记录、翻译和同声传译等功能。基于自主研发的多模态大模型,它支持高精度的语音转写、拍摄与录音同步、智能总结和实时翻译,适用于多语言环境。通过集成OCR技术,它能够生成图文并茂的多媒体记录,显著提高工作效率。

Argon

Argon 是一款面向制药与生命科学行业的智能平台,利用AI技术加速药物开发流程。其核心功能包括自然语言处理、多源数据整合、自动化工作流、临床试验优化及竞争情报分析。平台可帮助用户快速获取关键洞察,提升决策效率,并实时追踪行业动态。

VisionFM

VisionFM是一款专为眼科设计的多模态多任务视觉基础模型,通过大规模预训练支持多种眼科成像模态处理,涵盖疾病筛查、诊断、预后预测、表型细分及全身性生物标志物分析等功能。其在疾病诊断上的表现超越了大部分眼科医生,并具备强大的泛化能力和少样本学习能力。

Get笔记

Get笔记是一款基于AI的实时语音转文字工具,能够将语音高效转化为文本,并提供文本润色服务以优化笔记内容。其主要功能包括实时语音转写、文本智能润色、自动标题生成和录音与文本保存。这款工具界面简洁、操作简便,适用于多种场景,如会议记录、学习笔记、采访记录、灵感捕捉和语言学习等,显著提升了记录效率。

DeepEyes

DeepEyes是由小红书团队和西安交通大学联合开发的多模态深度思考模型,基于端到端强化学习实现“用图思考”能力,无需依赖监督微调。它在推理过程中动态调用图像工具,增强对细节的感知与理解,在视觉推理基准测试V* Bench上准确率高达90.1%。具备图像定位、幻觉缓解、多模态推理和动态工具调用等功能,适用于教育、医疗、交通、安防和工业等多个领域。

ScaleMCP

ScaleMCP是普华永道推出的工具选择方法,通过动态为大型语言模型(LLM)Agents配备Model Context Protocol(MCP)工具,解决手动更新工具库导致的低效和不一致问题。其核心是自动同步工具索引管道,基于CRUD操作确保工具存储与MCP服务器一致,并采用工具文档加权平均(TDWA)嵌入策略提升工具检索和调用性能。支持多种LLM模型和存储系统,适用于金融、客服、医疗等多个场