AI项目与工具

PDFtoPDF

PDFtoPDF是一款基于AI和OCR技术的PDF转换工具,支持高精度文字识别(准确率达99.5%),并能保留原始文档排版。具备多语言支持、文件压缩、跨平台使用及翻译功能,适用于学术、办公、教育和个人文档管理等多种场景,显著提升文档处理效率与便捷性。

Speechelo

Speechelo是一款基于先进AI技术的文本转语音工具,支持超过30种性别和语言的声音选择,用户可通过调整语调、速度和音高来自定义语音效果。它兼容主流视频编辑软件,适用于产品演示、教育培训、营销推广等多种场景,助力高效生成高质量语音内容。

PSHuman

PSHuman是一款基于跨尺度多视图扩散模型的单图像3D人像重建工具,仅需一张照片即可生成高保真度的3D人体模型,支持全身姿态和面部细节的精确重建。其核心技术包括多视角生成、SMPL-X人体模型融合及显式雕刻技术,确保模型在几何和纹理上的真实感。该工具适用于影视、游戏、VR/AR、时尚设计等多个领域,具备高效、精准和易用的特点。

SynthID Text

SynthID Text 是一种由谷歌DeepMind开发的文本水印技术,主要用于识别和验证大型语言模型生成的文本。它通过在生成过程中嵌入几乎不可见的水印,保持文本质量的同时实现高效检测。SynthID Text 支持多种模式,适用于新闻、教育、法律及社交媒体等多个领域,为内容验证和AI应用提供了技术支持。

WebLI

WebLI-100B是由Google DeepMind推出的超大规模视觉语言数据集,包含1000亿个图像与文本配对数据,是目前最大的视觉语言数据集之一。其设计旨在提升模型对长尾概念、文化多样性和多语言内容的理解能力。数据集通过网络爬取构建,保留了丰富的语言和文化多样性,支持多模态任务如图像分类、图像描述生成和视觉问答,广泛应用于人工智能研究、工程开发及教育领域。

Hi.AI

Hi.AI 是一款AI驱动的聊天应用,支持用户创建个性化数字角色并与多种AI角色互动,涵盖名人、虚构人物及历史人物。提供沉浸式角色扮演、任务协助、文本冒险游戏等功能,同时具备对话引导,提升用户体验。适用于娱乐、情感陪伴、技能学习及创意写作等多种场景。

Browser Use

Browser Use是一款基于大语言模型的智能浏览器工具,支持多标签页管理和视觉识别,可提取网页内容并记录操作步骤。它允许开发者自定义动作,如保存文件或推送至数据库,并兼容多种主流LLM模型,具备并行运行和自我修正能力,旨在提升任务执行效率与准确性。

FancyVideo

FancyVideo是一款由360公司与中山大学合作开发的AI文生视频模型,采用创新的跨帧文本引导模块(CTGM)。它能够根据文本描述生成连贯且动态丰富的视频内容,支持高分辨率视频输出,并保持时间上的连贯性。作为开源项目,FancyVideo提供了详尽的文档和代码库,便于研究者和开发者深入研究和应用。主要功能包括文本到视频生成、跨帧文本引导、时间信息注入及时间亲和度细化等。

Copilot Search

Copilot Search 是微软 Bing 推出的智能搜索工具,融合传统搜索与生成式 AI 技术,提供简洁信息总结、来源引用、主题推荐等功能,提升信息获取效率。支持多平台使用,适用于学术研究、日常查询、工作调研及兴趣探索等多种场景,增强用户的搜索体验和信息可信度。

ARCHITEChTURES

ARCHITEChTURES是一个基于AI的建筑设计平台,专注于自动化处理建筑设计中的重复性任务,如建模、测量和计算,以提高设计效率和质量。它支持多户型住宅建筑设计,提供CAD和BIM绘图功能,并具备测量、预算以及快速设计与共享能力。此外,平台还支持多种应用场景,包括可行性研究、场地规划、商业评估和概念迭代等。