微软研究院出品：让 GPT-4V秒懂屏幕截图，本地部署.md

Posted Nov 3, 2024

By 章北海mlpy

2 min read

项目概述

OmniParser 是微软研究院开发的一个创新项目，旨在增强大型视觉语言模型(如 GPT-4V)在操作图形用户界面(GUI)时的能力。

该项目由微软研究院和微软通用 AI 团队共同开发。

https://microsoft.github.io/OmniParser/

传统视觉语言模型在处理 GUI 操作时面临两个主要挑战：

OmniParser 通过以下方式解决这些问题：

OmniParser 项目包含两个重要的数据集：

可交互图标检测数据集：
- 包含 67,000 个独特的截图样本
- 基于 DOM 树标注的边界框标签
- 来源于 clueweb 数据集中的 100,000 个流行网页 URL
图标描述数据集：
- 包含 7,000 对图标-描述配对数据
- 用于微调说明模型

OmniParser 在多个基准测试中都展现出优秀表现：

特别值得注意的是，仅使用截图输入的 OmniParser 性能超过了需要额外信息的 GPT-4V 基线模型。

OmniParser 可以作为插件与多个视觉语言模型配合使用：

OmniParser 的处理流程包括：

安装

        
      
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt

模型下载:

地址：https://huggingface.co/microsoft/OmniParser

把文件放在weights/目录下

目录结构: weights/icon_detect, weights/icon_caption_florence, weights/icon_caption_blip2.

模型转换：

        
      
python weights/convert_safetensor_to_pt.py

运行程序：

        
      
python gradio_demo.py

AIGC

aigc

This post is licensed under CC BY 4.0 by the author.