Home 吴恩达最新项目.md
Post
Cancel

吴恩达最新项目.md

大家好,我是 Ai 学习的章北海

[[240424吴恩达最近的短课]]

[[241126 吴恩达宣布,推出新的开源 Python 包]]

吴恩达老师又发新项目了——Agentic Document Extraction

一句话总结:它可以从图片、PDF 等文件提取结构化信息,以文本、表格、图片、图表和其他信息的结构化层次格式返回提取的数据。

关键特性:
• 捕获复杂的布局,包括复选框和视觉元素
• 从图表、表格和图像中提取数据
• 为提高准确性提供视觉定位

效果如下:

测试了一下,表格识别也不错

Agentic Document Extraction

这个工具可以网页内直接使用

网址: https://va.landing.ai/demo/doc-extraction

免费用户每月有 1000 个 Credits

输入支持 PNG, JPEG, PDF(Max Size: 50MB),缺点是支持 2 页以内。

返回信息支持 markdown 和 json 切换,精确定位每个元素的具体位置

然后还可以直接与文档对话

这个工具也支持 API 调用

官网文档:https://support.landing.ai/docs/document-extraction

Python 调用示例

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
import requests

url = "https://api.va.landing.ai/v1/tools/agentic-document-analysis"
files = {
  "image": open("{{path_to_file}}", "rb")
  # OR, for PDF
  # "pdf": open("{{path_to_file}}", "rb")
}
headers = {
  "Authorization": "Basic {{your_api_key}}",
}
response = requests.post(url, files=files, headers=headers)

print(response.json())

话说我刚知道 LandingAI 也是吴恩达的公司

主要业务是:利用其大量的视觉数据来构建、部署和扩展视觉人工智能解决方案。

有机会再深入看看吧。

再见

This post is licensed under CC BY 4.0 by the author.