机器视觉

首页标签 "机器视觉"

视觉文档理解(VDU)模型 Donut 项目解析

视觉文档理解(VDU)模型 Donut 项目解析

Document Understanding Transformer ，是一种新的文档理解方法，它利用了无 OCR 的端到端 Transformer 模型。Donut 不需要现成的 OCR 引擎/API，但它在各种视觉(可视化)文档理解任务——例如视觉文档分类或信息提取（又名文档解析）上展示了最先进的性能。也就是说，Donut 不做 OCR，直接对图片进行文字信息抽取（也叫文档理解）。理解文档图像(如发票)一直是个重要的研究课题，在文档处理自动化方面有许多应用。

2022-08-06 · 8分钟阅读阅读更多