机器视觉

首页 标签 "机器视觉"
视觉文档理解(VDU)模型 Donut 项目解析 机器学习

视觉文档理解(VDU)模型 Donut 项目解析

Document Understanding Transformer ,是一种新的文档理解方法,它利用了无 OCR 的端到端 Transformer 模型。Donut 不需要现成的 OCR 引擎/API,但它在各种视觉(可视化)文档理解任务——例如视觉文档分类或信息提取(又名文档解析)上展示了最先进的性能。也就是说,Donut 不做 OCR,直接对图片进行文字信息抽取(也叫文档理解)。 理解文档图像(如发票)一直是个重要的研究课题,在文档处理自动化方面有许多应用。

· 8分钟阅读 阅读更多