常用的表格检测识别方法——表格内容识别方法

如题所述

深入探索表格内容识别的艺术,我们聚焦于第三章中的关键环节——表格内容抽取技术。在这一领域,研究的核心分为两个关键步骤:单元格内文本的识别和整体表格理解。文本识别,虽然常见且稳定,但并非表格识别的重心,因此暂且搁置,让我们聚焦于表格内容的深入解析。

信息抽取,这个被研究了几十年的课题,曾依赖于规则和人工设计,但深度学习的到来带来了革命性的突破。现代方法将信息抽取视为一个token分类问题,如M. Carbonell的CNN方法,不仅实现文本检测、转录,还包含命名实体识别。而 Majumder等人则采用先验知识,通过候选词的选择和结构嵌入,计算字符与领域嵌入的余弦相似度,以提取关键领域值。

在技术发展过程中,SPADE和BROS作为两个里程碑式的模型,分别将信息抽取视为空间依赖解析和位置编码的革新。SPADE通过构建文本段和字段的依赖图,BROS则通过预训练目标和区域掩蔽进一步优化。还有研究者采用序列到序列模型,如Xiao等人,将文本图与视觉特征结合,实现了像素级的表格分割。Raphael等人则运用多模态神经模型,将文本嵌入与CNN深度融合,拓展到历史报纸的细粒度分割任务。

尽管图像特征被视为解决信息抽取的重要途径,但缺乏语义信息的OCR方法在面对复杂布局时显得力不从心。Hwang和Jiang等人的方法利用坐标序列化文本,但忽视了文本间的视觉关系。Chargrid和BERTgrid通过热向量和CNN的结合,将语义信息和视觉特征结合得更为紧密,而BERTgrid通过通道特性表示语义,引入了高效的计算方法。

在全球视角下,表格信息抽取的研究呈现出多元化趋势。国外学者在基于序列的方法上,如LAMBERT和TILT,展示了强大的语言模型应用能力,而在二维特征网格方法上,Chargrid和BERTgrid是早期的佼佼者。国内研究者则在图和二维特征网格领域独领风骚,如PICK、MatchVIE和ViBERTGrid等模型在信息抽取任务中表现卓越。总体来说,无论是国内还是国际,表格内容识别的研究正处于繁荣发展和技术创新的高潮期。
温馨提示:答案为网友推荐,仅供参考
相似回答