什么是表单识别/表格识别

如题所述

当表单的量不大时,表单识别没有多大优势。例如只有几十张、几百张表单时,人工录入只需若干小时。而表单识别,需要花几分钟到若干小时定义识别区域,花若干时间把纸张整理好进行扫描,花时间由计算机进行识别,花很大一部分时间由录入员进行人工校对(这里我们还可以看出:如果识别后计算机能不能给出识别结果是否正确的判断对人工校对会有多大影响)。但如果表单数量很大,例如几万张到几百万、几千万张,表单识别的优势就很明显了,相当于一个流水线的处理,很快就能得到需要的数据。
表单识别有很多难题需要处理。例如图像的快速分类、图像中影响识别的干扰因素的去除、文字与条码等内容的准确识别、识别的后处理等。我们通常所讲的OCR只是表格识别的一个很重要的方面,表单识别的效率,取决于上述的多个方面的综合。目前已经有很多公司在这些方面取得了非常好的成果,例如厦门云脉技术有限公司的票据识别SDK,提供API接入。
温馨提示:答案为网友推荐,仅供参考
第1个回答  2023-04-14
表单一般是指无表格线或表格线不够全的清单列表类的纸质单据,如银行流水、货物清单等,这类表单一般是针式打印机打印出来的,字迹没那么清晰,而且还缺少表格线或没有表格线,这给OCR识别表格结构带来不少麻烦和困难,一般的OCR程序很难胜任,建议用专业的表格识别程序,如金鸣表格文字识别。
相似回答