一、产品介绍

KV结构识别是庖丁科技针对“制式文档”信息提取场景而专门构建的智能web应用。能通过可视化交互界面自主进行模型的构建、模型训练并发布生产,实现制式文档的key-value信息提取。

制式文档:具备一定规范,主要信息为若干key-value键值对的文档(key-value信息一一对应),例如各类单据、发票、证件等。

注:制式文档并非要求版面格式完全一致,版面格式存在差异、key文本描述不一的文档也在处理范围内。

示例:

product

二、使用手册

以抽取电子发票KV信息为例

1. 构建模型

首先,系统提供了项目的概念,以适应不同类型的业务处理工作。

项目:即代表针对“某一类需要处理的文档”构建的任务区间,在项目内可以定义模型(该文档需要抽取的字段)、上传文件标注、训练模型、发布并启用模型,上传新文档利用AI模型抽取信息。

首先我们需要设置从文档中需要抽取的关键信息字段

字段设置:点击字段设置,进行需要抽取的字段维护。如图需要抽取发票中的信息,我们只需要在字段设置出通过新增字段按钮,添加字段即可。

product

注:此处的字段名称并非要和文档中key的名称完全一致,因为有的文档可能存在key的叫法不一致的情况,比如对于“编号”字段,部分文档中key可能为“编号”,可能为“No.”,也可能为“票据号码”。

或者“需要提取的字段命名”和“文档内实际的key命名”无法完全匹配。

product

2. 标注样本

上传文件:项目下可维护文件夹、用于对文件进行分类管理。可以在项目下、文件夹下上传文件(支持按住Ctrl/Command键批量选取),文件形式支持pdf、jpg和png格式图片。

文件上传后会进入系统预处理阶段,预处理完毕可以进行字段的标注。通过文件列表,我们可以看到文件的处理状态(文件处理完成方可进行标注)、标注状态。

product

product

标注文件:点击标注按钮进入文件详情、可以对文件进行标注(手动提取信息)

操作

❶ 右侧答案栏点击要标注的字段输入框

❷ 在左侧文档中标注对应的内容

❸ 反复以上两步,全部标注完成后点击上方 提交答案

product

3. 创建数据集

数据集:由文件及其标注数据形成的一种组合文件,数据集将应用于模型训练、模型效果测试,将来还会扩展标注数据、AI预测数据导出等功能。

product

创建数据集:进入项目下数据集模块,创建数据集,填写名称和选择文件即可。数据集创建完毕,需要进行预处理,以支持模型训练。

这里需要注意的是,用于模型训练时,由于模型对样本数量有要求,所以创建数据集用于模型训练时,集合中的已标注文件最少为3。

product

当然,为了模型获得更好的效果,需要有尽可能多的标注文件数量。

我们可以维护多个数据集,分别用到不同版本的模型训练和模型测试工作。

4. 模型训练

数据集创建完成,即可利用数据集进行模型训练(现版本接入的模型为微软的通用文本预训练LayouLM模型)。

product

创建模型:进入模型管理模块,可创建模型,需要填写以下信息:

模型版本名称:可自由定义

根据文档类型选择模型训练方式:目前支持中文、英文、中英文混合文档,部分中文文档内会出现个别英文编号、少量英文value的情况,使用中文即可。

选择用于模型训练的数据集:将利用数据集中的已标注文件进行模型训练

选择数据集作为测试集:模型训练完成后,可对测试集中已标注文件进行答案预测,并计算检测模型效果,可以看到模型在测试集上的准确率、召回率和f1值表现情况。

product

训练模型:模型版本创建完成,点击开始训练,即进入模型训练过程。

product

模型训练进度会以百分比进度表示,训练完成会自动停止。并会生成在测试集上的准确率、召回率和f1值,可查看每个字段的详细效果表现。(训练完毕后,会有一定的测试过程,测试完毕会显示测试结果。)

product

我们可以在不同的样本上进行训练评测,以期许实现最优效果。(模型效果提升建议:增加训练集标注样本数量)

5. 模型启用

启用模型:训练完毕后,根据模型评测效果,若达到可用效果,即可启用模型上线

product

AI自动预测提取:上线模型后,项目下上传新的文档,即可通过该AI模型自动抽取文档中关键字段的value信息。实现数据的自动提取。

product

后续版本中,我们还将支持提取结果的导出、以及API获取抽取结果,以支持数据自动化生产。