一、产品介绍
KV结构识别是庖丁科技针对“制式文档”信息提取场景而专门构建的智能web应用。能通过可视化交互界面自主进行模型的构建、模型训练并发布生产,实现制式文档的key-value信息提取。
制式文档:具备一定规范,主要信息为若干key-value键值对的文档(key-value信息一一对应),例如各类单据、发票、证件等。
注:制式文档并非要求版面格式完全一致,版面格式存在差异、key文本描述不一的文档也在处理范围内。
示例:
二、使用手册
以抽取电子发票KV信息为例
1. 构建模型
首先,系统提供了项目的概念,以适应不同类型的业务处理工作。
项目:即代表针对“某一类需要处理的文档”构建的任务区间,在项目内可以定义模型(该文档需要抽取的字段)、上传文件标注、训练模型、发布并启用模型,上传新文档利用AI模型抽取信息。
首先我们需要设置从文档中需要抽取的关键信息字段
字段设置:点击字段设置,进行需要抽取的字段维护。如图需要抽取发票中的信息,我们只需要在字段设置出通过新增字段按钮,添加字段即可。
注:此处的字段名称并非要和文档中key的名称完全一致,因为有的文档可能存在key的叫法不一致的情况,比如对于“编号”字段,部分文档中key可能为“编号”,可能为“No.”,也可能为“票据号码”。
或者“需要提取的字段命名”和“文档内实际的key命名”无法完全匹配。
2. 标注样本
上传文件:项目下可维护文件夹、用于对文件进行分类管理。可以在项目下、文件夹下上传文件(支持按住Ctrl/Command键批量选取),文件形式支持pdf、jpg和png格式图片。
文件上传后会进入系统预处理阶段,预处理完毕可以进行字段的标注。通过文件列表,我们可以看到文件的处理状态(文件处理完成方可进行标注)、标注状态。
标注文件:点击标注按钮进入文件详情、可以对文件进行标注(手动提取信息)
操作:
❶ 右侧答案栏点击要标注的字段输入框
❷ 在左侧文档中标注对应的内容
❸ 反复以上两步,全部标注完成后点击上方 提交答案
3. 创建数据集
数据集:由文件及其标注数据形成的一种组合文件,数据集将应用于模型训练、模型效果测试,将来还会扩展标注数据、AI预测数据导出等功能。
创建数据集:进入项目下数据集模块,创建数据集,填写名称和选择文件即可。数据集创建完毕,需要进行预处理,以支持模型训练。
这里需要注意的是,用于模型训练时,由于模型对样本数量有要求,所以创建数据集用于模型训练时,集合中的已标注文件最少为3。
当然,为了模型获得更好的效果,需要有尽可能多的标注文件数量。
我们可以维护多个数据集,分别用到不同版本的模型训练和模型测试工作。
4. 模型训练
数据集创建完成,即可利用数据集进行模型训练(现版本接入的模型为微软的通用文本预训练LayouLM模型)。
创建模型:进入模型管理模块,可创建模型,需要填写以下信息:
◉ 模型版本名称:可自由定义
◉ 根据文档类型选择模型训练方式:目前支持中文、英文、中英文混合文档,部分中文文档内会出现个别英文编号、少量英文value的情况,使用中文即可。
◉ 选择用于模型训练的数据集:将利用数据集中的已标注文件进行模型训练
◉ 选择数据集作为测试集:模型训练完成后,可对测试集中已标注文件进行答案预测,并计算检测模型效果,可以看到模型在测试集上的准确率、召回率和f1值表现情况。
训练模型:模型版本创建完成,点击开始训练,即进入模型训练过程。
模型训练进度会以百分比进度表示,训练完成会自动停止。并会生成在测试集上的准确率、召回率和f1值,可查看每个字段的详细效果表现。(训练完毕后,会有一定的测试过程,测试完毕会显示测试结果。)
我们可以在不同的样本上进行训练评测,以期许实现最优效果。(模型效果提升建议:增加训练集标注样本数量)
5. 模型启用
启用模型:训练完毕后,根据模型评测效果,若达到可用效果,即可启用模型上线
AI自动预测提取:上线模型后,项目下上传新的文档,即可通过该AI模型自动抽取文档中关键字段的value信息。实现数据的自动提取。
后续版本中,我们还将支持提取结果的导出、以及API获取抽取结果,以支持数据自动化生产。