介绍

基于macbert对mask language model微调，进行错字修改。

这个是在shibing624/macbert4csc-base-chinese的基础上进行修改，其对应的源码位置。

使用

主要改动两个地方：

整体下来错字检测二分类对整体模型效果影响并没有很突出，以及整体模型效果并没有超出原作者多少，所以上传这个代码以及模型更多是为了学习记录与思考。其以pycorrector eval.py跑出来的结果如下：

corpus数据集：

Sentence Level: acc:0.7200, precision:0.8804, recall:0.6154, f1:0.7244, cost time:5.67 s

sighan2015数据集:

Sentence Level: acc:0.7973, precision:0.8265, recall:0.7459, f1:0.7841, cost time:11.19 s