25日,我在制作安全生产法律法规知识库时取得了一些进展。经过长时间的摸索,我利用Python代码,对应急管理部和广东省应急管理厅的法律法规做了标识。这个过程颇为复杂,每一段的每个条款前我都加了一句话,标明法律法规的名称和文件名字,希望这样可以提高coze智能体在回答问题时的准确性。
调试持续了一个多天的时间,直到晚上我才回家进行进一步的标注工作。这期间,我还请教了ChatGPT,询问如何使回答更加精准。即便如此,调试过程中还是出现了几次回答不准确的问题。为了检验标注的效果,我将有标注和无标注的知识库分别投入智能题进行测试。虽然整体效果比以往有所改善,但也发现了法律法规收集的疏漏。例如,这两年出台的建筑施工安全管理条例竟然都没有被收录。这一问题可能源于应急管理部和广东省应急管理厅都没有将其列入,或许是因为这被当作住建局的管理规定而忽略了。
不久后,我在搜索其他法律法规下载平台时,发现了一个人大法律法规下载的网站。该网站的法律法规相当齐全,但数量庞大,让我感到无从下手。于是,我想到利用RPA的自动化流程来逐个搜索并下载所需的法律法规。为了方便后续处理,我将厚厚的三本安全生产法律法规目录进行清洗,去掉了括号、注释、日期和目录数字,最终得到了简洁的文本版本。后期,我打算用这些文本来尝试在法规库中进行搜索和下载。
在25日晚上,我灵光一闪,想到了一个更好的法律法规标注方法。前两天,我采用的是在每段文字前都标注法律法规名称的办法,但这将某一条法律法规拆成了多个标注条款。因为有的条款里可能包含若干段落,因此这次我尝试以每一条为单元进行标注。
今天,我编写了一个提示词给GPT,特别注明了如何寻找“第几条”这样的关键词文本作为指引。让我感到惊喜的是,在工作结束前,我将提示词输入GPT,程序一次性通过了,标注效果相当不错。每一个法律法规条文都被注释好了。
与此同时,我还测试了一种方法,将一些法律法规文件下载下来,并过滤掉可能失败的文件,这些文件的长度少于20个自然段,因为法律法规条款通常不会少于20个自然段。在今天下班前,我成功标注了应急管理部和广东省的法律法规文件,并将约100多个条款上传至知识库,进行了自定义的分段处理。
不过,在最后测试时,某一法律条款的第几条依然没有被正确识别出来,这让我有些困惑。不清楚问题出在哪里,或许我还需要再学习一下GPT的一些视频教程,进一步探索GPT的标注方法。因为这些模型大多基于Transformer架构,理论上原理是相似的。