这几天,我搞定了应急管理部和广东省应急管理厅的法律法规文件。不过,在下载广东省应急管理厅的法律法规,遇到了一连串意想不到的障碍。
一开始,我以为广东省应急管理厅的网站出现了故障,因为一直打不开 - 500错误。这个错误像个顽固的老头,一连几天都不肯让步。我心想,难道是网站真的出了问题?带着这份疑惑,我决定换个方式试试搜索相应的法律法规。
出乎意料的是,当我用搜索引擎是,网站的某个具体页面有广东省应急管理厅的样子,或许网站本身是完好的。抱着试一试的心态,我又换了个浏览器edge,结果广东省应急管理厅主页面乖乖地显示出来了。这一系列的尝试让我意识到,问题可能出在我的浏览器设置上。经过一番清理cookies和缓存的"大扫除",我终于成功用原来的浏览器打开了网站。这是什么时候,什么事情留下的尾巴。
接下来,我开始着手修改之前用于下载广州市应急管理局资料的自动化程序用于下载这里的内容。在这个过程中,我发现了一些细微但关键的差异。比如,页面元素的选择方式有所不同,内容的定位也略有变化。这就像是在玩一个需要细心观察的游戏,每一个微小的变化都可能影响最终的结果。通过F12,仔细查看网页的源代码,我一点一点地调整了程序,终于让它能够正确地抓取信息。
但是,当我看到下载的文本内容时,又遇到了新的挑战。所有的文字都挤在一起,就像一锅没有调味的大杂烩,既难以阅读,也不利于后续的整理。这时,我想到了每个段落都有的<p>
标签。于是,我向ChatGPT求助,它帮我改进了代码,让文本变得井然有序。这个小小的改进,让整个下载过程变得顺畅了许多。读取网页内容生成的word文件就和网页结构差不多了。
接下来,我将目标转向了广东省应急管理厅的其他规章标准。这些文件的格式五花八门,有的是PDF,有的是图片,还有一些需要额外点击才能转换成PDF。面对这种情况,我曾一度想要放弃。但转念一想,既然已经走到这一步,为什么不再坚持一下呢?
于是,我又花了一天的时间来处理这些不一致的地方,不断修改我影刀程序。在这个过程中,我遇到了文件名不合规范的问题。起初,我想用简单的文本替换来解决,但很快发现这种方法考虑得不够周全。毕竟,我并不清楚哪些字符是不允许使用的。最后,我决定再次求助于GPT,让它帮我编写了一个Python模块来处理这个问题。
然而,挑战并未就此结束。,读取网页内容写入word文档后,文档没有标题,我又向ChatGPT求助,请它帮我编写一个程序来解决这个问题。这次gpt没有一次性给出好答案。经过几轮的反复尝试和修改,终于成功地将标题移到了文档的开头。
有了包括标题的法律法规文件,我就将他们传到了我的coze知识库平台。这样,coze上的机器人回答问题就能更加准确的引用法律法规条款了。
再调试几天,是不是可以将这个bot发布到豆包,然后给同事们分享呢?考虑一下。
可以啊
Downvoting a post can decrease pending rewards and make it less visible. Common reasons:
Submit