pc版

自然语言处理(NLP)技术在数字检察工作中应用研究

时间:2026-01-21 来源:赵衍健 黑龙江省牡丹江市人民检察院数检办
       【摘 要】:数字检察是数字中国的重要组成部分,是推进检察工作现代化的重要引擎。大数据法律监督模型是数字检察的重要突破口,是数字检察在检察履职中的重要实现形式,也是当前数字检察建设的一个重点方面。构建法律监督模型能够唤醒和盘活相关数据,实现个案监督向类案监督的转变,推动行政机关、主管部门诉源治理、系统治理。本文利用自然语言处理(Natural Language Processing, NLP)技术解决建模过程中数据结构化、数据清洗、数据智能分析的难题,展开深度数据挖掘,更加精准地获得监督线索,辅助办案人员利用模型进行决策,大幅提高办案质效,进一步促进社会治理。

【关键词】数字检察;自然语言处理;法律监督模型

一、引言

党的十八大以来,党中央高度重视、全面擎画数字中国建设,数字检察是数字中国的重要组成部分,是推进检察工作现代化的重要引擎,而大数据法律监督模型是数字检察的重要突破口,构建法律监督模型能够唤醒和盘活相关数据,实现个案监督向类案监督的转变,推动行政机关、主管部门诉源治理、系统治理。

二、自然语言处理技术

自然语言处理是一门交叉学科,涉及语言学、数学、计算机科学、信息学、电子科学、心理科学、认知科学、神经科学等,而作为专业领域内的研究,还需要加入该专业的领域知识。本文结合数字检察工作实际,使用自然语言处理技术完成文本数据的处理及分析,涉及的技术主要包括命名实体识别、自动摘要、情感分析、正则表达式。

(一)命名实体识别

一般来说,命名实体识别的任务是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体,如“第二派出所拘留了张三。”命名实体识别结果是“第二派出所/机构名 张三/人名”。命名实体识别可用于提取大量案件涉及的地名、人名等,智能分析出哪些地点涉案量较高。

(二)自动摘要

自动摘要指通过自动分析给定的一篇文档或多篇文档,提炼、总结其中的要点信息,最终输出一篇长度较短、可读性良好的摘要(通常包含几句话或数百字),自动摘要可以通过生成式自动摘要和取式自动摘要两种方式实现,在数字检察建模自动摘要可用于智能归纳总结案情以及各种文本数据。

(三)情感分析

情感分析通常被等同于情感分类,即根据文本中的语言特征对文本进行情感分类,具体而言,情感分类是对文本中的情感极性(积极、消极)和强度进行评价,也可以对各种具体情感进行多维度分析,如愤怒、快乐、悲伤等。广义的情感分析任务包括主观性分类、情感分类、方面与实体提取、观点摘要、垃圾评论检测等,在数字检察建模过程中,情感分析可用于分析案件严重程度及舆论影响。

(四)正则表达式

正则表达式描述的字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。在数字检察建模工作中,可以使用正则表达式寻找文本数据中日期、涉案金额、当事人等数据,或者可以根据建模需求删除文本数据中的无用数据。

三、构建大数据法律监督模型面临的难题及解决途径

在技术层面上,构建法律监督模型的难点就是对海量数据的挖掘,这体现在三个方面:数据结构化、数据清洗和数据分析,其中数据的分析仍停留在较浅的层次,普通的技术手段无法对数据进行深入的分析,如智能分析案情的严重程度、社交平台数据的情感取向分析,假设对几百个案件的案情严重性进行分析,需要查阅所有案件卷宗并人工评价案件严重性,亟需智能化手段来完成案件数据的智能分析。

近年来,基于神经网络和深度学习的预训练语言模型为自然语言处理技术带来了突破性发展,本文探索使用Python编程语言、HanLP自然语言处理工具包、xlwings工具解决数字检察构建大数据法律监督模型过程中所面临的技术难题。

(一)Python语言

随着自然语言处理技术的发展,各种编程语言的自然语言处理工具也渐趋丰富,在编程语言选择方面,Python语法简单,比如ChatGPT就是使用Python编程语言和深度学习框架PyTorch编写的,最新的语言模型ChatGPT-4也在各种应用场景大显身手。

(二)HanLP自然语言处理工具包

HanLP是基于Python的工业级自然语言处理工具,支持包括简体中文、繁体中文、英、日、俄法、德在内的104种语言。HanLP的中文分词、词性标注、命名实体识别、自动摘要、情感分析等功能的效果较好,适合作为自然语言处理工具完成数字检察的数据挖掘工作。

(三)xlwings工具

xlwings是基于Python的第三方库,可以让计算机快速实现精确到单元格级别的细颗粒度的表格操作。通过数字检察工作实际情况来看,获取的数据绝大多数是xlsx格式的数据表文件,极少数的以数据库或其他形式装载的数据,也可以通过技术手段转化为xlsx或xls格式的数据表文件。

四、成果

自然语言处理技术在M市轻罪治理监督模型中的应用为例,该模型通过对公安机关治安案件数据、警情数据和检察系统内部案件数据进行分析、挖掘,获取轻罪案件线索,并根据案件案发地点进行统计,对案件高发地区针对性地制发社会治理检察建议,以及根据案件是否涉未成年人开展分级干预工作。

(一)模型技术需求及实现:

    1.提取简要案情中涉及的所有地点并统计频次。使用xlwings解析治安案件数据文件File1,摘取简要案情一列第i行单元格文本内容记为texti,调用HanLP加载语料库和命名实体识别模型代

码(图1),对File1包含的所有texti,依次调用中文分词、词性标注和命名实体识别函数,并统

1

计所有属于机构(ORGANIZATION)、地名(LOCATION)的识别结果,部分识别结果如图2所示,部分统计结果如图3所示。

2

2.识别文书总结简要案情,并智能分析案件严重程度,完成文书数据格式化。先使用EasyOcr识别文书文件,获得可编辑的文本文件,使用HanLP调用自动摘要模块,对文本文件中案情部分进行总结,获得简要案情,再使用HanLP调用情感分析功能模块,该模块可以对给定文本进行情感分析,计算得出情感极性为[-1, 1]之间的数值,数值的正负代表正负面情绪,数值的绝对值代表情感的强烈程度,经大量数据测试及人工比对,案情越严重数值为负数且绝对值越大。如对两个文本进行情感分析,从结果(图4、图5)上看,案情中未包含被打住院的情节的情感极性数值保留两位小数后为-0.17,包含住院情节的情感极性数值为-0.65,文本负向情感明显大于前一文本。把案件使用正则表达式匹配文本数据中明显的数据项标记如“案发时间”“作案人”“身份证号”等,结合xlwings工具完成数据结构化。

3

3.生成可视化案发频次地图。以WEB形式调用百度地图API接口,把地点实体词转换为具体经纬度,以聚集点位数量范围不同用不同颜色标准,绘制区域内案发频次地图,达到对频次较高、发案较多的地点用红色进行重点标注,效果如图6(样图)。

4

4.根据案发日期及作案人身份证信息判断案件是否涉及未成年,并统计所有未成年人作案次数。使用正则表达式匹配出身份证号内生日字段,结合作案日期获得未成年作案数据,使用xlwings进行统计。

(二)模型成效:

下发立案监督线索13条,监督立案7件,生成地区治安治理可视化热力图,制发会治理检察建议2份,其中1份检察建议入选《H省检察机关深化能力作风建设工作落实典型案例第三批)》;与当地J学院成立“罪错未成年人考察帮教基地”,并会签《共建未成年人考察帮教基地实施办法》,并开展了首批训诫工作。

五、展望

本文使用以自然语言处理技术解决构建大数据法律监督模型所面临的三大难题。本文涉及的技术方法已经在当地两级检察院开展数字检察工作过程中得到了实践验证,为全市构建法律监督模型提供了有力的技术支撑。下一步可以考虑搭建检察业务专用语料库,使用大语言模型打造一体化业务平台、多模态数据处理平台,建设检察算力网络提高数据计算能力,让科技带动数字检察工作高质量发展。

责任编辑:广汉

热门推荐

登录 注册

暂无评论