数据质量与数字检察工作紧密关联,提高数据质量对提升大数据赋能法律监督的准确性、全面性、可靠性有着重要意义。山东省青岛市检察院从数字检察工作开展之初就充分认识到数据质量的重要性,坚持从检察机关内部数据着手,探索全方位的内部数据治理路径。
一、检察机关内部数据质量存在的主要问题
笔者在对案卡项、办案文书、生产库、统计报表等多个数据源进行全面比对和溯源分析发现,目前影响检察业务数据质量的问题主要分为三类。
一是案卡项本身填录存在错、漏、迟。全国检察业务应用系统中,案卡项之间的业务逻辑性约束较少,大部分案卡项是否准确填写并不影响整个案件办理流程,案卡项填写欠缺逻辑性、存在滞后性的问题普遍存在。自2021年6月全国检察业务应用系统2.0(以下简称“2.0系统”)上线以来,因案卡项的填录节点、填录位置、填录方式等相较于之前的系统变化较大,2.0系统的案卡填录不规范、不准确、不及时的问题呈增长趋势。例如,案卡“审查起诉阶段检察机关适用认罪认罚”的案卡项填写为“是”,犯罪嫌疑人个人信息中“审查起诉阶段检察机关适用认罪认罚”却均为“否”等问题,均为案卡项内部问题,通过核查案卡项单一数据源就能发现。
二是案卡项填录情况与文书内容不一致。2.0系统设置了通过文书受理功能后,案卡项和文书不一致的问题数量明显减少。但部分案件因无法通过文书受理,在审查起诉阶段大部分案卡项则为人工录入,这就导致案卡项填录和文书内容不一致的问题仍普遍存在。该类问题既可能是案卡项填录错误,也可能是文书撰写错误,同时大部分无法通过核查案卡项单一数据源发现。例如,案卡项中犯罪嫌疑人姓名填录为“李四”,起诉意见书中犯罪嫌疑人姓名填录为“王五”,该问题就无法通过核查案卡项发现,仅能通过比对案卡项和文书才能发现。因案卡项和文书均是海量数据级别且在不断递增中,通过人工无法全面核查,亟需进行自动化核查或筛选。
三是案卡项填录情况和2.0系统统计报表不一致。2.0系统自带统计报表,其中的业务数据产生机制主要源于案卡项的填录情况,因传输延时、上表机制、人为因素等原因,存在表卡不一的问题。统计报表数据是业务指标、案件质量指标评价的基础,涉及检察院年度考核排名等,提升案卡项目填录质量继而提升统计报表业务数据质量是提高评价考核准确性、科学性的重要支撑。
二、检察机关内部数据的治理路径
检察机关应坚持以问题为导向,以解决实际问题为目标,根据检察机关内部数据存在的不同问题类型,采取有针对性的举措,进行全方位治理。
一是对检察业务应用系统案卡项填录情况进行实时核查。根据最高检、省级院对案卡项填录情况的通报,创建对业务数据案卡项填录准确性的专项核查规则,通过案卡项之间逻辑性比对、空白项核实、流程节点判断等多角度自动核查案卡填录的错、漏、迟问题。实行每日自动核查,对核查出的新问题、已整改问题、未整改问题进行分类、实时显示。
二是通过文本解析技术实现案卡与文书的智能校验。通过对起诉意见书、起诉书、判决书等文书内容进行智能解析,将非结构化数据转化为结构化数据,再和对应的案卡项进行逐项比对,自动找出文书内容和案卡项实际填录情况的差异。对于可以自动判别为文书错误或案卡项填录错误的问题,实时发送办案人整改;对于需要人工进行进一步判别的,将自动化筛选结果发送办案人辨别确认。相较于上一功能,该功能的技术性难度在于需对起诉意见书、起诉书、判决书等主要文书的部分内容进行精准提取。目前,法律文书解析提取类功能主要利用正则表达式技术,该技术在较为规整的文书内提取基本要素的应用已非常成熟,2.0系统设置的通过文书受理功能和各地方检察院研发的文书回填功能,均为该技术的具体应用。
三是对异常数据自动监控提醒。研发2.0系统统计报表异常数据监控提醒系统,重点关注与检察机关案件质量主要评价指标相关的统计数据,设定异常数据提醒阀值,当统计数据突破提醒值范围的自动提醒,并自动转向相关案卡项目,通过人工+机器的方式跟踪上表进程、研透问题根源。对确实存在问题的情形,及时通知办案人整改,有力促进业务数据“挤水分”,提升统计报表数据整体质量。
(作者单位:山东省青岛市检察院)