◎数据之“大”并不一定是“体量大”,而是“价值大”。或许一份数据并不全面,无法覆盖所有的细节和要素,但只要能够反映足够的特征,在数据维度上足够细致,也能够产生较大的价值。
◎没有对数据状况的充分了解,就无法将构想具体落地。编制本单位的数据资源目录是高效利用数据的前提,它既是数据管理的抓手,又是利用数据资源的引擎。
仅仅收集数据并不是数字检察,将数据变成实实在在的办案资源,是每一个站在数字检察前沿的检察官必须面对的问题。
随着数字检察工作的深化和工作思路的拓宽,更多的检察官跳出“就案办案”的思维定式,努力去发掘案件背后的共性特征,探讨共性特征与数字技术的结合方式。在深入推进数字检察工作时,检察人员还应不断提高数据分析能力,寻求更高效多元的数据利用方式,真正发挥数据的长效价值。
数据思维的培养
检察业务应用系统的应用涉及各个业务部门、案件管理部门、信息技术部门等,每个检察人员都是数据的生产者和使用者。数据思维是检察官能否对数据进行有效分析并加以利用的前提,如果检察官没有数据思维,就感知不到数据对业务的价值,只会看到一系列的标准、一堆堆的表格和凭空增加的工作量。对此,应从以下三方面强化数据思维的培养。
一是解开思想桎梏。检察官开展数字检察工作最核心的价值,就是提供办案思路,这个过程要尽可能避免因资源的局限所造成的影响。因此,要让检察官破除对技术和数据的思维限制,在寻找思路、设计模型时,树立“所有数据都可获取”“所有技术都可实现”的前置思维。
二是正视数据价值。数据之“大”并不一定是“体量大”,而是“价值大”。或许一份数据并不全面,无法覆盖所有的细节和要素,但只要能够反映足够的特征,在数据维度上足够细致,也能够产生较大的数据价值。检察官应反复审视自己能够访问的数据,从中寻找到更多的工作切入点。
三是重视深入思考。数据思维的本质是发掘数据潜藏的价值,而不是关注数据本身。案件管理部门的检察人员在开展统计工作时,具有最大的数据访问权限,但如果开展的业务分析仅仅是罗列数据的升降、比率的高低,就没有真正发挥数据价值。只有将业务逻辑投射到数据中,找到问题症结,才能有效指导相关业务开展。
数据资源价值的发掘
一是内部数据的价值亟待挖掘。检察业务应用系统中的数据全量且精准,其中的案卡项目是典型的结构化数据,法律文书则需要按照一定规则书写,具有半结构化的特征,也易于拆分整理,信息抽取分析成本较低,这些数据都是可进行深度分析的优质对象。但是,从传统业务来看,这些数据除了被用于案件管理部门的业务分析研判外,更多时候仍在“沉睡”,其最常被使用的场合和方式,就是与外来数据进行数据碰撞,但这仅是数据分析的方法之一,其他诸如关联规则挖掘、回归分析、聚类分析、时序分析、异常检测等方法,以及对法律文书进行自然语言处理、文本挖掘等应用还未能充分得以运用。这种情况的出现,一方面,是由于检察官对技术不了解。在众多数据分析工具中,数据碰撞的概念最易于理解,运用起来也不需要技术知识背景,通过Excel表格即可完成,而更为复杂的分析方式则需要更多的技术知识,这对检察官而言是个较难跨越的门槛。另一方面,新的方法试错成本高,结果难以预测。在借助数据碰撞这一思路构建模型时,具备共性的数据项可以直接观察到,分析的结果也可以预知,而其他的众多分析方式则需要采用专业的分析工具,或需借助编程技术才可实现,在构思阶段,无法对结果做出预期,很有可能在投入时间和精力后,结果并不如人意,这无形中给这些分析方法的应用带来了阻力。加之通过数据碰撞等简单分析方法取得成功的案例有示范效应,使得检察官更加信任经过验证的思路,本能地会减少对新思路、新方法的尝试。
二是外来数据的治理要“以终为始”。随着各种模型的不断构建涌现,检察官逐渐意识到,多维的数据可以互相支持、互相印证。在这个过程中,检察机关汇入了大量的外来数据,这些数据形式多样、标准不一。要想让这些外来数据与内部数据实现融合,便于进一步进行数据检索和分析,就需要进行相应的数据治理。将相关信息按照一定的规则提取出来,经过清洗、转换、集成,最后成为适于检察机关利用的数据形态并汇入数据仓库。数据治理的最终目的是服务于检察业务,从这个“终点”出发,在数据治理过程中,技术分析必须与业务应用紧密协作,让业务部门感受到数据的显性价值。对于数据治理工作,业务部门是最终的使用者,对数据的准确理解、调度至关重要,整个数据治理过程也都需要将重心前移到业务一线。唯有如此,才能让业务部门认可数据治理这一工作的价值,更为积极地投入这项工作中。对于业务部门而言,也不是“要我做数据治理”,而是“我要做数据治理”,不再是“遵从你的标准”,而是“一起制定标准”。
数据资源与业务需求的衔接方式
数据资源是决策过程的“外脑”,只有有效地管理数据,高效地利用数据,探寻其与业务需求的结合点,才能真正发挥其价值。
一是数据的资产化运营。对数据的利用,应以“让数据产生价值”为目标,从单纯的储存、调用、分析,走向主动式的运营管理。首先,数据资源是无限的。数据的流通和使用并不会消耗数据本身,反而会产生更多的数据。其次,数据的“折旧率”低,复用率高。以往的数据可以借助新的分析方式得出新的结论,也可以与当前数据结合,产生新的数据。再次,数据使用的边际成本低。数据治理仅需要投入必要的采集、清洗、整理成本,但该投入往往是一次性的,数据的可复制性使其能够应用于更多的场景中,数据价值的发掘成本相对较低。随着数字检察工作的推进,数据生产要素的特征会愈加明显,将成为提升检察机关社会治理能力的重要组成部分,检察机关对数据的运用也愈加成熟,会主动寻求与其他部门进行数据共享和业务联动。
二是构建数据资源目录。想要充分利用数据,需要让检察官知道哪些数据可以利用、这些数据在哪里、质量如何。没有对数据状况的充分了解,就无法将模型构想具体落地。编制本单位的数据资源目录是高效利用数据的前提,它既是开展数据管理的抓手,又是利用数据资源的引擎。一方面,从需求出发,检察官在提出一个模型构思后,可以参考这一目录,根据当前数据资产的具体情况,制定每一步的具体路径。对已经在库的数据,不需要消耗人力、技术去收集整理;对当前缺少或者不完备的数据,可以尝试借助其他已有数据进行推理,或者明确规划下一步获取数据的工作。另一方面,从数据出发,检察官获知了本单位的数据资源目录,可以看到哪些数据是可利用的,由此可激发更多新的设想。数据资源目录集中、便捷、标准化地管理了所有的数据资产,使检察官可以通过跨越时间、空间、业务领域,以及价值、场景等多维度进行数据的查询、获取和加工,能够显著提高数据资源的利用效率。
三是实现数据支撑的平台化、接口化、服务化。技术只是工具,开展业务才是目标,要避免数据资源的收集治理与业务应用相分离的情形。首先,数据支撑需要平台化。平台化的管理模式可以将检察机关获取的内外部数据资源进行整合,按照统一标准和口径加工成数据资产。同时,借助多渠道汇总的数据进行交叉验证,可确保数据的准确性,将差错排除在应用之前。平台化的数据支撑使数据资产具备高度的可复用性,在业务应用中,检察人员可忽略收集、治理、存储的成本,不需要担心数据质量,直接拿来构建模型。其次,数据支撑需要接口化。“万变”的是数据,“不变”的是方法,接口化的数据支撑可以提供通用型的技术模型,构建面向共性的分析平台,将分析方法封装成拿来即用的“黑箱”,检察官不需要参与技术实现,在一端输入数据,就可以在另一端直接获取结论。再次,数据支撑需要服务化。在业务构想与数据结合的过程中,数据及其分析方法是检察官放在手边随时取用的资源。服务化的数据支撑致力于提升数据及工具的易用性和可获得性,让数据资源变得人人可用,有效降低业务与技术的沟通成本以及数据资源的应用门槛,进而改善资源利用效率,促进检察业务的发展。