基于大规模政府公文智能处理的知识发现及应用

来源：数据分析与知识发现 【在线投稿】栏目：期刊导读时间：2020-10-25

1 引言

公文即公务文书，是党、政府及其职能部门实施领导、管理、指挥、指导、沟通、协调的“经国之枢机”[1]，是政府日常办公的重要处理内容。随着政府公共服务的深化，公文数量快速增长。同时，电子政务的快速发展也使得电子公文的流转更加频繁。但是，受到按行政职能划分的政府业务流程的局限性的影响，多数公文内容分散，缺乏语义关联，导致公文之间无法形成有效参照，限制了公文间的相互引用，影响内容的一致性。这不仅增加了公文管理难度，也使得蕴含在大量公文中的知识无法有效复用，降低了政府部门的协同工作效率。为了有效地管理和利用公文，《党政机关公文处理工作条例》要求“严格规范公文管理，充分发挥公文效用”[2]，上海自贸区率先试行了电子文件的“单套制”管理制度等[3]；而《国务院办公厅关于印发政务信息系统整合共享实施方案的通知》（国办发〔2017〕39号）所指出的，要围绕政府治理和公共服务的改革需要，推进政务信息系统的整合共享[4]，也预示了公文在管理与开发利用上的未来趋势。

为充分发挥公文效用，提高政府公文流转处理的工作效率、突出服务职能，我国各级政府纷纷出台政策和标准，试图运用信息化手段加强公文管理。《国务院办公厅关于促进电子政务协调发展的指导意见》（国办发〔2014〕66号）指出，要围绕提高行政效能，进一步拓展深化网上办公，包括公文办理等日常工作的信息化等[5]。国家电子文件管理部际联席会议办公室在2017年4月发布了《党政机关电子公文系列标准》，对党政机关电子公文格式、标识、应用接口、电子印章等内容做了详细说明[6]。然而在调研中发现，当前的公文流转处理以双轨制文件管理为依托，多数政府公文处理工作仅停留在数字化流转和办理上，效率提升有限。在基于公文特征、知识结构的智能化处理方面还十分薄弱，导致大量公文资源的潜在价值难以实现。

对公文资源的智能处理，实现公文资源中的知识发现，有利于促进公文的智能知识管理，提升政府公文在拟制、审批、传阅和归档等流转处理中的智能化水平和行政效能，助力政府文件的宣传推广与贯彻落实，对推进数字政府建设和提高政府治理能力都具有重要意义。但当前，鲜有面向我国政府公文智能处理和知识发现的相关研究。而现阶段大数据分析和人工智能技术的快速发展以及在各行各业应用的日渐深化，为政府公文的智能化处理和知识发现提供了丰富的经验与借鉴。因此，本文将利用大数据分析、人工智能及自然语言处理等技术方法，研究面向大规模政府公文资源的智能处理及其知识发现系统构建，并分析该系统的应用。同时，也希望通过本文研究，为相关技术研究和政务系统开发提供研究思路和方法参考。

2 大规模政府公文智能处理

政府公文是一种重要的知识资源，在政府公文流转处理过程中，要实现对公文内容的汇总、提炼、细化、因地制宜突出重点等，必须充分了解各类相关公文的内容；同时，经办人在处理公文时需参考同类公文以往的处理方式去审批；具有行政效力的政策/政令/行政执法文书等，除对系列文件内容的有效关联外，还需排除文件内外的冲突关系；为保证工作的有效落实，要准确地对政令任务进行分解，明确权责对象等。而在数量庞大的各类公文资源中，依靠传统方式完成以上处理过程是十分困难的，亟需依托大数据分析与人工智能技术，采用科学化、智能化处理方法，实现公文的科学流转、精准匹配和高效办理。为完成以上目标，本文提出如下智能处理过程及研究相关技术方法。

2.1 政府公文的内容结构解析

对网络采集的公文、归档和政府合作的大规模政府公文数据集，在政府公文处理办法、工作条例与格式要求等法规、标准与文件的指导下，按照决议、决定、命令、公报、公告、通告、意见、通知、通报、报告、请示、批复、议案、函、纪要等类别进行公文的自动分类，针对每种类型按照要素进行结构化处理是公文智能化处理的基础。但是，公文的类型和要素标准经历过若干次历史性变化，给结构化处理带来了较大的困难。为实现大规模公文的类型自动分类与构成要素语义解析，需对公文文本进行功能结构识别。在相关研究中，陆伟等[7]、黄永等[8]利用词汇特征和机器学习方法对学术文本的功能结构自动分类，取得了令人满意的效果。本文借鉴其方法，采用基于公文类型词汇特征、公文要素分布及词汇特征，结合神经网络分类器训练的方法，对公文进行自动分类和构成要素语义解析，以实现公文内容的结构解析。其处理流程如图1所示。