论数据挖掘在预防小区犯罪中的应用
2007年7月 辽宁警专学报 Jul2007.第4期(总第44期) JOURNALOFLIONIGPOLICEACADEMY No.4(Sum.44)AN论数据挖掘在预防小区犯罪中的应用寇瑾(辽宁警官高等专科学校公安技术系,辽宁大连 )要摘 :数据挖掘是指从数据库或数据仓库中提取隐含的、未知的及有潜在应用价值的信息或模式。数据数据准备、挖掘技术应用于预防小区犯罪,采用CRISP-DM方法论,通过数据理解、建立模型、模型选择、训练模评估模型等流程,可以对犯罪分布区域、型、犯罪行为特征、犯罪分子惯用手段、受害人群识别等进行受害人特征、分析,识别高犯罪率的小区及犯罪特征。关键词:数据挖掘;知识发现;小区犯罪中图分类号: D917.6 文献标识码: A 文章编号:1008-5378(2007)04-0064-03 、一引言大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。人们开始提出一个新的口号:“要学会抛弃信息”。人们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识,提高信息利用率?”面对这一挑战,数据挖掘和知识发现(KDD)技术应运而生,并显示出强大的生命力。二、数据挖掘概述随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大。在大量的数据背后隐藏着许多重要的信息,如果能把这些信息从数据库中抽取出来,将为公司创造很多潜在的利润,数据挖掘概念就是从这样的商业角度开发出来的。确切地说,数据挖掘(DataMining),又称数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式。它是数据库研究中的一个很有应用价值的新领域,融合了数据库、机器学习、人工智能、统计学等多个领域的理论和技术。数据挖掘技术是人们长期对数据库技术进行 收稿日期:2007-04-16瑾作者简介:寇 (1971—),女,辽宁抚顺人,讲师,硕士。?64?研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。数据挖掘其实是一个逐渐演变的过程。在电子数据处理的初期,人们就试图通过某些方法来实现自动决策支持,当时机器学习成为人们关心的焦点。机器学习的过程就是将一些已知的并已被成功解决的问题作为范例输入计算机,机器通过学习这些范例总结并生成相应的规则,这些规则具有通用性,使用它们可以解决某一类的问题。随后,随着神经网络技术的形成和发展,人们的注意力转向知识工程,知识工程不同于机器学习那样给计算机输入范例,让它生成出规则,而是直接给计算机输入已被代码化的规则,而计算机是通过使用这些规则来解决某些问题。专家系统就是这种方法所得到的成果,但它有投资大、效果不甚理想等不足。20世纪80年代人们又在新的神经网络理论的指导下,重新回到机器学习的方法上,并将其成果应用于处理大型商业数据库。80年代末人们逐渐发现数据挖掘中有许多工作可以由统计方法来完成,并认为最好的策略是将统计方法与数据挖掘有机地结合起来。寇瑾 :论数据挖掘在预防小区犯罪中的应用数据挖掘方法有多种,其方法主要取决于问题等。偏差检测的基本方法是寻找观测结果与参照的类型以及数据的类型和规模。其中比较典型的有值之间有意义的差别。关联分析、序列模式分析、分类分析、聚类分析等。四、数据挖掘常用技术三、数据挖掘的功能数据挖掘常用技术主要有人工神经网络、决策数据挖掘通过预测未来趋势及行为,作出前摄树、遗传算法、近邻算法规则推导等。的、基于知识的决策。数据挖掘的目标是从数据库中(一)人工神经网络发现隐含的、有意义的知识,主要有以下五类功能。神经网络近来越来越受到人们的关注,因为它(一)自动预测趋势和行为为解决大复杂度问题提供了一种相对来说比较有数据挖掘自动在大型数据库中寻找预测性信效的简单方法。神经网络可以很容易地解决具有息,以往需要进行大量手工分析的问题如今可以迅上百个参数的问题。神经网络常用于两类问题:分速直接由数据本身得出结论。一个典型的例子是类和回归。由于参数多,以至于很难对一个神经网市场预测问题,数据挖掘使用过去有关促销的数据络表示的模型作出直观的解释。实际上神经网络来寻找未来投资中回报最大的用户,其他可预测的也正是当作“来用的,不用去管“黑盒”里面是盒子”问题包括预报破产以及认定对指定事件最可能作什么,只管用就行了。出反应的群体。(二)决策树(二)关联分析决策树提供了一种展示类似在什么条件下会数据关联是数据库中存在的一类重要的可被得到什么值这类规则的方法。例如,在贷款申请发现的知识。若两个或多个变量的取值之间存在中,要对申请的风险大小作出判断。某种规律性,就称为关联。关联可分为简单关联、(三)遗传算法时序关联、因果关联。关联分析的目的是找出数据基于进化理论,并采用遗传结合、遗传变异以库中隐藏的关联网。有时并不知道数据库中数据及自然选择等设计方法的优化技术。的关联函数,即使知道也是不确定的,因此关联分(四)近邻算法析生成的规则带有可信度。将数据集合中每一个记录进行分类的方法。(三)聚类(五)规则推导数据库中的记录可被化分为一系列有意义的从统计意义上对数据中的“如果-那么”规则子集,即聚类。聚类增强了人们对客观现实的认进行寻找和推导。识,是概念描述和偏差分析的先决条件。聚类技术采用上述技术的某些专门的分析工具已经发主要包括传统的模式识别方法和数学分类学。20展了大约10年的历史,不过这些工具所面对的数世纪80年代初,Mchalski提出了概念聚类技术,其据量通常较小。现在这些技术已经被直接集成到要点是:在划分对象时不仅考虑对象之间的距离,许多大型的工业标准的数据仓库和联机分析系统还要求划分出的类具有某种内涵描述,从而避免了中去了。传统技术的某些片面性。数据挖掘的核心模块技术历经了数十年的发(四)概念描述展,其中包括数理统计、机器学习。今人工智能、概念描述就是对某类对象的内涵进行描述,并天,这些成熟的技术,加上高性能的关系数据库引概括这类对象的有关特征。概念描述分为特征性擎以及广泛的数据集成,让数据挖掘技术在当前的描述和区别性描述,前者描述某类对象的共同特数据仓库环境中进入了实用阶段。征,后者描述不同类对象之间的区别。生成一个类五、数据挖掘方法的特征性描述只涉及该类对象中所有对象的共性。通过数据挖掘可以对某个小区的犯罪行为、案生成区别性描述的方法很多,如决策树方法、遗传发地点、受害人以及时间进行分析,其特点主要高算法等。度集中在侵财型罪行上,犯罪对象一般都是工作、(五)偏差检测居住地点附近的熟悉的人与物,在时间上具有明显数据库中的数据常有一些异常记录,从数据库的季节性。犯罪最集中的季节是春节前,因为要过中检测这些偏差很有意义。偏差包括很多潜在的节,于是萌生非法聚财念头。大量案件都是偷盗一知识,如分类中的反常实例、不满足规则的特例、观些生活用品,如衣服、自行车之类。鉴于上述食品、测结果与模型预测值的偏差、量值随时间的变化特征,进行下列分析。?65?辽宁警专学报 2007年第4期 犯罪分布分析;1、类分析,受害人特征分析选择主成分/因子分析与犯罪分子惯用手段分析;2、聚类分析,识别易受害人群选择决策树或逻辑斯特犯罪行为特征分析;3、回归。在选择模型后,设定检验标准,然后建立模受害人特征分析;4、型,反复训练模型,判断哪个模型最有用,在训练的受害人群识别分析。5、过程中,如果模型达到设定的检验标准,即可停止运用法学、行为学等相关知识定义犯罪行为,训练。描述各个小区犯罪行为特征。发生在小区的犯罪通过使用无序矩阵或者功效图,对模型进行评行为通常是偷盗财物、入室抢劫等,这是分析的重估。如果模型的评估指标不达标,继续返回模型选点。数据范围包括犯罪嫌疑人自然信息、犯罪行为择,选择其他模型;如果模型评估指标达标了,在小信息、小区信息以及受害人信息等。犯罪嫌疑人的范围内使用模型,考察模型的鲁棒性;如果模型没自然信息是指姓名、性别、职业、年龄、学历、是否有有发送剧烈震荡,即可发布此模型,并编写模型评案底、累计犯罪次数、住址、户口所在地等;犯罪行估报告与模型解析报告。为信息是指发生时间、案发地点、手段等;小区信息目前模型发布只能把模型提供给分析人员作是指小区地理位置、物业管理信息、保安人数、交通参考,把模型检测到的聚集、模型中蕴含的规则、模信息以及小区居民信息等;受害人信息是指受害人型效果的ROI(ReturnonInvestment)图表拿给相关性别年龄职业、姓名、、、学历、住址、收入、户口所在人员看。地、工作地点、损失物品、案发地点等。根据挖掘的结果,把犯罪主要集中的小区域,容依据对数据的理解,描述需要准备的数据,编易发生犯罪的小区特征、犯罪嫌疑人的特征,犯罪手写详细的报告。根据报告收集所有与业务对象有段,受害人特征等相关结果汇总成报告,给相关人阅关的内部和外部数据信息,并从中选择出适用于数读,并采取相应的措施,以便做到防患于未然。据挖掘应用的数据。在数据收集完成后,评估收集参考文献:数据的质量,编写质量评估报告,对数据进行探索[1][加]韩家炜,坎伯.数据挖掘概念与技术[M].与异常值检验,并编写报告,描述数据的特征以及北京:机械工业出版社,2001.对异常值的处理。设计抽样方案,选择合适的抽样循[2]梁 .数据挖掘算法与应用[M].北京:北京方式,抽取数据挖掘的数据,并检验样本是否有效,大学出版社,2006.描述总体数据特征,分析与犯罪相关的因素。[3]陈文伟.数据仓库与数据挖掘教程[M].北京:根据数据准备情况,选择模型。对犯罪分布分清华大学出版社,2006.析使用统计报表方法,犯罪手段分析采用关联分阳(责任编辑:陈 )析,犯罪行为特征分析选择主成分/因子分析与聚mTheApplicationofDataMininginProtectingagainstCommunityCrieKOUJin(PoliceTechnologyDepartment,LiaoningPoliceAcademy,DalianLiaoning,China)Abstract:Datamining,alsocalledKnowledgeDiscoveryinDatabase,isatechniqueofdistil2lingconnotative,unknown,g,throughtheprocessesofdataunderstanding,datapreparation,modelselection,modelbuilding,modeltraining,modelevaluation,toanalyzelotsofimportantinformationsuchascriminalregionaldistribution,habitualcriminalmethods,criminalbe2haviorcharacteristics,victims’characteristics,victimgroupdistinguishing,,communitiesofhighc:DataMining;knowledgediscoveryindatabase;communitycrime?66?