数据分析与知识发现
    主页 > 期刊导读 >

数据挖掘三大经典算法在交通领域的应用综述

0 引 言

近几年,随着我国经济的快速发展,交通基础设施建设规模不断扩大,为了有效监控和管理各类交通基础设施,提高道路运营和服务水平,特综合了先进的信息技术、数据通信技术、电子传感技术、控制技术及计算机技术,设计了能够对大范围交通设施进行实时、准确、高效管理的综合交通管理系统——智能运输系统(Intelligent Transportation System,ITS),该系统逐渐受到了世界各国交通研究者的高度重视[1]。

智能运输系统的一个显著特点是以交通信息的收集、处理、发布、交换、分析、利用为主线,为交通参与者提供多样服务。在上述各环节中,交通信息的收集是基础工作,与交通服务水平的质量紧密相关,因此各国研究者对交通信息收集技术展开了大量研究[2]。一般而言,交通信息的收集方式主要分为两种,即利用人工方式进行交通数据调查,如交通问卷调查;基于交通检测设备由计算机自动完成数据收集,常见的技术包括利用微波车检器、超声波车检器、感应线圈、视频车检器等交通检测设备收集交通流量、速度和占有率等数据指标。随着这些交通检测技术的日益升级以及国家对智能交通的大力倡导,我国各地区的交通管理部门已经积累了大量历史交通数据,如何对这些数据进行有效分析和利用,以进一步改善整个道路系统的服务水平,成为当前交通研究领域一项有价值的课题。在此背景下,能够从海量数据中挖掘出有用规律和模式的数据挖掘技术便成为研究者手中的利器。

本文首先对数据挖掘技术中的三大经典算法进行原理描述,在此基础上,对这些算法近些年在交通领域中的热门应用进行综述和总结性分析。

1 数据挖掘三大经典算法概述

1.1 C4.5算法

C4.5算法是数据挖掘学科中用于机器自动分类的一种决策树学习算法,其基本思想是基于信息熵理论和树状分类规则构建样本属性与样本类别之间的映射关系[3-4]算法的前身是由著名机器学习专家Quinlan在1986年提出的ID3算法[5],采用递归分治的方式进行决策树的迭代构建。在构建过程中依据最优划分属性的属性值将当前层的样本集划分为若干子集。ID3算法基于信息熵理论选择当前样本集中具有最大信息增益的属性作为最优划分属性。然而,这种做法容易导致最优划分属性的选择偏向于取值较多的属性,为此,Quinlan又在1993年提出了ID3的改进算法——C4.5算法。与前者不同,C4.5算法采用信息增益率确定最优划分属性,以显著改进算法的泛化性能。此外,C4.5算法还能够对连续型属性及属性值空缺的情况进行处理,并且在树剪枝方面也采用了较为成熟的策略。图1所示为利用C4.5决策树算法进行分类决策的过程示例。图中描述的样本具有3个属性,包括天气(Outlook)、空气湿度(Humidity)、是否有风(Windy),以及1个决策类别(是否去打高尔夫)。

图1 基于C4.5决策树算法进行分类决策注:最左边的一条分类决策规则是:如果晴天且空气湿度不大于75,则可以去打高尔夫

1.2 K-Means算法

K-Means算法[6]是一种无监督学习算法,是数据挖掘学科中常用的聚类技术之一。它通过对样本内部分布特征进行归纳和描述(采用“类内相似性最大,类间相似性最小”的归类原则),将样本集自动划分成指定的k个类别。该算法最显著的特点是无需人工提前标定样本类别。基本思想:从样本集中随机选择k个样本,每个样本代表一个类中心。对剩余每个样本,根据其与各类中心之间的距离,将它指派到距离最相近的类中,然后计算各类新的类中心。不断重复上述过程,直至聚类函数收敛。聚类函数见式(1):

式中:E是数据集中所有样本的平方误差和;p是给定的样本向量;mi是类Ci的中心(均值)向量。K-Means算法简单,计算复杂度低,可扩展性强,得到了众多研究者的青睐。然而,它本质上是一种贪心算法,可能会收敛到“局部最优”,而且对初始中心点的选择较为敏感。此外,初始参数k需要人工设定。图2所示为利用K-Means算法进行聚类的示意图。

图2 K-Means算法聚类过程示意图

1.3 SVM算法

SVM(Support Vector Machine,SVM)算法[7]属于有监督学习算法范畴,是一种机器自动分类算法。该算法通过寻求结构化风险最小提高学习机的泛化能力,实现经验风险和置信范围最小化,实现在统计样本量较少的情况下依然能获得良好分类性能的目的。SVM算法对复杂的非线性决策边界的建模准确度极高,且不容易出现“过拟合”现象。缺点是训练时间较长,因此适合小样本分类问题。图3描述了利用SVM算法对样本进行分类的过程。