基于EP的数据流分类算法研究
发布时间:
>>>>郑州大学硕士学位论文
基于EP的数据流分类算法研究
姓名:陈崇超申请学位级别:硕士专业:计算机软件与理论
指导教师:范明20070501
郑州人学硕}学位论文
摘要
在信用卡欺诈监测、差异性营销、网络入侵检测和传感器网络等应用中,随着时间的更迭而生成一种新型的具有连续、有序、变化、快速到达、海量等特征的数据,即“数据流”,其数据量大且数据分布可能会发生变化(即概念漂移)。如何从海量的数据中训练模型来有效地预测未来的数据趋势,正是数据流上的分类算法所要解决的难点,同时也是一件非常有意义的工作。
分类是数据挖掘中的重要分支之一,在很多领域都具有广泛的应用。现在已有许多成熟的分类方法,如决策树、贝叶斯网络、神经网络、支持向量机等,但是在处理数据流时,仍然面临着新的挑战。近年来研究者们提出了几种数据流上的分类方法:VFDT和CVFDT、VFDTc、集成分类方法EnsembleClassifiers等。集成多个分类器的方法通常可以提高分类准确率,特别是基分类器具有一定的差异性时,它往往比单分类器的准确率高。Wang等人提出的集成方法以c4.5、
RIPPER、Naive
Bayesian分类为基分类器,而采用其他类型的算法作为基分类
器仍需进一步研究。而eEP具有良好的区分能力,并且基于eEP的分类算法可以与其他算法相媲美,同时基于eEP的分类方法已经成功地应用于DNA分析、文本
自动分类等领域。
基于以上考虑,本文提出一种基于eEP的数据流分类器集成算法CEEPCE。本文的主要工作是:在总结数据流的特性和分析基于eEP传统分类算法的算法思想的基础上,将基本窗口和滑动窗口的概念与eEP分类算法有机的结合以适应数据流的特性并解决概念漂移的问题;其次在分类器构造的过程中,提出了加权集
成分类器的思想;最后,在未知样本分类的过程中,结合数据流挖掘分析多考虑
最近最新数据的特点,对不同的基分类器赋予不同的权值,提出一种“基于分类误差的加权方法”来加权集成分类器,从而提高分类准确率。
实验对比和性能分析表明,本文提出的CEEPCE算法能较好的适应数据流的
概念漂移,并且具有较好的分类准确率,足以与以CA.5为基分类器的集成多分类器方法相媲美。
>>>>关键字:数据流挖掘,数据流,分类,显露模式
垒些!!型
塑型叁兰堡!兰竺丝塞
Abstract
Hugevolumesofdatastreams
are
therange
generatedatunprecedentedratesin
ofapplicationsincludingcreditcardfraudprotection,targetmarketing,networkin“1lsiOn
detection.∞nsornetwork,ere.The
datastreamsarecontinuous,ordered,
datadistributionislikelytobe
changing,fastandhuge
amount,meanwhile,its
changed,namelyconcept
predictthe
driftswillhappen.Howtotraintheclassificationmodelto
coming
datatrendeffectivelyis
all
just
about
one
difficulty
intheresearchof
datastreamclassificationandisalso
importanttask.
Classificationis
all
importanttaskinthedataminingdomainandthereare
as
such
comprehensiveapplications
credit
card
fraudprotection,targetmarketing,
network
intrusiondetection,ere.Thereexistsomeclassicalclassificationmethods
includingDecisionTree,Bayesianthey
are
network,NeuralNetworkand
as
SVM,etc,whereas,
facingnewchallengessuch
theoverwhelmingvolumeofthedatastreams
andthestream
concept
driftswhenprocessingdata
streams.During
theseyearsseveral
dataclassificationalgorithmsareproposedbysome
researchers,suchas
usuallyimprovethe
VFDT&CVFDT,VFDTcandEnsemble
classifiers,etc.We
carl
classification
whenhavingsome
accuracybyintegratingseveralclassifiers,especially
diversitybetweeneachby
twobaseclassifiers.Ensembleclassificationmethodproposed
on
Wang
etal
isbased
C4.5,RIPPER,NaiveBayesian,while
usingother
algorithms
as
baseclassifiersisstillrequiredtostudy.Aswe
thefavorablewith
know,eEP(essential
andEP-based
emergingpatterns,eEP)have