摘要:聚類是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)重要研究方向,在過去幾十年間,針對不同類型中小規(guī)模數(shù)據(jù)集聚類算法的研究取得了很大的進(jìn)展,許多行之有效的算法先后問世.然而,這些算法在處理大規(guī)模數(shù)據(jù)集時(shí),計(jì)算復(fù)雜度較高,處理高維數(shù)據(jù)的能力較弱,難以獲得令人滿意的效果.隨著大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)的采集和存儲(chǔ)變得相對容易和便捷,但數(shù)據(jù)量也與日俱增,因此,針對各種實(shí)際應(yīng)用的聚類問題應(yīng)運(yùn)而生,使得專門針對大規(guī)模數(shù)據(jù)集的聚類算法研究成為當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域的重要任務(wù)之一.本文以大規(guī)模數(shù)據(jù)集的可計(jì)算性為切入點(diǎn),對目前串行和并行計(jì)算環(huán)境下專門用于處理大規(guī)模數(shù)據(jù)集的聚類算法進(jìn)行綜述和分析,重點(diǎn)評述了串行計(jì)算環(huán)境下基于樣例選擇、增量學(xué)習(xí)、特征子集和特征轉(zhuǎn)換的聚類算法以及并行計(jì)算環(huán)境下基于MapReduce、Spark和Storm框架的聚類算法,給出了有關(guān)未來大規(guī)模數(shù)據(jù)集聚類算法設(shè)計(jì)思路與應(yīng)用前景的思考和討論,包括基于數(shù)據(jù)并行和訓(xùn)練過程自動(dòng)化的聚類算法設(shè)計(jì)策略及關(guān)于社交網(wǎng)絡(luò)大數(shù)據(jù)聚類算法的若干理解.
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社