摘要:針對(duì)傳統(tǒng)基于鏈表結(jié)構(gòu)的Top-K高效用挖掘算法在大數(shù)據(jù)環(huán)境下不能滿足挖掘需求的問(wèn)題,提出一種基于Spark的并行化高效用項(xiàng)集挖掘算法(STKO)。首先從閾值提升、搜索空間縮小等方面對(duì)TKO算法進(jìn)行改進(jìn);然后選擇Spark平臺(tái),改變?cè)袛?shù)據(jù)存儲(chǔ)結(jié)構(gòu),利用廣播變量?jī)?yōu)化迭代過(guò)程,在避免大量重新計(jì)算的同時(shí)使用負(fù)載均衡思想實(shí)現(xiàn)Top-K高效用項(xiàng)集的并行挖掘。實(shí)驗(yàn)結(jié)果表明,該并行算法能有效地挖掘出大數(shù)據(jù)集中的高效用項(xiàng)集。
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社
國(guó)際刊號(hào):2096-7586
國(guó)內(nèi)刊號(hào):42-1907/C