摘要:隨著數(shù)據(jù)獲取設備的不斷進步和數(shù)據(jù)獲取技術的快速發(fā)展,如何分析和挖掘應用中快速產生的數(shù)據(jù)流成為亟待解決的問題.數(shù)據(jù)流的相似性連接返回兩個數(shù)據(jù)流上相似的數(shù)據(jù)對,是分析和挖掘數(shù)據(jù)流的重要操作.相比于Lp范式距離,例如曼哈頓距離和歐氏距離,EMD距離(Earth Mover’s Distance)因其可以更準確地量化直方圖元組之間的相似性而受到廣泛關注,被廣泛應用于解決基于內容的圖像檢索、冗余圖像識別以及視頻對象跟蹤等重要應用問題.然而EMD距離的計算復雜度卻高達三次方,阻礙了EMD距離在數(shù)據(jù)流相似性連接問題中的應用.該文基于開源的Apache Storm數(shù)據(jù)流分布式并行處理框架,設計并實現(xiàn)了基于EMD距離的數(shù)據(jù)流分布式相似性連接技術,命名為EMD-DDSJ技術.該技術在數(shù)據(jù)分發(fā)時維護了連接計算節(jié)點上的數(shù)據(jù)局部性,并基于該數(shù)據(jù)局部性增強了連接算法對不相似直方圖元組對間EMD計算的過濾性能,提高了各個連接計算節(jié)點的執(zhí)行效率.同時基于連接計算節(jié)點的代價模型,提出了基于反饋的負載均衡策略,有效提升EMD-DDSJ技術的整體執(zhí)行性能.在真實數(shù)據(jù)集上的實驗結果展示了該文提出的EMD-DDSJ技術的高效性和可擴展性,比相關最好的技術在處理吞吐率上最高提升了1.4倍,在元組平均處理延遲上最多降低了44%,并且隨著相似性閾值或滑動窗口大小的增大該提升比率還會進一步增大.
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社