摘要:社會(huì)計(jì)算中,社會(huì)公共安全、企業(yè)商務(wù)智能和輿情計(jì)算等眾多領(lǐng)域均對實(shí)時(shí)計(jì)算的性能提出了越來越高的要求.流式計(jì)算引擎作為大數(shù)據(jù)計(jì)算研究領(lǐng)域的研究熱點(diǎn)之一,致力于提供高吞吐量和低延遲的實(shí)時(shí)計(jì)算能力.流式處理任務(wù)對處理延遲非常敏感,數(shù)據(jù)價(jià)值隨著處理時(shí)長的增長而快速遞減.傳統(tǒng)流式計(jì)算引擎設(shè)計(jì)中,操作系統(tǒng)、JVM等占用大量計(jì)算資源,如何提升計(jì)算資源利用率成為目前亟待解決的問題.為此,本文提出了一種基于C++語言實(shí)現(xiàn)的支持Unikernel的高性能實(shí)時(shí)數(shù)據(jù)分析計(jì)算引擎Hummer.首先,通過引入U(xiǎn)nikernel機(jī)制,Hummer可繞過傳統(tǒng)操作系統(tǒng),直接運(yùn)行于裸機(jī)或虛擬化層,減少傳統(tǒng)操作系統(tǒng)無關(guān)組件帶來的性能開銷,支持分布式環(huán)境下的快速部署與啟動(dòng),為高性能大數(shù)據(jù)計(jì)算引擎設(shè)計(jì)提出新的思路.其次,通過使用Unikernel對計(jì)算引擎進(jìn)行封裝,解決了C++應(yīng)用需本地化編譯、難以在集群中部署的問題.最后,系統(tǒng)使用靈活的網(wǎng)絡(luò)通信方案,支持異構(gòu)網(wǎng)絡(luò)部署及網(wǎng)絡(luò)資源隔離.實(shí)驗(yàn)表明,Hummer端到端處理延遲低于30ms,較Flink系統(tǒng)低2倍,較Spark Streaming低15.8倍,且吞吐量達(dá)到Flink的2倍.使用Unikernel封裝的Hummer系統(tǒng)鏡像僅為100MB,啟動(dòng)時(shí)間約為2s.
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社