時(shí)間:2022-05-21 10:59:00
序論:在您撰寫大數(shù)據(jù)分析畢業(yè)論文時(shí),參考他人的優(yōu)秀作品可以開闊視野,小編為您整理的1篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導(dǎo)您走向新的創(chuàng)作高度。
現(xiàn)代社會(huì)中,大數(shù)據(jù)來源豐富,使得交通、醫(yī)療衛(wèi)生、教育、安全等都發(fā)生了變化,而在智慧城體系中,監(jiān)控視頻是體量最大的大數(shù)據(jù)。基于此,我主要分享媒體大數(shù)據(jù)的三個(gè)挑戰(zhàn)問題。第一,存不下,24小時(shí)產(chǎn)生的數(shù)據(jù)量積累得很大。第二,看不清,用眼睛看,橫看豎看,還是看不清楚,可能有時(shí)候都要猜來猜去,還需要很有經(jīng)驗(yàn)的人才能看出來大概。為什么?存的時(shí)候做了壓縮,壓縮時(shí)不知將來作何用,為了節(jié)省存儲(chǔ)量,壓得太狠了,再把它解開時(shí)基本看不清。第三,找不到?,F(xiàn)在攝像頭到處都是,攝像頭拍到了,但是不是想要找的?不知道,即使看清楚了,一跨攝像頭也就找不到了。所以攝像機(jī)網(wǎng)絡(luò)跨攝像頭搜索問題也是個(gè)難題。
超高效視頻編碼
解決壓縮問題
第一個(gè)挑戰(zhàn),我們想辦法找到最高效的編碼來應(yīng)對(duì)這個(gè)挑戰(zhàn)。視頻流是圖像序列,在每個(gè)單獨(dú)的圖像里是有冗余的,通常叫“空間冗余”。相鄰的像素或圖像塊會(huì)有一些相關(guān)性,這些相關(guān)性即是“冗余”,這種冗余可以通過濾波器的算法進(jìn)行估算。如果參數(shù)對(duì)了,就可以用它去做預(yù)測,繼而找到一些更簡潔的表達(dá)方式,不需要那么多比特就可以壓縮了,這就是空間冗余。其次是“時(shí)間冗余”,即一個(gè)圖像序列,第一幀和第二幀有很多是連續(xù)的,背景幾乎是一樣的,它有很多東西是重復(fù)的,這個(gè)重復(fù)的就是冗余,我們管它叫“時(shí)間冗余”。第三種是“感知冗余”,行業(yè)里的人把它叫“編碼冗余”。比如26個(gè)字母要怎么表達(dá)?給出8個(gè)bit或7bit,每個(gè)字母給的bit是一樣的,學(xué)計(jì)算機(jī)的人都知道這種分法是不科學(xué)的,應(yīng)該怎么分?按照它的信息熵來分,圖像也是一樣,每個(gè)像素表達(dá)的亮度、顏色在每類里分布不均勻,最好把出現(xiàn)概率高的那些單體給它比較短的碼,把出現(xiàn)概率低的給長碼,統(tǒng)計(jì)上面就會(huì)比較合理,對(duì)此我們稱之為“熵編碼”。如果這三種用好了,就有辦法把圖像或視頻完美地壓縮下去。
現(xiàn)在圖像壓縮實(shí)際達(dá)到的現(xiàn)狀和理論有很大差別,但同時(shí)空間也很大。到現(xiàn)在為止,編碼技術(shù)離理論上限大概還有百分之八九十的空間可以改進(jìn),因?yàn)樵跀?shù)學(xué)上我們很容易證明理論上限,若干個(gè)上限中可以取最低的上限,就很容易計(jì)算出有多大空間可以繼續(xù)改進(jìn)。這就是為什么視頻編碼領(lǐng)域這些年還在不停地發(fā)展,并且,每十年編碼效率就會(huì)提高1倍。
在這樣每十年翻一番的情況下,算法變得更復(fù)雜了,計(jì)算的復(fù)雜度換取了編碼的效率。當(dāng)然,這里有很多新的算法,以前因?yàn)橛布容^貴,不能讓編碼的器件成本太高,所以有些算法還行,只要算法太復(fù)雜就基本不用?,F(xiàn)在不在乎這個(gè),因?yàn)榧呻娐钒l(fā)展以后,算法愈來愈多,編碼放進(jìn)去后視頻效果會(huì)越來越好。針對(duì)監(jiān)控視頻我們會(huì)有更好的方法,使它的效率更高。
從編碼的角度,去空間冗余、去時(shí)間冗余和去編碼冗余這三種技術(shù)可以把視頻流里的冗余去掉,這三種技術(shù)包含了許多算法,有變換、濾波、運(yùn)動(dòng)補(bǔ)償、熵編碼等。去空間冗余最主要的工具是變化,把時(shí)域變到頻域上再進(jìn)行處理,對(duì)于空間的冗余主要是采用預(yù)測編碼的方式去除,對(duì)于感知主要是通過熵編碼去除。
面向?qū)ο髾z測、跟蹤與識(shí)別解決模式識(shí)別問題
第二個(gè)挑戰(zhàn),對(duì)象檢測、跟蹤識(shí)別挑戰(zhàn)。模式識(shí)別率再高、人臉識(shí)別再準(zhǔn),識(shí)別的準(zhǔn)和不準(zhǔn)取決于算法的好壞,還取決于在編碼那端能不能提供支持。以往這兩個(gè)系統(tǒng)像軌道一樣完全平行,我們希望編碼和識(shí)別能合作,把中間那堵墻翻過去或者拆掉。怎么拆掉?編碼時(shí)要考慮怎么辦?,F(xiàn)在我們提出個(gè)支持是ROI(Region of Internet),就是編碼時(shí)識(shí)別出來哪個(gè)區(qū)域可能是識(shí)別要用的區(qū)域,把這個(gè)區(qū)域定義成感興趣區(qū)域,對(duì)于感興趣區(qū)域要描繪出來,現(xiàn)在語法里對(duì)感興趣區(qū)域有專門的描述,除了這個(gè)區(qū)域以外還包括其他的,比如GPS信息、攝像機(jī)參數(shù)信息。有了這個(gè)以后,在后面編碼時(shí),會(huì)針對(duì)編碼參數(shù)進(jìn)行調(diào)整,ROI區(qū)域壓得輕一點(diǎn),這樣關(guān)鍵的信息丟失的會(huì)少一點(diǎn)。
有了這樣的知識(shí),可以用它架構(gòu)友好的智能監(jiān)控識(shí)別體系。現(xiàn)在即使有個(gè)算法很好,比如266,它編碼的效率和AVS2是一樣的,我說那也不行,為什么?因?yàn)槟銐和暌院筮€有解,解的時(shí)候才知道哪個(gè)地方是可識(shí)別的?,F(xiàn)在壓的時(shí)候就知道哪個(gè)東西有用,哪個(gè)東西沒有用,有用的可以壓得輕一點(diǎn),這樣構(gòu)建分析架構(gòu),底層是完全的視頻流,視頻流上面可以構(gòu)架一個(gè)區(qū)域描述,不是有ROI么,這個(gè)“R”就是Region,根據(jù)區(qū)域描述,若干的區(qū)域構(gòu)成個(gè)對(duì)象,它們的關(guān)聯(lián)就可以構(gòu)成事件,只要處理能力足夠強(qiáng),我就把這個(gè)東西表述出來了,這對(duì)識(shí)別非常有用。
以大規(guī)模視覺搜索
解決跨攝像頭搜索問題
第三個(gè)挑戰(zhàn),跨攝像頭怎么辦?我們可以對(duì)跨攝像頭的數(shù)據(jù)進(jìn)行矯正,然后再進(jìn)行一些后續(xù)的工作。這方面有很多工作已經(jīng)開始做了,比如我們?cè)囼?yàn)室學(xué)生搭了一個(gè)系統(tǒng),你在北大校園的一個(gè)地方走,其他幾個(gè)框是別的幾個(gè)攝像頭,從一個(gè)攝像頭跨到另外一個(gè)攝像頭的時(shí)候,現(xiàn)在有一個(gè)專門技術(shù)是再認(rèn)證,一個(gè)人在一個(gè)攝像頭里出現(xiàn)過,當(dāng)他出現(xiàn)在第二個(gè)攝像頭的時(shí)候,就可以被識(shí)別出來。因?yàn)橛袝r(shí)候可能不是正臉,靠人臉識(shí)別已經(jīng)不管用了,就要靠顏色、身體、步態(tài)、外形等綜合識(shí)別。
要做好這個(gè)系統(tǒng)有一個(gè)重要的技術(shù)是能做到大規(guī)模的搜索。大規(guī)模的搜索這一塊我們組有個(gè)很好的工作叫CDVS,它可以用很少的特征去搜索你要的東西,比如我用手機(jī)拍一張照片或者拍一個(gè)景色,拍完以后傳送到服務(wù)器,搜索后會(huì)告訴你拍的是哪里。這個(gè)過程它需要你的特征選得非常好、非常準(zhǔn),然后有代表性,這樣才能搜索得比較準(zhǔn)。
可以用一組特征,這組特征我們把它命名叫“CDVS”,CD是一個(gè)緊縮的描述詞,就是面向視覺搜索的緊縮描述詞,這也是在國際標(biāo)準(zhǔn)化框架下面做的。前一段時(shí)間有個(gè)多媒體描述標(biāo)準(zhǔn)是MEPG7。
這里面的關(guān)鍵技術(shù),一個(gè)是選擇特征點(diǎn),然后是選擇特征,把這些特征進(jìn)行聚合、壓縮、進(jìn)行點(diǎn)壓縮,最后變得非常小。舉例來說有多小,比如你照了個(gè)照片,這個(gè)照片有三、四兆大的尺寸,我們從中提出來大概500個(gè)bit,連1k都不到,就可以進(jìn)行搜索了,最高可以到16k,16k檢索的效率就更高,我們判斷特征好不好是用召回率來判斷,我們都希望召回率達(dá)到90%,低于90%就認(rèn)為這個(gè)特征沒有選好。什么叫召回率90%?我用完整的照片到庫里搜出來的東西,和我用521個(gè)去搜,是不是有90%都在我搜的100個(gè)里面,如果是的話那你這個(gè)特征是可以的,這是一個(gè)準(zhǔn)則。
后臺(tái)的技術(shù)會(huì)涉及到數(shù)據(jù)壓縮、計(jì)算機(jī)視覺特征提取以及機(jī)器學(xué)習(xí)和視覺挖掘。和特征、視覺有關(guān)的主要是局部描述,模式識(shí)別里有個(gè)非常好的描述詞叫“SIFT特征”,它可以保持平移不變、旋轉(zhuǎn)不變、伸縮尺度不變等。但是這個(gè)特征也有問題,一個(gè)是專利問題,另一個(gè)是耗費(fèi)存儲(chǔ)比較大,耗費(fèi)計(jì)算時(shí)間比較大。
[摘 要]大數(shù)據(jù)時(shí)代對(duì)人類的生活、工作與思維產(chǎn)生變革性影響,深刻改變著商業(yè)及各個(gè)領(lǐng)域的面貌,“大數(shù)據(jù)”日漸成為各行業(yè)創(chuàng)新的助推器。作為煤炭行業(yè)也同樣順應(yīng)時(shí)代,跟著時(shí)代的步伐前行,那么綜采工作面又是煤炭行業(yè)發(fā)展的充分體現(xiàn),更需要大量的數(shù)據(jù)分析,形成一套完整的、統(tǒng)一的管理系統(tǒng),當(dāng)前國內(nèi)綜采工作面復(fù)雜,數(shù)據(jù)記錄不完善、分析不統(tǒng)一,對(duì)綜采工作面的采煤機(jī)、支護(hù)形式等的選擇不能達(dá)到最優(yōu)化,所以綜采工作面的大數(shù)據(jù)分析尤為重要。
[關(guān)鍵詞]綜采工作面 數(shù)據(jù)分析
1.引言:本文主要從綜采工作面大數(shù)據(jù)的支撐下如何選擇綜采“三機(jī)”(三機(jī)指采煤機(jī)、刮板機(jī)、液壓支架)展開探討,綜采工作面“三機(jī)”配套不能停留在簡單的“經(jīng)驗(yàn)類比”上,而應(yīng)開發(fā)研制綜采設(shè)備選型的大數(shù)據(jù)系統(tǒng),避免在選型設(shè)計(jì)中受決策者個(gè)人偏見或感情色彩的影響。同時(shí)還要對(duì)系統(tǒng)中的主要環(huán)節(jié)進(jìn)行動(dòng)態(tài)優(yōu)化設(shè)計(jì),使其設(shè)計(jì)參數(shù)與實(shí)際運(yùn)行參數(shù)得到統(tǒng)一。目前的綜采工作面“三機(jī)”選型設(shè)計(jì)還是以“經(jīng)驗(yàn)類比”為主,雖然基本上能夠滿足生產(chǎn)需要,但在某些環(huán)節(jié)上還存在著嚴(yán)重的不合理現(xiàn)象。
2.綜采工作面大數(shù)據(jù)分析影響著綜采“三機(jī)”的合理配套選擇
2.1 采煤機(jī)的機(jī)型選擇
采煤機(jī)機(jī)型選擇之前要考慮一下數(shù)據(jù):首先考慮地質(zhì)條件,主要包括綜采工作面內(nèi)斷層斷距、走向、煤層傾角、煤質(zhì)硬度等判斷是否具備選擇采煤機(jī)的條件,在地質(zhì)條件適合綜采的情況下再考慮其他因素如采高、每月計(jì)劃產(chǎn)量、每刀生產(chǎn)能力、截深、功率、牽引方式,實(shí)際生產(chǎn)能力主要取決于采高、截深、牽引速度以及工作時(shí)間利用系數(shù)。采高由滾筒直徑、調(diào)高形式和搖臂擺角等決定,滾筒直徑是滾筒采煤機(jī)采高的主要調(diào)節(jié)變量,每種采煤機(jī)都有幾種滾筒直徑供選擇,滾筒直徑應(yīng)滿足最大采高及臥底量的要求。截深的選取與煤層厚度、煤質(zhì)軟硬、頂板巖性以及移架步距有關(guān)。截割速度是指滾筒截齒齒尖的圓周切線速度,由截割部傳動(dòng)比、滾筒轉(zhuǎn)速和滾筒直徑確定,對(duì)采煤機(jī)的功率消耗、裝煤效果、煤的塊度和煤塵大小等有直接影響。牽引速度的初選是通過滾筒最大切削厚度和液壓支架移架追機(jī)速度驗(yàn)算確定。牽引力是由外載荷決定的,其影響因素較多,如煤質(zhì)、采高、牽引速度、工作面傾角、機(jī)身自重及導(dǎo)向機(jī)構(gòu)的結(jié)構(gòu)和摩擦系數(shù)等,沒有準(zhǔn)確的計(jì)算公式,一般取采煤機(jī)電機(jī)功率消耗的10%~25%。滾筒采煤機(jī)電機(jī)功率常用單齒比能耗法或類比法計(jì)算,然后參照生產(chǎn)任務(wù)及煤層硬度等因素確定。
2.2 刮板機(jī)的選擇
在選型時(shí)要確定的刮板輸送機(jī)的參數(shù)主要包括輸送能力、電機(jī)功率和刮板鏈強(qiáng)度等。輸送能力要大于采煤機(jī)生產(chǎn)能力并有一定備用能力,輸送能力應(yīng)大于采煤機(jī)的最大生產(chǎn)能力,一般取1.2倍;電機(jī)功率主要根據(jù)工作面傾角、鋪設(shè)長度及輸送量的大小等條件確定;刮板鏈的強(qiáng)度應(yīng)按惡劣工況和滿載工況進(jìn)行驗(yàn),要根據(jù)刮板鏈的質(zhì)量情況確定鏈條數(shù)目,結(jié)合煤質(zhì)硬度選擇鏈子結(jié)構(gòu)型式。
2.3 液壓支架的選擇
液壓支架的選型就是要確定支架類型(支撐式、掩護(hù)式、支撐掩護(hù)式)、支護(hù)阻力(初撐力和額定工作阻力)、支護(hù)強(qiáng)度與底板比壓以及支架的結(jié)構(gòu)參數(shù)(立柱數(shù)目、最大最小高度、頂梁和底座的尺寸及相對(duì)位置等)及閥組性能和操作方式等。此外還要考慮礦井采區(qū)工作面的煤層、頂?shù)装寮暗刭|(zhì)條件數(shù)據(jù),依據(jù)不同類級(jí)頂板選取架型。
液壓支架具備最基本的特點(diǎn)是(1)要頂?shù)米。核某鯎瘟凸ぷ髯枇σm應(yīng)直接和老頂巖層移動(dòng)所產(chǎn)生的壓力,使控頂區(qū)的頂板下沉量限制到最小程度;(2)要移得走:它的結(jié)構(gòu)形式和支護(hù)特性要適應(yīng)直接頂下部的巖層冒落特點(diǎn),尤其要注意頂板在暴露后未支護(hù)下的破碎狀態(tài),要盡量保持該處頂板的完整性,支架底座的比壓要適應(yīng)底板巖石的抗壓強(qiáng)度,以防止底板松軟而使底板下陷不能移架。
2.4 “三機(jī)”合理配套選擇工程復(fù)雜
從采煤機(jī)、液壓支架、刮板輸送機(jī)的選型參數(shù)中看到,綜采設(shè)備的合理配套是很復(fù)雜的系統(tǒng)工程。滿足生產(chǎn)能力要求采煤機(jī)生產(chǎn)能力要與綜采工作面的生產(chǎn)任務(wù)相適應(yīng),工作面刮板輸送機(jī)的輸送能力應(yīng)大于采煤機(jī)的生產(chǎn)能力,液壓支架的移架速度應(yīng)與采煤機(jī)的牽引速度相適應(yīng),而乳化液泵站輸出壓力與流量應(yīng)滿足液壓支架初撐力及其動(dòng)作速度要求;滿足設(shè)備性能要求輸送機(jī)的結(jié)構(gòu)形式及附件必須與采煤機(jī)的結(jié)構(gòu)相匹配,如采煤機(jī)的牽引機(jī)構(gòu)、行走機(jī)構(gòu)、底托架及滑靴的結(jié)構(gòu),電纜及水管的拖移方法以及是否連鎖控制等。輸送機(jī)的中部槽應(yīng)與液壓支架的推移千斤頂連接裝置的間距和連接結(jié)構(gòu)相匹配;采煤機(jī)的采高范圍與支架的最大和最小結(jié)構(gòu)尺寸相適應(yīng),而其截深應(yīng)與支架推移步距相適應(yīng)。如果綜采沒有大量數(shù)據(jù)的支持,“三機(jī)”的合理選擇無從下手。如下圖三機(jī)配套關(guān)系圖(見圖1)
3.綜采工作面大數(shù)據(jù)分析的意義
3.1 經(jīng)濟(jì)效益方面
工作面生產(chǎn)前期需要決策“三機(jī)”選擇,不同的決策者往往站在自己的專業(yè)領(lǐng)域考慮設(shè)備,這樣在缺乏綜合數(shù)據(jù)分析下往往造成“三機(jī)”設(shè)備不配套,不僅會(huì)造成大量資金的浪費(fèi),短時(shí)間內(nèi)不能滿足高產(chǎn)高效,又影響煤礦企業(yè)經(jīng)濟(jì)效益。
3.2 安全生產(chǎn)方面
井下作業(yè)條件特殊,尤其是工作面,時(shí)刻都面臨著危險(xiǎn),如果沒有工作面大量數(shù)據(jù)分析的支持,錯(cuò)誤的選擇“三機(jī)”,不能很好的配合工作,這樣很可能會(huì)造成液壓支架支撐不住頂板壓力而造成頂板事故,工作面進(jìn)度跟不上可能會(huì)誘發(fā)火災(zāi)、一氧化碳等事故,還有“三機(jī)”的機(jī)械故障也容易造成人員傷害等等。
小結(jié)
綜采工作面既包括包括靜態(tài)因素,井下溫度、頂板淋水、頂板松軟、底板松軟、斷層、瓦斯、煤層厚度、傾角等是靜態(tài)因素,又包括動(dòng)態(tài)因素,頂板狀態(tài)隨著采煤速度、采高以及支架的狀態(tài)隨時(shí)變化,頂板的初次來壓、周期來壓,受采動(dòng)影響活化上部斷層、巖層等等,大量的數(shù)據(jù)需要綜合分析,才能總結(jié)出本地區(qū)綜采工作面綜采“三機(jī)”配套設(shè)備的形式、型號(hào)及技術(shù)特征,并提出了三機(jī)配套優(yōu)選方案及注意事項(xiàng),而在實(shí)際生產(chǎn)中,即使采用相同綜采設(shè)備的不同工作面或不同礦井,其實(shí)際生產(chǎn)能力和全員效率可能有較大差距,如果客觀條件不具備,即使選擇生產(chǎn)能力很高的配套設(shè)備,也遠(yuǎn)不能達(dá)到提高生產(chǎn)能力的目的。高產(chǎn)高效綜采工作面的三機(jī)選型應(yīng)從實(shí)際出發(fā),因地制宜,以數(shù)據(jù)分析為基礎(chǔ),具備什么檔次的開采條件,就選用相應(yīng)檔次的配套設(shè)備。
實(shí)際工作中如何做到選型正確、先進(jìn)配套、合理的“三機(jī)”選型,大數(shù)據(jù)分析可以起到非常重要的作用,但是大數(shù)據(jù)分析工作也是一項(xiàng)復(fù)雜的系統(tǒng)工程,涉及地質(zhì)學(xué)、巖石力學(xué)、采礦學(xué)、機(jī)電和機(jī)制等多門學(xué)科以及各種現(xiàn)場數(shù)據(jù),這就需要我們煤炭工作人員共同努力,將工作面大數(shù)據(jù)分析應(yīng)用到礦山行業(yè),減少輔助作業(yè)環(huán)節(jié),提高集中生產(chǎn)化的程度。
摘 要隨著科技的發(fā)展,公有云的需求越來越廣泛。本文對(duì)天津市教育信息化公有云及大數(shù)據(jù)分析平臺(tái)進(jìn)行了設(shè)計(jì)與研究。
【關(guān)鍵詞】公有云 平臺(tái)設(shè)計(jì) 大數(shù)據(jù)
1 項(xiàng)目背景
1.1 公有云平臺(tái)技術(shù)背景
從部署方式來看,云計(jì)算一般分為公有云、私有云和混合云三大類。其中公有云是指運(yùn)營者建設(shè)用以提供給外部非特定用戶的公共云服務(wù)平臺(tái);私有云平臺(tái)僅為單一客戶提供服務(wù),其數(shù)據(jù)中心軟硬件的所有權(quán)為客戶所有,能夠根據(jù)客戶的特定需求在設(shè)備采購、數(shù)據(jù)中心構(gòu)建方面做定制,并滿足在合規(guī)性方面的要求。
1.2 國內(nèi)發(fā)展趨勢
包括中央電教館在內(nèi)的國內(nèi)各大政府機(jī)構(gòu)和省級(jí)政府,都在致力或傾向于將大型應(yīng)用類業(yè)務(wù)向社會(huì)公有云/混合云轉(zhuǎn)移。謀求更高效率、更低成本、更及時(shí)服務(wù)和更安全環(huán)境的云平臺(tái)托管,是當(dāng)今信息化系統(tǒng)服務(wù)的發(fā)展趨勢。尋求廣泛的服務(wù)托管、安全托管和運(yùn)維托管是大勢所趨。
1.3 天津市教育數(shù)據(jù)資源中心的現(xiàn)狀
經(jīng)過“十一五”、“十二五”兩期建設(shè),隨著信息中心工作的不斷發(fā)展,當(dāng)前數(shù)據(jù)中心的數(shù)據(jù)量比“十一五”翻了兩番,運(yùn)維工作量更是翻了數(shù)番,這對(duì)數(shù)據(jù)中心運(yùn)維人員的安全運(yùn)維能力也提出了前所未有的高要求。目前,中心機(jī)房和工大機(jī)房的承載能力已接近飽和,結(jié)合國際和國內(nèi)信息化的發(fā)展趨勢看,未來單靠單個(gè)IDC數(shù)據(jù)中心已經(jīng)難以滿足未來天津市教育信息化發(fā)展需求。參照中央電教館等云平臺(tái)系統(tǒng)運(yùn)維模式,我市教育信息化的發(fā)展迫切需要社會(huì)上有實(shí)力的企業(yè)建設(shè)的混合云解決方案,需要更加專業(yè)的團(tuán)隊(duì),協(xié)助完成“十三五”各類海量資源類系統(tǒng)的承載工作,進(jìn)一步助力我市教育系信息化工作上一個(gè)新臺(tái)階。
2 項(xiàng)目目標(biāo)及分項(xiàng)需求
2.1 項(xiàng)目建設(shè)目標(biāo)
本方案擬建設(shè)如下混合云模式:即由天津市教委教育信息化管理中心IDC機(jī)房構(gòu)建未來各類系統(tǒng)的核心數(shù)據(jù)庫、統(tǒng)一身份認(rèn)證平臺(tái)和數(shù)據(jù)分析和統(tǒng)計(jì)平臺(tái),由公有云企業(yè)提供公有云業(yè)務(wù)承載空間,負(fù)責(zé)提供海量視頻和圖片文件優(yōu)化存儲(chǔ)、對(duì)外、信息安全和數(shù)據(jù)災(zāi)備服務(wù)。公有云服務(wù)提供商需提供不少于三個(gè)異地災(zāi)難備份數(shù)據(jù)中心,提供24小時(shí)不間斷同步和異步災(zāi)備服務(wù)。
2.2 云平臺(tái)服務(wù)需求
云平臺(tái)提供方應(yīng)該參照本需求,提供整體的云平臺(tái)解決方案,包含云主機(jī)、關(guān)系型數(shù)據(jù)庫、非關(guān)系型數(shù)據(jù)庫、簡單緩存服務(wù)、負(fù)載均衡、內(nèi)容分發(fā)網(wǎng)絡(luò)、對(duì)象存儲(chǔ)、大數(shù)據(jù)平臺(tái)服務(wù)、多媒體平臺(tái)服務(wù)、云安全服務(wù)、帶寬等方面。
相關(guān)術(shù)語如下解釋:
云主機(jī):是一種簡單高效、安全可靠、處理能力可彈性伸縮的計(jì)算服務(wù)。用戶無需提前購買硬件,即可迅速創(chuàng)建或釋放任意多臺(tái)云服務(wù)器,有效降低IT成 本,提升運(yùn)維效率,為用戶快速構(gòu)建穩(wěn)定可靠的應(yīng)用,降低網(wǎng)絡(luò)規(guī)模計(jì)算的難度,使用戶更專注于核心業(yè)務(wù)創(chuàng)新
非關(guān)系型數(shù)據(jù)庫:數(shù)據(jù)庫中的非關(guān)系型數(shù)據(jù)庫,通常情況下指支持NoSQL的數(shù)據(jù)庫服務(wù)或者云數(shù)據(jù)庫,提供高效、實(shí)時(shí)、穩(wěn)定的數(shù)據(jù)檢索服務(wù)。
大數(shù)據(jù)平臺(tái)服務(wù):通過對(duì)數(shù)據(jù)收集、存儲(chǔ)、變形、分析等過程,結(jié)合公有云分布式并行計(jì)算集群、機(jī)器學(xué)習(xí)集群、數(shù)據(jù)倉庫聯(lián)機(jī)分析集群實(shí)現(xiàn)數(shù)據(jù)智能推薦、應(yīng)用定制開發(fā)、在線報(bào)表等需求。
3 項(xiàng)目建設(shè)技術(shù)路線及實(shí)現(xiàn)手段
3.1 公有云平臺(tái)技術(shù)路線及實(shí)現(xiàn)
公有云廠商核心基礎(chǔ)架構(gòu)需具備10年以上的技術(shù)積累,需有上萬名國內(nèi)頂尖技術(shù)專家,并具有多款國內(nèi)領(lǐng)先互聯(lián)網(wǎng)產(chǎn)品的經(jīng)驗(yàn)。公有云廠商需在數(shù)據(jù)中心技術(shù),網(wǎng)絡(luò)技術(shù),安全技術(shù),分布式存儲(chǔ)技術(shù),大數(shù)據(jù)處理能力方面有豐富的經(jīng)驗(yàn),形成了領(lǐng)先的技術(shù)能力和平臺(tái)。
3.2 上線安檢服務(wù)技術(shù)路線及實(shí)現(xiàn)
根據(jù)上線安檢服務(wù)需求內(nèi)容,制定內(nèi)容檢查清單,逐一進(jìn)行核對(duì)和檢查,確保系統(tǒng)正常上線。
3.3 多網(wǎng)絡(luò)帶寬服務(wù)、CDN服務(wù)技術(shù)路線及實(shí)現(xiàn)
當(dāng)用戶訪問天津教委云平臺(tái)時(shí),瀏覽器將DNS域名解析請(qǐng)求發(fā)至本地DNS,本地DNS如果有緩存結(jié)果就直接返回IP,否則解析請(qǐng)求最終會(huì)到達(dá)CDNDNS服務(wù)器,它會(huì)根據(jù)本地DNS IP返回一個(gè)離用戶最近的CDN邊緣節(jié)點(diǎn)的IP給用戶。
4 項(xiàng)目部署與實(shí)施
項(xiàng)目建設(shè)、系統(tǒng)部署和實(shí)施的具體時(shí)間安排如表1。
5 驗(yàn)收指標(biāo)
驗(yàn)收的內(nèi)容包括以下幾個(gè)部分:
(1)驗(yàn)收內(nèi)容一般包括軟件驗(yàn)收(按功能要求的可執(zhí)行軟件、開發(fā)計(jì)劃文檔、 詳細(xì)設(shè)計(jì)文檔、質(zhì)量保證計(jì)劃、設(shè)備相應(yīng)附件、設(shè)備運(yùn)行、網(wǎng)絡(luò)運(yùn)行等);
(2)驗(yàn)收評(píng)測工作主要包括:文檔分析、方案制定、現(xiàn)場測試、問題單提交、測試報(bào)告;
(3)驗(yàn)收測試內(nèi)容主要包括:功能度、安全可靠性、易用性、可擴(kuò)充性、兼容性、效率、資源占用率、用戶文檔;
(4)文檔驗(yàn)收標(biāo)準(zhǔn)一般包括:文檔完備性、內(nèi)容針對(duì)性、內(nèi)容充分性、內(nèi)容一致性、文字明確性、圖表詳實(shí)性、易讀性、文檔價(jià)值等;
(5)軟件、硬件驗(yàn)收標(biāo)準(zhǔn)要符合國家和相關(guān)標(biāo)準(zhǔn)。
智慧城市建設(shè)中,盡管我們布設(shè)了很多攝像頭,但在多媒體數(shù)據(jù)處理方面還存在一些問題和挑戰(zhàn),需要理論、系統(tǒng)、技術(shù)等多領(lǐng)域?qū)<夜餐瑓f(xié)同,才能真正實(shí)現(xiàn)城市“智慧”。
智慧城市建設(shè)涉及多個(gè)領(lǐng)域、不同層面的數(shù)據(jù)資源獲取、處理和分析。這些數(shù)據(jù)應(yīng)用于醫(yī)療衛(wèi)生,能夠?qū)崿F(xiàn)精準(zhǔn)醫(yī)療;數(shù)據(jù)應(yīng)用于教育行業(yè),可以實(shí)施個(gè)性化教學(xué);而城市監(jiān)控?cái)?shù)據(jù)為城市管理者所用,能夠提升管理效率、改善民生服務(wù)。
目前,以北京為例,覆蓋全城、多點(diǎn)布局的攝像頭數(shù)量達(dá)2000萬之多,而這些攝像頭捕捉到的數(shù)據(jù)信息往往是在“睡大覺”。一般1~2個(gè)星期、最多1~2個(gè)月為一個(gè)周期, 過往信息就會(huì)被覆蓋掉。
如何從這些信息中抓取有用數(shù)據(jù)、扔掉無用數(shù)據(jù),是我們當(dāng)前面臨的難題。這類音視頻多媒體數(shù)據(jù)要真正實(shí)現(xiàn)有效應(yīng)用,面臨三大挑戰(zhàn),即“存不下”、“看不清”、“找不到”。
優(yōu)化編碼技術(shù)研究
這三大挑戰(zhàn)背后對(duì)應(yīng)的技術(shù)問題是指我們的編碼算法技術(shù)還有提升的潛力和空間。
一方面,隨著攝像頭數(shù)量不斷增加,獲取的信息量不斷增長,可能導(dǎo)致“存不下”這一問題;另一方面,計(jì)算機(jī)識(shí)別圖像與我們?nèi)搜劭礀|西不同,需要較高的清晰度。目前,我們城市攝像頭的數(shù)量基本已達(dá)到5米或10米一個(gè),但人臉識(shí)別率還是較低,就存在“看不清”的問題。此外,攝像頭物理參數(shù)的不同也會(huì)導(dǎo)致出現(xiàn)這一現(xiàn)象:我們?nèi)庋劭茨橙藦腁點(diǎn)走到B點(diǎn),A點(diǎn)攝像頭捕捉到這個(gè)人,但到了B點(diǎn)可能就“找不到”了,這就存在跨攝像頭搜索的問題。
針對(duì)這三個(gè)問題,我們需要三種不同的技術(shù)來應(yīng)對(duì)它。
針對(duì)“存不下”問題,我們需要從更新編碼技術(shù)這個(gè)思路去尋找破解之道。高效視頻編碼是應(yīng)對(duì)這一問題的直接技術(shù)手段。因?yàn)閿?shù)字視頻其實(shí)是一個(gè)數(shù)字圖像序列,數(shù)字圖像表現(xiàn)的是數(shù)字信號(hào),而數(shù)字信號(hào)我們可以對(duì)其進(jìn)行處理。經(jīng)過分析,我們發(fā)現(xiàn)數(shù)字圖像序列中有三類信息冗余,一是時(shí)間冗余,二是空間冗余,三是感知冗余,當(dāng)然也有知識(shí)冗余等其他冗余。如果我們能夠把這些冗余擠掉,就能更有效地壓縮數(shù)字視頻。
針對(duì)不同類別的冗余,我們必須采用不同的方法。理論上,我們通過矩陣運(yùn)算或通過矩陣分析可以找到視頻編碼的上界即最大壓縮程度。例如,針對(duì)2000×2000像素這樣尺寸的圖像,理論上我們能壓縮2000倍,即壓縮到2000:1,但實(shí)際上我們能做到的是600:1,中間還有很大空間,需要采用各種不同技術(shù)來突破。
編碼技術(shù)變革
1993年第一代編碼技術(shù)通過優(yōu)化能把高清視頻壓縮到了1/75,2003年第二代編碼技術(shù)把編碼性能提高了一倍,2013年有了第三代編碼技術(shù),壓縮能力又提升了一倍。以此類推,2023年將產(chǎn)生第四代編碼技術(shù),其壓縮能力將達(dá)到1/600。我們把這種規(guī)律視為編碼領(lǐng)域的摩爾定律,十年性能翻一番。
其實(shí),從第一代到第三代編碼技術(shù),都是遵循最基本的編碼框架結(jié)構(gòu),即從視頻信號(hào)進(jìn)來,切成塊變換處理,再進(jìn)行濾波運(yùn)能估計(jì)。但基于這一架構(gòu),編碼性能卻能十年翻一番。如何實(shí)現(xiàn)?主要是采用多種數(shù)學(xué)工具,如預(yù)測編碼、算術(shù)編碼等,或者多種工具混合利用使得編碼效率不斷提升。通過觀察分析,我們看到,在三代編碼技術(shù)不斷演變過程中,真正的變化是在預(yù)測與運(yùn)動(dòng)估計(jì)這一項(xiàng)上,每一代都不一樣。這也會(huì)給我們提供啟發(fā),為尋找更高的編碼效率,預(yù)測與運(yùn)動(dòng)應(yīng)該是我們關(guān)注的重點(diǎn)。那么,為何預(yù)測可以得到更高的編碼效率?因?yàn)轭A(yù)測主要解決的是空域冗余,隨著時(shí)間推移,它一幀一幀往前處理。我們知道圖像處理中很多東西不變化,這些不變化有效利用起來,就能獲得較高的編碼效率。
以監(jiān)控視頻為例,一般而言,在會(huì)議活動(dòng)中,演講人只有身體會(huì)偶爾搖動(dòng);在自然環(huán)境中,整片森林除了每天光照變化、葉子生長變化,其他都基本不變。因此,如果針對(duì)這些不變的因素實(shí)現(xiàn)建模,就能獲得很高的編碼效率。
因此,針對(duì)視頻監(jiān)控應(yīng)用,我們提出了背景建模技術(shù),通過背景建波計(jì)算出背景模型,之后做預(yù)測時(shí),用這套模型去做計(jì)算效率就會(huì)很高。在國際三個(gè)主流編碼技術(shù)團(tuán)隊(duì)中,中國技術(shù)團(tuán)隊(duì)在這一領(lǐng)域作出了較大貢獻(xiàn),并已有了實(shí)際應(yīng)用。
AVS2有效提升編碼效率
從性能上來看,以數(shù)字視頻廣播應(yīng)用為例,中國超高清標(biāo)準(zhǔn)AVS2與目前H.265標(biāo)準(zhǔn)性能相當(dāng),而以監(jiān)控視頻應(yīng)用為例,AVS2標(biāo)準(zhǔn)相比H.265標(biāo)準(zhǔn),性能為\41.77%,即碼率節(jié)省了41.77,性能提升了一倍。
對(duì)于監(jiān)控視頻而言,AVS2已經(jīng)邁入新時(shí)代。
2015年1月,廣電總局廣播電視、計(jì)量檢測中心針對(duì)AVS2標(biāo)準(zhǔn)和H.265標(biāo)準(zhǔn)專門做了一個(gè)對(duì)比實(shí)驗(yàn),并得出這樣的結(jié)論:AVS做超高清視頻很有優(yōu)勢。對(duì)比視頻編碼標(biāo)準(zhǔn)HEVC,圖像質(zhì)量下降的平均值是:AVS2為2.9%,HEVC為3%。一般而言,下降的值越低越好,這也表明了AVS2的優(yōu)勢。
目前,已經(jīng)有一些主流企業(yè)開始布局,準(zhǔn)備用AVS2進(jìn)軍全球市場。而AVS2能夠有效提高編碼效率和精度,能夠應(yīng)對(duì)我們提到的第一個(gè)挑戰(zhàn)――“存不下”。
針對(duì)“看不清”即識(shí)別不準(zhǔn)這一問題,傳統(tǒng)的做法是產(chǎn)生編碼和識(shí)別編碼是完全平行的兩套,彼此不通氣。通過背景建模技術(shù),可以在編碼時(shí)把前景測出來,這樣的好處是可以進(jìn)行分析、識(shí)別、提取。具體如何實(shí)現(xiàn)?以監(jiān)控視頻碼流為例,我們可以理解為它是由兩個(gè)碼流構(gòu)成的,一是背景碼流,二是前景碼流。測出前景后,我們可以處理、識(shí)別,并且跟蹤分析我們關(guān)注的對(duì)象?;谶@個(gè)想法,AVS2也就支持感興趣區(qū)域(RCH),就是語法里面對(duì)前景手段你可以對(duì)其進(jìn)行描述,這種描述可以采用特殊參數(shù)的編碼,背景一次性接過去就可以。基于這樣的構(gòu)建我們可以很好地識(shí)別編碼模型,從感興趣的區(qū)域可以得到對(duì)象,根據(jù)對(duì)象之間的關(guān)聯(lián),以及它們失去關(guān)系時(shí)構(gòu)建的時(shí)間,我們可以在編碼的同時(shí)做運(yùn)動(dòng)分析、目標(biāo)檢測、對(duì)象行為分析等。
傳統(tǒng)的方式下,識(shí)別時(shí)我們需要在視頻流上找,但是通過背景建模技術(shù),任務(wù)就變得簡單很多。我們只需要知道背景是什么,就很容易把前景表述出來。AVS2國外版命名為HE1857,基于這一標(biāo)準(zhǔn),可以對(duì)感興趣的區(qū)域提取對(duì)于對(duì)象的表達(dá),對(duì)動(dòng)作和行為檢測等。
針對(duì)跨攝像頭檢索“找不到”的問題,我們采用了CDVS(即緊縮描述式)技術(shù)。我們要想辦法達(dá)成這些目標(biāo):描述能力強(qiáng)、緊湊,檢索較快,特征規(guī)范化。這里面涉及到計(jì)算機(jī)視覺技術(shù)、機(jī)器學(xué)習(xí)技術(shù)等,最核心的就是興趣點(diǎn)提取和表述,一開始我們用的是(SIFT)特征,也是近期最好用的一個(gè)特征。
但(SIFT)特征在具體使用中有很多問題,后來我們對(duì)其做了改進(jìn),改進(jìn)之后的效果比較好,所以我們把這一特征又分成局部和全局。改進(jìn)的倍數(shù)CDVS比SIFT好三倍,特征大小好一百倍。針對(duì)一千萬幅圖像庫進(jìn)行搜索,采用CDVS只需要500毫秒就能完成搜索,就是說如果我們要在一千萬張圖片中去找一張圖片,半秒鐘就能解決問題,搜索速度非常快,這只是在英特爾CPU上面就可以做到的。
總的來說,在智慧城市建設(shè)過程中,如果你要考慮多媒體大數(shù)據(jù)分析的時(shí)候,有三個(gè)比較大的挑戰(zhàn)。
第一個(gè)壓縮問題我們可以通過AVS2去應(yīng)對(duì),當(dāng)然你可以有其他的辦法。第二個(gè)模式識(shí)別問題可以通過支持感興趣區(qū)域的AVS2、面向監(jiān)控的AVS2來解決。第三個(gè)跨攝像頭搜索、視頻搜索問題,其實(shí)可以用CDVS這一標(biāo)準(zhǔn)去解決,當(dāng)然也有其他更好的技術(shù)來解決。在智慧城市建設(shè)方面,盡管我們現(xiàn)在裝了很多攝像頭,但離具體的應(yīng)用還是有一段距離,所以需要理論、系統(tǒng)、技術(shù)等多領(lǐng)域?qū)<夜餐瑓f(xié)同,才會(huì)有一個(gè)較好的結(jié)果。
【摘 要】人類已經(jīng)步入到信息化時(shí)代,大規(guī)模的數(shù)據(jù)信息傳遞業(yè)已被廣泛運(yùn)用。傳統(tǒng)意義上的信息不對(duì)等形成的差距條件不見了,大數(shù)據(jù)背景下的數(shù)據(jù)分析可以為各個(gè)組織帶來更大價(jià)值。本位分析了大數(shù)據(jù)的相關(guān)概念及大數(shù)據(jù)時(shí)代背景下進(jìn)行數(shù)據(jù)分析的相關(guān)理念。
【關(guān)鍵詞】大數(shù)據(jù)時(shí)代;數(shù)據(jù)分析理念
前言
國內(nèi)外在信息技術(shù)領(lǐng)域突飛猛進(jìn),越來越多地運(yùn)用信息技術(shù),大規(guī)模的信息與數(shù)據(jù)信息借助移動(dòng)互聯(lián)設(shè)備、互聯(lián)網(wǎng)、社交工具、云終端以及物聯(lián)網(wǎng)等進(jìn)行傳遞,人類業(yè)已步入到大數(shù)據(jù)時(shí)代,數(shù)據(jù)信息的大批量傳遞對(duì)各個(gè)組織的決策成本產(chǎn)生了較大影響。
一、大數(shù)據(jù)概述
1.大數(shù)據(jù)的定義。如今人們尚未就大數(shù)據(jù)的概念取得一致意見,主要存在著下列三種看法。首先,它指的是運(yùn)用相關(guān)信息技術(shù),分析、整合大量數(shù)據(jù),并獲得舉足輕重的信息匯總成果,為用戶提供相關(guān)資訊。其次,認(rèn)為大數(shù)據(jù)指的是一臺(tái)計(jì)算機(jī),其處理能力比較強(qiáng)大。第三,它指的是在限定時(shí)間內(nèi)拆解與分析數(shù)據(jù)中的相關(guān)信息,獲取關(guān)鍵信息的信息處理技術(shù)。
2.特點(diǎn)。第一是具有鮮明的社會(huì)性。它能夠匯集全部數(shù)據(jù)與信息,以互聯(lián)網(wǎng)方式連接絕大多數(shù)領(lǐng)域,以信息勞動(dòng)取代了傳統(tǒng)的手工勞動(dòng),借助大數(shù)據(jù)處理技術(shù)創(chuàng)造更大的價(jià)值。第二是其運(yùn)用范圍非常廣泛。大數(shù)據(jù)時(shí)代朝著縱深方向持續(xù)發(fā)展,信息技術(shù)業(yè)已對(duì)人們的生產(chǎn)生活產(chǎn)生了較大影響,在整理、儲(chǔ)存、融合與處理大數(shù)據(jù)方面都出現(xiàn)了較大變化,推動(dòng)了社會(huì)經(jīng)濟(jì)的快速發(fā)展。第三是大數(shù)據(jù)是公開的,在當(dāng)前的大數(shù)據(jù)背景下,能夠公開所匯總的信息與數(shù)據(jù),將諸多領(lǐng)域交換以及運(yùn)用這些信息。既能夠確保數(shù)據(jù)用戶的相關(guān)隱私,也可以為相關(guān)機(jī)構(gòu)和組織更好地利用大數(shù)據(jù)環(huán)境的優(yōu)勢,滿足人們?cè)诠ぷ?、生活以及學(xué)習(xí)領(lǐng)域的需求。第四,體現(xiàn)出強(qiáng)烈的動(dòng)態(tài)性。人們可以從大數(shù)據(jù)處理的結(jié)果中得到關(guān)鍵性的信息,然而外部環(huán)境隨時(shí)都可能會(huì)發(fā)生這樣那樣的變化,且任何時(shí)間都會(huì)形成諸多信息和數(shù)據(jù),因此大數(shù)據(jù)時(shí)代具有強(qiáng)烈的動(dòng)態(tài)性。
二、大數(shù)據(jù)時(shí)代下數(shù)據(jù)分析理念探究
1.挖掘數(shù)據(jù)價(jià)值的理念。以匹配廣告為作為研究事例,重點(diǎn)涵蓋了兩種類型的數(shù)據(jù),首先是廣告庫,它涵蓋了廣告庫與相關(guān)廣告的具體客戶信息。這種方式適宜于運(yùn)用在傳統(tǒng)類型的數(shù)據(jù)庫中。其次是顧客觀看了廣告后的相關(guān)行為。人們可以有效地結(jié)合上述兩種數(shù)據(jù),借助相關(guān)算法來表現(xiàn)其價(jià)值。在具體實(shí)踐中,能夠充分地感受到信息與數(shù)據(jù)分析的優(yōu)勢。可以為顧客提供所需要的數(shù)據(jù)與信息,借助群體行為、群體智能技術(shù),將其與以往顧客的具體使用效果做出比較和分析,采取相關(guān)的信息反饋機(jī)制,向用戶提供最優(yōu)質(zhì)的數(shù)據(jù)與信息,或者是查詢與搜索相關(guān)信息。
2.深層處理與去偽存真的理念。在具體數(shù)據(jù)分析時(shí),應(yīng)該嚴(yán)格按照相關(guān)的數(shù)據(jù)分析流程,對(duì)相關(guān)數(shù)據(jù)進(jìn)行深層處理以及去偽存真。大數(shù)據(jù)業(yè)已運(yùn)用到生產(chǎn)生活的方方面面,在不同地區(qū)以及不同行業(yè)間發(fā)生著相應(yīng)的轉(zhuǎn)化,逐步取代了傳統(tǒng)形式的信息數(shù)據(jù)處理方式和技術(shù)。在大數(shù)據(jù)背景下,借助先進(jìn)的數(shù)據(jù)分析技術(shù),將搜集到的多種復(fù)雜信息變換成計(jì)算機(jī)能夠識(shí)別的信息和數(shù)據(jù),并對(duì)其進(jìn)行分類與整合,在具體的整合分類中,剔除完全不具備實(shí)用價(jià)值的信息,深層次處理余下的信息與數(shù)據(jù),將獲得的處理結(jié)果轉(zhuǎn)換到具體運(yùn)用中。受到了大數(shù)據(jù)背景的強(qiáng)烈影響,龐大的數(shù)據(jù)規(guī)模非但會(huì)影響數(shù)據(jù)的具體處理結(jié)果,反而會(huì)為用戶帶來更具有價(jià)值的信息。且在數(shù)據(jù)分析與處理過程中要逐步搜集與積累相關(guān)數(shù)據(jù)。
3.把握數(shù)據(jù)分析的相關(guān)變量。之前的數(shù)據(jù)分析技術(shù)均是先假設(shè)相關(guān)變量,然后對(duì)相關(guān)結(jié)果實(shí)施線性分析。這是傳統(tǒng)意義上的數(shù)據(jù)規(guī)模非常小,處理方法也比較簡單。然而,大數(shù)據(jù)背景下,出現(xiàn)了龐大的數(shù)據(jù)規(guī)模,只采取線性處理技術(shù)來處理與分析顯得不太現(xiàn)實(shí)。計(jì)算機(jī)和大數(shù)據(jù)的關(guān)系非常密切,雖然數(shù)據(jù)的數(shù)量和相關(guān)變量持續(xù)變化,然而這些變量是明確的、有規(guī)律的,不必再假設(shè)相關(guān)變量,借助數(shù)據(jù)分析技術(shù)就可以獲得所需結(jié)果。
4.合理地運(yùn)用統(tǒng)計(jì)學(xué)思想。在大數(shù)據(jù)背景下,傳統(tǒng)意義上的抽樣分析不能滿足大數(shù)據(jù)分析的要求,應(yīng)該采取統(tǒng)計(jì)學(xué)思想,更新抽樣理念,將總體當(dāng)作樣本,探討與某物有關(guān)的全部數(shù)據(jù),不再依賴極少數(shù)數(shù)據(jù)樣本,如此方能充分地把握事物的具體變更與發(fā)展過程,有效地處理數(shù)據(jù)表露出的相關(guān)信息。更傾向于從紛繁蕪雜、不合乎常理的信息與數(shù)據(jù)中把握事務(wù)的具體狀況,進(jìn)一步理解數(shù)據(jù)分析的嚴(yán)謹(jǐn)性,而不再局限于只追求精確的數(shù)據(jù)。通過分析數(shù)據(jù)網(wǎng)絡(luò)的彼此聯(lián)系,不必把握反復(fù)變化的因果關(guān)系,通過分析處理相關(guān)數(shù)據(jù),更準(zhǔn)確地反映數(shù)據(jù)變更背后的真實(shí)狀況。采取統(tǒng)計(jì)學(xué)思想,對(duì)收集到的相關(guān)信息與數(shù)據(jù)實(shí)施針對(duì)性較強(qiáng)的分類處理,更好地把握事物的具體變化情況,為人們做出正確決策提供可靠的依據(jù)。
結(jié)語
大數(shù)據(jù)涵蓋了海量的信息和數(shù)據(jù),通過云計(jì)算平臺(tái)實(shí)施規(guī)?;奶幚砗褪占顒?dòng),構(gòu)建相應(yīng)的數(shù)據(jù)庫,對(duì)數(shù)據(jù)進(jìn)行分流;數(shù)據(jù)分析理念可以進(jìn)一步闡述世界、感官享受以及物質(zhì)領(lǐng)域中的復(fù)雜網(wǎng)絡(luò)關(guān)系,借助數(shù)據(jù)挖掘等在內(nèi)的多種方法進(jìn)行分析與處理,使相關(guān)數(shù)據(jù)結(jié)果有效地契合實(shí)際狀況。為人們滿足實(shí)際需要而進(jìn)行數(shù)據(jù)分析與做出決策提供可靠的依據(jù)。
【摘要】:隨著大數(shù)據(jù)時(shí)代到來,城市已變成“信息城市”擁有更高覆蓋面和高精度的、即時(shí)且多維的數(shù)據(jù)正在改變我們對(duì)城市復(fù)雜性的認(rèn)識(shí)方式,并帶來新的契機(jī)來理解以人為本的設(shè)計(jì)方法。在新的數(shù)據(jù)環(huán)境下,對(duì)現(xiàn)有的風(fēng)景園林分析方法存在的問題解決提供了一種數(shù)據(jù)增強(qiáng)的分析方法和工作框架。風(fēng)景園林專業(yè)中傳統(tǒng)的設(shè)計(jì)分析框架來指導(dǎo)園林景觀設(shè)計(jì)已經(jīng)遠(yuǎn)不能滿足瞬息萬變的時(shí)展。傳統(tǒng)的設(shè)計(jì)分析架構(gòu)中如歷史文脈分析、豎向分析、區(qū)位分析、功能分析等從大數(shù)據(jù)概念的角度去看其分析內(nèi)容以及分析數(shù)據(jù)來源都是極其匱乏片面不能反映規(guī)劃設(shè)計(jì)區(qū)域內(nèi)各種問題。單從傳統(tǒng)分析框架中數(shù)據(jù)來源數(shù)量的單位是家用電腦常用單位MB而大數(shù)據(jù)分析所提供的數(shù)據(jù)量是以PB到EB反映了數(shù)據(jù)來源質(zhì)的飛躍,而分析內(nèi)容因互聯(lián)網(wǎng)高速發(fā)展以及廣泛普及人們的參與體驗(yàn)增加傳統(tǒng)的單方面區(qū)域功能分析以不能符合以人為本的設(shè)計(jì)理念,其分析內(nèi)容應(yīng)當(dāng)更加以人的視角來做分析所做分析更加多元化。
【關(guān)鍵詞】:大數(shù)據(jù)分析、景觀分析、研究方法。
解決問題途徑
新的數(shù)據(jù)環(huán)境下對(duì)風(fēng)景園林分析體系是一種定量認(rèn)識(shí),并體現(xiàn)為4個(gè)方面的變革(空間尺度、時(shí)間維度、研究單位、以及研究方法)這些變革促進(jìn)了風(fēng)景園林設(shè)計(jì)的變革,并提供了一個(gè)民主公平開放的公共平臺(tái)。將大數(shù)據(jù)應(yīng)用到風(fēng)景園林分析中首先應(yīng)明確所分析內(nèi)容類別種類,其次根據(jù)從所分析內(nèi)容刪選整合出大數(shù)據(jù)中有用信息并將其數(shù)字化這些數(shù)據(jù)包括傳統(tǒng)數(shù)據(jù)以及動(dòng)態(tài)數(shù)據(jù),再通過科學(xué)分析法對(duì)分析內(nèi)容進(jìn)行可視化分析和建模輸出可視化成果【2】。通過成果分析、情景假設(shè)又將有所調(diào)整各項(xiàng)分析成果將在比對(duì)中得到最終檢驗(yàn)。
大數(shù)據(jù)分析內(nèi)容制定方法
隨著信息互聯(lián)網(wǎng)普遍率增高人們可以輕松分享各類信息這對(duì)風(fēng)景園林設(shè)計(jì)分析的開拓是至關(guān)重要的,設(shè)計(jì)分析中最小單位可以統(tǒng)計(jì)到個(gè)人,以及每個(gè)人的思想變化對(duì)待不同問題的看法都可以通過大數(shù)據(jù)來提供。這些就可以大大的擴(kuò)展風(fēng)景園林分析的內(nèi)容可以從人視的角度分析問題而不僅僅是以區(qū)域空間功能上單方面的片面分析。所以其所分析內(nèi)容更加具有生活性多元性,這對(duì)設(shè)計(jì)分析的內(nèi)容是具有變革性的影響,因?yàn)樵O(shè)計(jì)師設(shè)計(jì)的好壞需要接受民意的考察,再根據(jù)民意最關(guān)心的設(shè)計(jì)內(nèi)容作為風(fēng)景園林設(shè)計(jì)分析內(nèi)容的選項(xiàng)所以每一項(xiàng)分析內(nèi)容都是根據(jù)實(shí)踐而得來的。實(shí)地調(diào)研也不會(huì)掌握全部數(shù)據(jù),但是大數(shù)據(jù)可以幫助我們了解當(dāng)時(shí)的情況,借助大數(shù)據(jù)分析指導(dǎo)風(fēng)景園林設(shè)計(jì)具有針對(duì)性、多元性同時(shí)因互聯(lián)網(wǎng)具有即時(shí)性其所分析的內(nèi)容也具有即時(shí)性客觀性。
大數(shù)據(jù)信息來源篩選方法
地球外圍軌道上的遙感衛(wèi)星,全球定位系統(tǒng),配有三維激光掃面設(shè)備的無人機(jī),無處不在的攝像頭,便攜式數(shù)碼照相機(jī),全球?qū)⒔?0億的智能手機(jī)用戶【1】。在今天大量涌現(xiàn)的城市數(shù)船不僅是可供分析的新材料, 更是探知未來方向的共具。大量來自云端的歷史數(shù)據(jù)和即時(shí)的關(guān)于景觀和社會(huì)文化背景的大數(shù)據(jù),為我們有效的設(shè)計(jì)以及管理景觀帶來無限景觀數(shù)據(jù)的機(jī)會(huì)。但是必須清楚這些量的大數(shù)據(jù)是一把雙刃劍。首先因?yàn)閿?shù)據(jù)本身并不系統(tǒng)均衡而帶有偏差歧視。其次數(shù)據(jù)如此之多有用信息如同珍珠埋藏在泥沙里。第三數(shù)據(jù)信息最多只能反映當(dāng)下告訴我們過去的狀態(tài),并不能告訴我們未來。因此我們必須要理性看待這些海量數(shù)據(jù),突破傳統(tǒng)數(shù)據(jù)統(tǒng)計(jì)的方法處理這些數(shù)據(jù)最終幫助我們?cè)诰坝^設(shè)計(jì)時(shí)借組有用數(shù)據(jù)分析進(jìn)行科學(xué)的設(shè)計(jì)。因此我個(gè)人總結(jié)出大數(shù)據(jù)結(jié)合風(fēng)景觀園林設(shè)計(jì)幾點(diǎn)意見和創(chuàng)想。
首先我們需要在風(fēng)景園林定量研究中流理一種價(jià)值倫理。風(fēng)景園林研究的的成果, 特別是可視化成果幫助設(shè)計(jì)更加理性準(zhǔn)確快捷,其外表給他人一種可爭辯”的印象。然而一個(gè)看似客觀的數(shù)據(jù), 卻也十分容易被其他目的利用而塑造一種權(quán)威 。 因此,對(duì)于數(shù)據(jù)分析的應(yīng)用需要更多的基于社會(huì)學(xué)的思考, 以明確不同數(shù)據(jù)定量分析服務(wù)的主體是誰, 目的是什么 。
其次,我們?nèi)孕杈瓒糠治龅臑E用有可能導(dǎo)致一種庸俗。數(shù)據(jù)無法驅(qū)動(dòng)所有的風(fēng)景園林設(shè)計(jì)活動(dòng),許多時(shí)候定量分析和定性存在角力。定量研究中注重?cái)?shù)據(jù)的準(zhǔn)確性、單位統(tǒng)一性關(guān)注于實(shí)證的研究。但這就存在一些解釋力不足的維度,比如環(huán)境美學(xué)方面定量無法用數(shù)據(jù)準(zhǔn)確性闡述美的觀點(diǎn),這是也就需要定性具有一定感性的介入。
大數(shù)據(jù)整合分析內(nèi)容可視化方法
將收集到的大數(shù)據(jù)可視化分析對(duì)于風(fēng)景園林分析問題是一種新的表達(dá)方式,這樣的分析結(jié)果將完全打破傳統(tǒng)區(qū)域空間功能簡單的分析。而是第一次站在人的視角看待分析結(jié)果,比如通過大數(shù)據(jù)分析出區(qū)域內(nèi)人們對(duì)景觀要素的興趣點(diǎn)、通過谷歌地圖近幾年內(nèi)區(qū)域內(nèi)路況程度、以及區(qū)域內(nèi)城市擴(kuò)建面積增大對(duì)于村莊的影響、或通過社交評(píng)論平臺(tái)人們對(duì)于建成景點(diǎn)的關(guān)注程度等等的分析成果都是對(duì)原有傳統(tǒng)分析的突破。
但對(duì)于基于大數(shù)據(jù)新的分析結(jié)果應(yīng)用于分景園林分析需要有突破原有在整合數(shù)據(jù)是觀念才能適應(yīng)于分析整合大數(shù)據(jù)的觀念思想。傳統(tǒng)的數(shù)據(jù)分析思想應(yīng)做三大轉(zhuǎn)變,一是轉(zhuǎn)變抽樣思想,大數(shù)據(jù)時(shí)代,我們面對(duì)的數(shù)據(jù)樣本就是過去資料的總和,樣本就是總體,通過對(duì)所有與事物相關(guān)的數(shù)據(jù)進(jìn)行分析,既有利于了解總體,又有利于了解局部。二是轉(zhuǎn)變數(shù)據(jù)測量的思想,要樂于接受數(shù)據(jù)的紛繁蕪雜,不再追求精確的數(shù)據(jù)。我們應(yīng)該接受紛繁蕪雜的各類數(shù)據(jù),不應(yīng)一味追求數(shù)據(jù)的精確性,以免因小失大,比如都對(duì)于城市某條道路路況分析不能只單純調(diào)研近期路況而查看近10年這一帶的路況。三是不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。由于數(shù)據(jù)規(guī)模巨大"數(shù)據(jù)結(jié)構(gòu)復(fù)雜以及數(shù)據(jù)變量錯(cuò)綜復(fù)雜,預(yù)設(shè)因果關(guān)系以及分析因果關(guān)系相對(duì)復(fù)雜于是在大數(shù)據(jù)時(shí)代分析數(shù)據(jù)不再探求難以琢磨的因果關(guān)系轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。
結(jié)語
信息城市的復(fù)雜性迫切地要求不同以往的解讀方式, 以確保不同規(guī)劃設(shè)計(jì)手段干預(yù)下的城市發(fā)展的可持續(xù)性 。新的數(shù)據(jù)時(shí)代到來風(fēng)景園林設(shè)計(jì)與城市可持續(xù)發(fā)展新的契機(jī)。借助于大數(shù)據(jù)分析作為一種規(guī)劃設(shè)計(jì)的工具理性在城市中從人的角度定量理性研究展現(xiàn)出了其巨大的潛力,并直接顛覆了傳統(tǒng)設(shè)分析問題價(jià)值看法。大數(shù)據(jù)時(shí)代總結(jié)出一套從問題中篩選出分析內(nèi)容,再通過大數(shù)據(jù)中有用信息篩選后進(jìn)行可視化成果研究的科學(xué)套路流程,這為大數(shù)據(jù)分析景觀設(shè)計(jì)帶來了新的思路。
摘要:隨著醫(yī)院信息系統(tǒng)的快速發(fā)展,為醫(yī)院帶來了海量數(shù)據(jù)。對(duì)這些數(shù)據(jù)的有效利用、分析,挖掘其中隱含的信息,能為醫(yī)院管理提供更好的決策支持。本文從臨床信息數(shù)據(jù)分析出發(fā),在資源配置、醫(yī)療監(jiān)管、臨床決策支持、健康體檢分析等方面進(jìn)行大數(shù)據(jù)應(yīng)用分析。
關(guān)鍵詞:大數(shù)據(jù)分析;醫(yī)院管理;應(yīng)用
1 概述
根據(jù)衛(wèi)計(jì)委公布的數(shù)字,2014年前11個(gè)月全國醫(yī)療衛(wèi)生服務(wù)機(jī)構(gòu)診療量(門診和住院)達(dá)到67.7億人次,其中三級(jí)醫(yī)院達(dá)到12.1 億人次。這些醫(yī)院信息數(shù)據(jù)量十分巨大,它涵蓋了患者的人員信息、診療信息、用藥信息和費(fèi)用信息,而這些信息又為流行病學(xué)研究、臨床醫(yī)學(xué)研究、醫(yī)??刭M(fèi)標(biāo)準(zhǔn)制定、臨床路徑和藥品研究及精準(zhǔn)醫(yī)療提供了數(shù)據(jù)基礎(chǔ)。
如何合理利用這些數(shù)據(jù),分析、挖掘出其中隱含的信息,并加以應(yīng)用,實(shí)現(xiàn)為患者提供更好的診療及保健,幫助醫(yī)生找到更好的診療方案、提高醫(yī)療質(zhì)量,幫助醫(yī)院決策者調(diào)整策略、減少風(fēng)險(xiǎn),降低醫(yī)療費(fèi)用等需求方面,將是未來醫(yī)院面臨的挑戰(zhàn)之一。
2 大數(shù)據(jù)的產(chǎn)生
當(dāng)前大多數(shù)醫(yī)院都已完成了醫(yī)院信息系統(tǒng)的建設(shè),各專業(yè)的醫(yī)療信息以結(jié)構(gòu)化和非結(jié)構(gòu)化的形式存在于各子系統(tǒng)中,如HIS、LIS、EMR、PACS等。
醫(yī)院信息主要包含HIS(醫(yī)院信息系統(tǒng))和CIS(臨床信息系統(tǒng))兩大系統(tǒng)中。HIS的主要目標(biāo)是支持醫(yī)院的經(jīng)營管理與查詢業(yè)務(wù),提高醫(yī)院的工作效率,包括門診收費(fèi)、藥房藥庫、住院收費(fèi)、人力資源、財(cái)務(wù)查詢等。CIS的主要目標(biāo)是支持醫(yī)院醫(yī)護(hù)人員的臨床活動(dòng),收集和處理患者的臨床醫(yī)療信息,為患者提供更好的服務(wù),包括門急診和住院醫(yī)生工作站系統(tǒng)、電子病歷系統(tǒng)(EMR)、護(hù)士工作站系統(tǒng)、護(hù)理病歷系統(tǒng)(NIS)、影像歸檔和通信系統(tǒng)(PACS)、實(shí)驗(yàn)室系統(tǒng)(LIS)、藥物咨詢系統(tǒng)等。
2.1數(shù)據(jù)量的計(jì)算
2.1.1業(yè)務(wù)交易規(guī)模計(jì)算 按中等規(guī)模二甲綜合醫(yī)院測算,醫(yī)院預(yù)計(jì)的日均2000人次,如平均每人次在掛號(hào)、醫(yī)生診間、收費(fèi)、醫(yī)技科室等16個(gè)科室各發(fā)生1筆業(yè)務(wù),則每天的業(yè)務(wù)量就是:2000×16×1=3.2萬筆。門診部分信息系統(tǒng)按每業(yè)務(wù)數(shù)據(jù)庫交易數(shù)10計(jì)算,則每天的數(shù)據(jù)庫交易數(shù)為:3.2萬×10=32萬次。
假設(shè)醫(yī)院住院患者400人次,每人次主管醫(yī)生、護(hù)士或會(huì)診醫(yī)生各發(fā)生20筆業(yè)務(wù),藥房、收費(fèi)、手術(shù)、麻醉、醫(yī)技科室等各發(fā)生3筆業(yè)務(wù),則每天的業(yè)務(wù)量就是:400×3×20+400×18×3=4.56萬筆。住院部分信息系統(tǒng)按每業(yè)務(wù)數(shù)據(jù)庫交易數(shù)10計(jì)算,則每天的數(shù)據(jù)庫操作數(shù)為:4.56萬×10=45.6萬次。
由上,總的日數(shù)據(jù)庫交易次數(shù)是:32萬+45.6萬=77.6萬次,則10年的交易次數(shù)為776萬次。
2.1.2結(jié)構(gòu)化數(shù)據(jù)量計(jì)算 以二甲綜合醫(yī)院門診量2000人/d,住院量400人/d計(jì)算。
每門診人次含掛號(hào)收費(fèi)信息、處方信息、檢查信息、輸液信息、處置信息、門診病歷信息等系統(tǒng)數(shù)據(jù)估算量為0.1M,則每日門診數(shù)據(jù)量=0.1M×2000=200M。
每住院人次每日含收費(fèi)信息、醫(yī)囑信息、護(hù)理信息、藥品信息、檢查信息、輸液信息、處置信息、住院病歷信息等系統(tǒng)數(shù)據(jù)估算量為0.5M,則每日住院數(shù)據(jù)量=0.5M×400=200M。10年總數(shù)據(jù)量為(200M+200M)×365×10=1.46TB。
2.1.3醫(yī)學(xué)影像數(shù)據(jù)(非結(jié)構(gòu)化數(shù)據(jù))計(jì)算 以二甲綜合醫(yī)院門診量2000人/d,住院量400人/d計(jì)算。
如門診25%患者平均每人次在醫(yī)學(xué)影像科室-X線、MRI、CT、心電、超聲、胃腸鏡、病理等部門進(jìn)行圖像采集1次,平均數(shù)據(jù)估算量為:5MB,則每日門診數(shù)據(jù)量=5MB×1×2000×0.3=2500MB。
如住院20%患者平均每人次在醫(yī)學(xué)影像科室-X線、MRI、CT、心電、超聲、胃腸鏡、病理等部門進(jìn)行圖像采集1次,平均數(shù)據(jù)估算量為:5MB,則每日門診數(shù)據(jù)量=5MB×1×400×0.2=400MB。10年數(shù)據(jù)量為(2500MB +400MB)×365×10=10.6TB。
以上二甲綜合性醫(yī)院10年結(jié)構(gòu)及非結(jié)構(gòu)化數(shù)據(jù)量總和為1.46TB + 10.6TB = 12.06TB。
2.2大數(shù)據(jù)的可用性
2.2.1大數(shù)據(jù)靜悄悄的躺在各自系統(tǒng)的結(jié)構(gòu)中,除了定向的查詢,幾乎沒得到好的使用。能否將這些大量分散的信息進(jìn)行整合,把這些以結(jié)構(gòu)化形式存在的數(shù)據(jù)準(zhǔn)確地識(shí)別,并且賦予他們?cè)~、詞組和數(shù)字等邏輯關(guān)系,將是推進(jìn)大數(shù)據(jù)分析的關(guān)鍵。這種全結(jié)構(gòu)化的數(shù)據(jù)庫由于覆蓋信息面廣,數(shù)據(jù)結(jié)構(gòu)程度高,可以按照患者、藥劑、檢驗(yàn)、檢查和管理的不同需求提供更精準(zhǔn)的信息,從而更好地幫助制定醫(yī)療提高服務(wù)。
2.2.2數(shù)據(jù)本身不直接帶來價(jià)值,對(duì)于數(shù)據(jù)的應(yīng)用來說,最終的產(chǎn)品不管是臨床決策輔助系統(tǒng)還是醫(yī)??刭M(fèi)系統(tǒng),能否得到臨床一線工作者和醫(yī)藥經(jīng)濟(jì)學(xué)家的認(rèn)可,是區(qū)分產(chǎn)品優(yōu)劣的關(guān)鍵點(diǎn)。
2.2.3達(dá)到一定的信息系統(tǒng)的覆蓋率,打通各信息系統(tǒng)之間的孤島。單一系統(tǒng)的數(shù)據(jù)雖然有價(jià)值,但是由于它不能反應(yīng)出連續(xù)的醫(yī)療記錄,往往不能作為決策參考二次利用,這時(shí)如能取得多個(gè)系統(tǒng)的數(shù)據(jù)進(jìn)行協(xié)作分析,提升醫(yī)療數(shù)據(jù)分析變現(xiàn)的可能性。
3 大數(shù)據(jù)分析的應(yīng)用
通過分析臨床信息數(shù)據(jù),運(yùn)用相關(guān)數(shù)據(jù)挖掘算法和統(tǒng)計(jì)學(xué)知識(shí),從數(shù)據(jù)中挖掘出潛在有價(jià)值的診療模式、決策知識(shí),幫助醫(yī)生找到更好的診療方式和臨床路徑,提高醫(yī)療質(zhì)量;幫助醫(yī)院決策者調(diào)整策略,做出正確決策。
3.1分析患者來源,調(diào)整資源配置。根據(jù)患者的就醫(yī)記錄大數(shù)據(jù),分析出患者就診時(shí)段,相應(yīng)的該時(shí)段就診患者的診斷、年齡層、性別、同藥理藥品使用量、復(fù)診次數(shù)、復(fù)診周期等來確定相對(duì)患者屬性,并針對(duì)這些屬性,按正態(tài)分布進(jìn)行醫(yī)療資源合理優(yōu)化配置,按診斷配置醫(yī)生,按用藥做好藥品準(zhǔn)備,按年齡層、性別調(diào)整服務(wù)細(xì)節(jié),按復(fù)診人群自動(dòng)分配診間等,從而達(dá)到相應(yīng)服務(wù)資源在各個(gè)層面的投放。
3.2大數(shù)據(jù)用于臨床決策支持 臨床決策支持系統(tǒng)分析醫(yī)生輸入的診斷、醫(yī)囑、處方等,將其與臨床知識(shí)庫相比較,從多個(gè)屬性上比較其差異,從而提醒醫(yī)生防止?jié)撛诘腻e(cuò)誤,如用藥輔助支持系統(tǒng)。通過部署這些系統(tǒng),醫(yī)院可以降低醫(yī)療事故率和差錯(cuò)。
大數(shù)據(jù)分析可以使用圖像分析和識(shí)別技術(shù),識(shí)別醫(yī)療影像(X光、CT、MRI)數(shù)據(jù),將相近或相識(shí)的圖像進(jìn)行對(duì)比,并將其他的醫(yī)療影像診斷展示出來,從而給醫(yī)生提出診斷建議。
3.3健康體檢 健康體檢的目的是發(fā)現(xiàn)潛在隱患。體檢機(jī)構(gòu)對(duì)受檢人員健康數(shù)據(jù)進(jìn)行采集、初檢、總檢,從而得到當(dāng)前的健康狀況;進(jìn)一步對(duì)健康數(shù)據(jù)的分析,能針對(duì)不同區(qū)域、人群分析出區(qū)域受檢人員中的慢病特征、風(fēng)險(xiǎn)預(yù)測等信息,并輔助以健康相關(guān)危險(xiǎn)因素及制作健康監(jiān)測評(píng)估圖;通過全基因組測序數(shù)據(jù)分析,可明確個(gè)體的患病風(fēng)險(xiǎn)。
健康體檢機(jī)構(gòu)對(duì)每一位受檢單位進(jìn)行個(gè)性化的健康體檢套餐設(shè)計(jì),并從個(gè)人體檢數(shù)據(jù)所反映出的健康問題,通過大數(shù)據(jù)分析,給予個(gè)體受檢人員以后的體檢套餐規(guī)劃。
3.4醫(yī)療效益分析 對(duì)同一患者來說,醫(yī)療機(jī)構(gòu)不同,醫(yī)療護(hù)理方法和效果就不同,治療成本也存在著很大的差異。
效益分析通過對(duì)患者體征數(shù)據(jù)、醫(yī)療費(fèi)用數(shù)據(jù)和各診斷的治療結(jié)果數(shù)據(jù)在內(nèi)的大型數(shù)據(jù)集的分析對(duì)比,可以幫助醫(yī)生判斷最有效和最具有成本效益的治療方案,有可能減少過度治療或治療不足的情況發(fā)生。
數(shù)據(jù)分析也可以帶來業(yè)務(wù)流程的精簡,通過分析成本,提高質(zhì)量并給患者帶來更好的體驗(yàn),也給醫(yī)療服務(wù)機(jī)構(gòu)帶來額外的業(yè)績?cè)鲩L潛力。
4 大數(shù)據(jù)分析的其他相關(guān)考慮
4.1大數(shù)據(jù)分析的模型建立 大數(shù)據(jù)分析建模方法繁多,面向過程建模、面向數(shù)據(jù)建模、以信息為中心建模,決策分析方法也多種多樣,DEA方法、樹形決策、風(fēng)險(xiǎn)決策、模糊決策等,所得到的結(jié)論可能會(huì)千差萬別,因此,需再依據(jù)回歸分析法計(jì)算相關(guān)性,確定是否存在線性因果關(guān)系,否則經(jīng)分析得到的結(jié)論與大數(shù)據(jù)分析的初衷背道而馳了。
4.2用于臨床支持的局限性 由于患者復(fù)合病關(guān)系復(fù)雜,在診斷過程中醫(yī)生對(duì)某些病癥給出確切診斷有時(shí)會(huì)有差別,利用大數(shù)據(jù)分析,對(duì)相同主訴和病征進(jìn)行分門別類區(qū)分,其與分析的樣本數(shù)量密切相關(guān),樣本越大,分析的可靠性越高,但樣本量如何才算大,很難界定,這樣分析出來的結(jié)論與實(shí)際情況有偏差,反而給大數(shù)據(jù)分析的作用造成負(fù)面影響。
5 結(jié)論
大數(shù)據(jù)分析的應(yīng)用,必定能給醫(yī)療行業(yè)造成積極地影響,隨著技術(shù)的不斷進(jìn)步,醫(yī)院數(shù)據(jù)量不斷提高的基礎(chǔ)上,大數(shù)據(jù)分析技術(shù)在醫(yī)療領(lǐng)域的作用必定越來越明顯。
摘 要:隨著改革開放的進(jìn)一步深化,以及經(jīng)濟(jì)全球化的快速發(fā)展,我國各行各業(yè)都有了質(zhì)的飛躍,發(fā)展方向更加全面。特別是近年來科學(xué)技術(shù)的發(fā)展和普及,更是促進(jìn)了各領(lǐng)域的不斷發(fā)展,各學(xué)科均出現(xiàn)了科技交融。在這種社會(huì)背景下,數(shù)據(jù)形式和規(guī)模不斷向著更加快速、精準(zhǔn)的方向發(fā)展,促使經(jīng)濟(jì)社會(huì)發(fā)生了翻天覆地的變化,同時(shí)也意味著大數(shù)據(jù)時(shí)代即將來臨。就目前而言,數(shù)據(jù)已經(jīng)改變傳統(tǒng)的結(jié)構(gòu)模式,在時(shí)代的發(fā)展推動(dòng)下積極向著結(jié)構(gòu)化、半結(jié)構(gòu)化,以及非結(jié)構(gòu)化的數(shù)據(jù)模式方向轉(zhuǎn)換,改變了以往的只是單一地作為簡單的工具的現(xiàn)象,逐漸發(fā)展成為具有基礎(chǔ)性質(zhì)的資源。文章主要針對(duì)大數(shù)據(jù)時(shí)代下的數(shù)據(jù)分析與挖掘進(jìn)行了分析和討論,并論述了建設(shè)數(shù)據(jù)分析與挖掘體系的原則,希望可以為從事數(shù)據(jù)挖掘技術(shù)的分析人員提供一定的幫助和理論啟示,僅供參考。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)分析;數(shù)據(jù)挖掘;體系建設(shè)
引言
進(jìn)入21世紀(jì)以來,隨著高新科技的迅猛發(fā)展和經(jīng)濟(jì)全球化發(fā)展的趨勢,我國國民經(jīng)濟(jì)迅速增長,各行業(yè)、領(lǐng)域的發(fā)展也頗為迅猛,人們生活水平與日俱增,在物質(zhì)生活得到極大滿足的前提下,更加追求精神層面以及視覺上的享受,這就涉及到數(shù)據(jù)信息方面的內(nèi)容。在經(jīng)濟(jì)全球化、科技一體化、文化多元化的時(shí)代,數(shù)據(jù)信息的作用和地位是不可小覷的,處理和歸類數(shù)據(jù)信息是達(dá)到信息傳遞的基礎(chǔ)條件,是發(fā)展各學(xué)科科技交融的前提。
然而,世界上的一切事物都包含著兩個(gè)方面,這兩個(gè)方面既相互對(duì)立,又相互統(tǒng)一。矛盾即對(duì)立統(tǒng)一。矛盾具有斗爭性和同一性兩種基本屬性,我們必須用一分為二的觀點(diǎn)、全面的觀點(diǎn)看問題。同時(shí)要積極創(chuàng)造條件,促進(jìn)矛盾雙方的相互轉(zhuǎn)變。數(shù)據(jù)信息在帶給人們生產(chǎn)生活極大便利的同時(shí),還會(huì)被諸多社會(huì)數(shù)據(jù)信息所困擾。為了使廣大人民群眾的日常生活更加便捷,需要其客觀、正確地使用、處理數(shù)據(jù)信息,完善和健全數(shù)據(jù)分析技術(shù)和數(shù)據(jù)挖掘手段,通過各種切實(shí)可行的數(shù)據(jù)分析方法科學(xué)合理地分析大數(shù)據(jù)時(shí)代下的數(shù)據(jù),做好數(shù)據(jù)挖掘技術(shù)工作。
1 實(shí)施數(shù)據(jù)分析的方法
在經(jīng)濟(jì)社會(huì)快速發(fā)展的背景下,我國在科學(xué)信息技術(shù)領(lǐng)域取得長足進(jìn)步。科技信息的發(fā)展在極大程度上促進(jìn)了各行各業(yè)的繁榮發(fā)展和長久進(jìn)步,使其發(fā)展更加全面化、科學(xué)化、專業(yè)化,切實(shí)提升了我國經(jīng)濟(jì)的迅猛發(fā)展,從而形成了一個(gè)最佳的良性循環(huán),我國也由此進(jìn)入了大數(shù)據(jù)時(shí)代。對(duì)于大數(shù)據(jù)時(shí)代而言,數(shù)據(jù)分析環(huán)節(jié)是必不可少的組成部分,只有科學(xué)準(zhǔn)確地對(duì)信息量極大的數(shù)據(jù)進(jìn)行處理、篩選,才能使其更好地服務(wù)于社會(huì),服務(wù)于廣大人民群眾。正確處理數(shù)據(jù)進(jìn)行分析過程是大數(shù)據(jù)時(shí)代下數(shù)據(jù)分析的至關(guān)重要的環(huán)節(jié)。眾所周知,大數(shù)據(jù)具有明顯的優(yōu)勢,在信息處理的過程中,需要對(duì)大容量數(shù)據(jù)、分析速率,以及多格式的數(shù)據(jù)三大問題進(jìn)行詳細(xì)的分析和掌握。
1.1 Hadoop HDFS
HDFS,即分布式文件系統(tǒng),主要由客戶端模塊、元數(shù)據(jù)管理模塊、數(shù)據(jù)存儲(chǔ)服務(wù)模塊等模塊組成,其優(yōu)勢是儲(chǔ)存容量較大的文件,通常情況下被用于商業(yè)化硬件的群體中。相比于低端的硬件群體,商業(yè)化的硬件群體發(fā)生問題的幾率較低,在儲(chǔ)存大容量數(shù)據(jù)方面?zhèn)涫軞g迎和推崇。Hadoop,即是分布式計(jì)算,是一個(gè)用于運(yùn)行應(yīng)用程序在大型集群的廉價(jià)硬件設(shè)備上的框架,為應(yīng)用程序的透明化的提供了一組具有穩(wěn)定性以及可靠性的接口和數(shù)據(jù)運(yùn)動(dòng),可以不用在價(jià)格較高、可信度較高的硬件上應(yīng)用。一般情況下,面對(duì)出現(xiàn)問題概率較高的群體,分布式文件系統(tǒng)是處理問題的首選,它采用繼續(xù)運(yùn)用的手法進(jìn)行處理,而且還不會(huì)使用戶產(chǎn)生明顯的運(yùn)用間斷問題,這是分布式計(jì)算的優(yōu)勢所在,而且還在一定程度上減少了機(jī)器設(shè)備的維修和維護(hù)費(fèi)用,特別是針對(duì)于機(jī)器設(shè)備量龐大的用戶來說,不僅降低了運(yùn)行成本,而且還有效提高了經(jīng)濟(jì)效益。
1.2 Hadoop的優(yōu)點(diǎn)與不足
隨著移動(dòng)通信系統(tǒng)發(fā)展速度的不斷加快,信息安全是人們關(guān)注的重點(diǎn)問題。因此,為了切實(shí)有效地解決信息數(shù)據(jù)安全問題,就需要對(duì)大量的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,不斷優(yōu)化數(shù)據(jù)信息,使數(shù)據(jù)信息更加準(zhǔn)確,安全。在進(jìn)行數(shù)據(jù)信息的過程中,Hadoop是最常用的解決問題的軟件構(gòu)架之一,它可以對(duì)眾多數(shù)據(jù)實(shí)行分布型模式解決,在處理的過程中,主要依據(jù)一條具有可信性、有效性、可伸縮性的途徑進(jìn)行數(shù)據(jù)信息處理,這是Hadoop特有的優(yōu)勢。但是世界上一切事物都處在永不停息地變化發(fā)展之中,都有其產(chǎn)生、發(fā)展和滅亡的歷史,發(fā)展的實(shí)質(zhì)是事物的前進(jìn)和上升,是新事物的產(chǎn)生和舊事物的滅亡,因此,要用科學(xué)發(fā)展的眼光看待問題。Hadoop同其他數(shù)據(jù)信息處理軟件一樣,也具有一定的缺點(diǎn)和不足。主要表現(xiàn)在以下幾個(gè)方面。
首先,就現(xiàn)階段而言,在企業(yè)內(nèi)部和外部的信息維護(hù)以及保護(hù)效用方面還存在一定的不足和匱乏,在處理這種數(shù)據(jù)信息的過程中,需要相關(guān)工作人員以手動(dòng)的方式設(shè)置數(shù)據(jù),這是Hadoop所具有的明顯缺陷。因?yàn)樵跀?shù)據(jù)設(shè)置的過程中,相關(guān)數(shù)據(jù)信息的準(zhǔn)確性完全是依靠工作人員而實(shí)現(xiàn)的,而這種方式的在無形中會(huì)浪費(fèi)大量的時(shí)間,并且在設(shè)置的過程中出現(xiàn)失誤的幾率也會(huì)大大增加。一旦在數(shù)據(jù)信息處理過程中的某一環(huán)節(jié)出現(xiàn)失誤,就會(huì)導(dǎo)致整個(gè)數(shù)據(jù)信息處理過程失效,浪費(fèi)了大量的人力、物力,以及財(cái)力。
其次,Hadoop需求社會(huì)具備投資構(gòu)建的且專用的計(jì)算集群,在構(gòu)建的過程中,會(huì)出現(xiàn)很多難題,比如形成單個(gè)儲(chǔ)存、計(jì)算數(shù)據(jù)信息和儲(chǔ)存,或者中央處理器應(yīng)用的難題。不僅如此,即使將這種儲(chǔ)存形式應(yīng)用于其他項(xiàng)目的上,也會(huì)出現(xiàn)兼容性難的問題。
2 實(shí)施數(shù)據(jù)挖掘的方法
隨著科學(xué)技術(shù)的不斷發(fā)展以及我國社會(huì)經(jīng)濟(jì)體系的不斷完善,數(shù)據(jù)信息處理逐漸成為相關(guān)部門和人們重視的內(nèi)容,并且越來越受到社會(huì)各界的廣泛關(guān)注和重視,并使數(shù)據(jù)信息分析和挖掘成為熱點(diǎn)話題。在現(xiàn)階段的大數(shù)據(jù)時(shí)代下,實(shí)施數(shù)據(jù)挖掘項(xiàng)目的方法有很多,且不同的方法適用的挖掘方向不同?;诖?,在實(shí)際進(jìn)行數(shù)據(jù)挖掘的過程中,需要根據(jù)數(shù)據(jù)挖掘項(xiàng)目的具體情況選擇相應(yīng)的數(shù)據(jù)挖掘方法。數(shù)據(jù)挖掘方法有分類法、回歸分析法、Web數(shù)據(jù)挖掘法,以及關(guān)系規(guī)則法等等。文章主要介紹了分類法、回歸分析法、Web數(shù)據(jù)挖掘法對(duì)數(shù)據(jù)挖掘過程進(jìn)行分析。
2.1 分類法
隨著通信行業(yè)快速發(fā)展,基站建設(shè)加快,網(wǎng)絡(luò)覆蓋多元化,數(shù)據(jù)信息對(duì)人們的生產(chǎn)生活影響越來越顯著。計(jì)算機(jī)技術(shù)等應(yīng)用與發(fā)展在很大程度上促進(jìn)了經(jīng)濟(jì)的進(jìn)步,提高了人們的生活水平,推動(dòng)了人類文明的歷史進(jìn)程。在此背景下,數(shù)據(jù)分析與挖掘成為保障信息安全的基礎(chǔ)和前提。為了使得數(shù)據(jù)挖掘過程更好地進(jìn)行,需要不斷探索科學(xué)合理的方法進(jìn)行分析,以此確保大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘進(jìn)程更具準(zhǔn)確性和可靠性。分類法是數(shù)據(jù)挖掘中常使用的方法之一,主要用于在數(shù)據(jù)規(guī)模較大的數(shù)據(jù)庫中尋找特質(zhì)相同的數(shù)據(jù),并將大量的數(shù)據(jù)依照不同的劃分形式區(qū)分種類。對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分類的主要目的是將數(shù)據(jù)項(xiàng)目放置在特定的、規(guī)定的類型中,這樣做可以在極大程度上為用戶減輕工作量,使其工作內(nèi)容更加清晰,便于后續(xù)時(shí)間的內(nèi)容查找。另外,數(shù)據(jù)挖掘的分類還可以為用戶提高經(jīng)濟(jì)效益。
2.2 回歸分析法
除了分類法之外,回顧分析法也是數(shù)據(jù)挖掘經(jīng)常采用的方法。不同于分類法中對(duì)相同特質(zhì)的數(shù)據(jù)進(jìn)行分類,回歸分析法主要是對(duì)數(shù)據(jù)庫中具有獨(dú)特性質(zhì)的數(shù)據(jù)進(jìn)行展現(xiàn),并通過利用函數(shù)關(guān)系來展現(xiàn)數(shù)據(jù)之間的聯(lián)系和區(qū)別,進(jìn)而分析相關(guān)數(shù)據(jù)信息特質(zhì)的依賴程度。就目前而言,回歸分析法通常被用于數(shù)據(jù)序列的預(yù)計(jì)和測量,以及探索數(shù)據(jù)之間存在的聯(lián)系。特別是在市場營銷方面,實(shí)施回歸分析法可以在營銷的每一個(gè)環(huán)節(jié)中都有所體現(xiàn),能夠很好地進(jìn)行數(shù)據(jù)信息的挖掘,進(jìn)而為市場營銷的可行性奠定數(shù)據(jù)基礎(chǔ)。
2.3 Web數(shù)據(jù)挖掘法
通訊網(wǎng)絡(luò)極度發(fā)達(dá)的現(xiàn)今時(shí)代,大大地豐富了人們的日常生活,使人們的生活更具科技性和便捷性,這是通過大規(guī)模的數(shù)據(jù)信息傳輸和處理而實(shí)現(xiàn)的。為了將龐大的數(shù)據(jù)信息有目的性地進(jìn)行分析和挖掘,就需要通過合適的數(shù)據(jù)挖掘方法進(jìn)行處理。Web數(shù)據(jù)挖掘法主要是針對(duì)網(wǎng)絡(luò)式數(shù)據(jù)的綜合性科技,到目前為止,在全球范圍內(nèi)較為常用的Web數(shù)據(jù)挖掘算法的種類主要有三種,且這三種算法涉及的用戶都較為籠統(tǒng),并沒有明顯的界限可以對(duì)用戶進(jìn)行明確、嚴(yán)謹(jǐn)?shù)膭澐帧kS著高新科技的迅猛發(fā)展,也給Web數(shù)據(jù)挖掘法帶來了一定的挑戰(zhàn)和困難,尤其是在用戶分類層面、網(wǎng)站公布內(nèi)容的有效層面,以及用戶停留頁面時(shí)間長短的層面。因此,在大力推廣和宣傳Web技術(shù)的大數(shù)據(jù)時(shí)代,數(shù)據(jù)分析技術(shù)人員要不斷完善Web數(shù)據(jù)挖掘法的內(nèi)容,不斷創(chuàng)新數(shù)據(jù)挖掘方法,以期更好地利用Web數(shù)據(jù)挖掘法服務(wù)于社會(huì),服務(wù)于人們。
3 大數(shù)據(jù)分析挖掘體系建設(shè)的原則
隨著改革開放進(jìn)程的加快,我國社會(huì)經(jīng)濟(jì)得到明顯提升,人們物質(zhì)生活和精神文化生活大大滿足,特別是二十一世紀(jì)以來,科學(xué)信息技術(shù)的發(fā)展,更是提升了人們的生活水平,改善了生活質(zhì)量,計(jì)算機(jī)、手機(jī)等先進(jìn)的通訊設(shè)備比比皆是,傳統(tǒng)的生產(chǎn)關(guān)系式和生活方式已經(jīng)落伍,并逐漸被淘汰,新的產(chǎn)業(yè)生態(tài)和生產(chǎn)方式噴薄而出,人們開始進(jìn)入了大數(shù)據(jù)時(shí)代。因此,為了更好地收集、分析、利用數(shù)據(jù)信息,并從龐大的數(shù)據(jù)信息中精準(zhǔn)、合理地選擇正確的數(shù)據(jù)信息,進(jìn)而更加迅速地為有需要的人們傳遞信息,就需要建設(shè)大數(shù)據(jù)分析與挖掘體系,并在建設(shè)過程中始終遵循以下幾個(gè)原則。
3.1 平臺(tái)建設(shè)與探索實(shí)踐相互促進(jìn)
經(jīng)濟(jì)全球化在對(duì)全球經(jīng)濟(jì)發(fā)展產(chǎn)生巨大推力的同時(shí),還使得全球技術(shù)競爭更加激烈。為了實(shí)現(xiàn)大數(shù)據(jù)分析挖掘體系良好建設(shè)的目的,需要滿足平臺(tái)建設(shè)與探索實(shí)踐相互促進(jìn),根據(jù)體系建設(shè)實(shí)際逐漸摸索分析數(shù)據(jù)挖掘的完整流程,不斷積累經(jīng)驗(yàn),積極引進(jìn)人才,打造一支具有專業(yè)數(shù)據(jù)分析與挖掘水準(zhǔn)的隊(duì)伍,在實(shí)際的體系建設(shè)過程中吸取失敗經(jīng)驗(yàn),并適當(dāng)借鑒發(fā)達(dá)國家的先進(jìn)數(shù)據(jù)平臺(tái)建設(shè)經(jīng)驗(yàn),取其精華,促進(jìn)平臺(tái)建設(shè),以此構(gòu)建并不斷完善數(shù)據(jù)分析挖掘體系。
3.2 技術(shù)創(chuàng)新與價(jià)值創(chuàng)造深度結(jié)合
從宏觀意義上講,創(chuàng)新是民族進(jìn)步的靈魂,是國家興旺發(fā)達(dá)的不竭動(dòng)力。而對(duì)于數(shù)據(jù)分析挖掘體系建設(shè)而言,創(chuàng)新同樣具有重要意義和作用。創(chuàng)新是大數(shù)據(jù)的靈魂,在建設(shè)大數(shù)據(jù)分析挖掘體系過程中,要將技術(shù)創(chuàng)新與價(jià)值創(chuàng)造深度結(jié)合,并將價(jià)值創(chuàng)造作為目標(biāo),輔以技術(shù)創(chuàng)新手段,只有這樣,才能達(dá)到大數(shù)據(jù)分析挖掘體系建設(shè)社會(huì)效益與經(jīng)濟(jì)效益的雙重目的。
3.3 人才培養(yǎng)與能力提升良性循環(huán)
意識(shí)對(duì)物質(zhì)具有反作用,正確反映客觀事物及其發(fā)展規(guī)律的意識(shí),能夠指導(dǎo)人們有效地開展實(shí)踐活動(dòng),促進(jìn)客觀事物的發(fā)展。歪曲反映客觀事物及其發(fā)展規(guī)律的意識(shí),則會(huì)把人的活動(dòng)引向歧途,阻礙客觀事物的發(fā)展。由此可以看出意識(shí)正確與否對(duì)于大數(shù)據(jù)分析挖掘體系平臺(tái)建設(shè)的重要意義?;诖?,要培養(yǎng)具有大數(shù)據(jù)技術(shù)能力和創(chuàng)新能力的數(shù)據(jù)分析人才,并定期組織教育學(xué)習(xí)培訓(xùn),不斷提高他們的數(shù)據(jù)分析能力,不斷進(jìn)行交流和溝通,培養(yǎng)數(shù)據(jù)分析意識(shí),提高數(shù)據(jù)挖掘能力,實(shí)現(xiàn)科學(xué)的數(shù)據(jù)挖掘流程與高效的數(shù)據(jù)挖掘執(zhí)行,從而提升數(shù)據(jù)分析挖掘體系平臺(tái)建設(shè)的良性循環(huán)。
4 結(jié)束語
通過文章的綜合論述可知,在經(jīng)濟(jì)全球化趨勢迅速普及的同時(shí),科學(xué)技術(shù)不斷創(chuàng)新與完善,人們的生活水平和品質(zhì)都有了質(zhì)的提升,先進(jìn)的計(jì)算機(jī)軟件等設(shè)備迅速得到應(yīng)用和推廣。人們實(shí)現(xiàn)信息傳遞的過程是通過對(duì)大規(guī)模的數(shù)據(jù)信息進(jìn)行處理和計(jì)算形成的,而信息傳輸和處理等過程均離不開數(shù)據(jù)信息的分析與挖掘??梢哉f,我國由此進(jìn)入了大數(shù)據(jù)時(shí)代。然而,就我國目前數(shù)據(jù)信息處理技術(shù)來看,相關(guān)數(shù)據(jù)技術(shù)還處于發(fā)展階段,與發(fā)達(dá)國家的先進(jìn)數(shù)據(jù)分析技術(shù)還存在一定的差距和不足。所以,相關(guān)數(shù)據(jù)分析人員要根據(jù)我國的基本國情和標(biāo)準(zhǔn)需求對(duì)數(shù)據(jù)分析技術(shù)進(jìn)行完善,提高思想意識(shí),不斷提出切實(shí)可行的方案進(jìn)行數(shù)據(jù)分析技術(shù)的創(chuàng)新,加大建設(shè)大數(shù)據(jù)分析挖掘體系的建設(shè),搭建可供進(jìn)行數(shù)據(jù)信息處理、劃分的平臺(tái),為大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析和挖掘提供更加科學(xué)、專業(yè)的技術(shù),從而為提高我國的科技信息能力提供基本的保障和前提。
[摘要]大數(shù)據(jù)時(shí)代公安部門所掌握的各項(xiàng)數(shù)據(jù)越來越多,傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫系統(tǒng)面對(duì)越來越紛繁復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù)越來越吃力,在時(shí)效性上難以起到預(yù)期的作用,因此更高效、更便捷的SAP HANA內(nèi)存數(shù)據(jù)厙運(yùn)算技術(shù)應(yīng)運(yùn)而生,本文將試論在公安大數(shù)據(jù)分析平臺(tái)引入“SAP HANA”技術(shù)的可行性和優(yōu)越性,以及該技術(shù)將對(duì)公安工作產(chǎn)生的變化與影響。
[關(guān)鍵詞]公安大數(shù)據(jù);SAP HANA;數(shù)據(jù)分析
1引言
近年來,大數(shù)據(jù)這個(gè)概念被越來越多的提及,信息大爆炸的時(shí)代已經(jīng)到來,現(xiàn)階段建設(shè)新的能夠匹配公安業(yè)務(wù)場景的大數(shù)據(jù)系統(tǒng)是公安部門的迫切需求。公安工作與大數(shù)據(jù)也已然開始產(chǎn)生密切的聯(lián)系,基于各種技術(shù)的大數(shù)據(jù)平臺(tái)也在被建立起來,本文就基于“SAP HANA”技術(shù)的公安大數(shù)據(jù)分析平臺(tái)做一個(gè)展望。
2公安工作對(duì)大數(shù)據(jù)平臺(tái)的需求
公安部門掌握的數(shù)據(jù)越來越多,對(duì)于這些不同來源、不同類型、不同格式的數(shù)據(jù),現(xiàn)有的公安警務(wù)數(shù)據(jù)平臺(tái)無論是規(guī)模還是架構(gòu)都很難適應(yīng)在海量數(shù)據(jù)場景下的數(shù)據(jù)管理和分析,直接影響了公安形勢預(yù)判和重大決策,因此,在現(xiàn)階段建設(shè)新的能夠匹配公安業(yè)務(wù)場景的大數(shù)據(jù)系統(tǒng)是公安部門的迫切需求。新建設(shè)的公安大數(shù)據(jù)系統(tǒng),需要做到:PB級(jí)數(shù)據(jù)存儲(chǔ)管理,多種數(shù)據(jù)類型與協(xié)議支持,高質(zhì)量的數(shù)據(jù)整合,高效的數(shù)據(jù)分析能力,可管理和開放性,安全可靠,自主可控。
3現(xiàn)有大數(shù)據(jù)平臺(tái)的缺陷
對(duì)于數(shù)據(jù)可以劃分為兩類:結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)沒有統(tǒng)一的大小和格式,給分析和挖掘帶來了很大的挑戰(zhàn)。而現(xiàn)有的數(shù)據(jù)平臺(tái)對(duì)非結(jié)構(gòu)化的數(shù)據(jù)處理起來就非常的吃力。面對(duì)冗雜無序的龐大數(shù)據(jù),簡單的人海戰(zhàn)術(shù)已經(jīng)跟不上社會(huì)發(fā)展的步伐,因此更高效、更便捷的SAP HANA內(nèi)存數(shù)據(jù)庫運(yùn)算技術(shù)應(yīng)運(yùn)而生,它的產(chǎn)生讓數(shù)據(jù)存儲(chǔ)、運(yùn)算速度得到了極大的提高,讓TB乃至PB級(jí)數(shù)據(jù)分析、處理和存儲(chǔ)變得更加快捷穩(wěn)定,也讓大數(shù)據(jù)分析平臺(tái)的搭建有了新的選擇途徑。
4 SAP HANA技術(shù)
HANA(High-Performance Analytic Appliance)是德國SAP軟件公司開發(fā)的是一個(gè)軟硬件結(jié)合體。它能夠提供高性能的數(shù)據(jù)查詢功能,可以直接對(duì)大量實(shí)時(shí)業(yè)務(wù)數(shù)據(jù)進(jìn)行查詢和分析,不需要對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行建模、聚合。
4.1 SAP HANA技術(shù)特點(diǎn)
4.1.1軟件方面
相對(duì)于Oracle等傳統(tǒng)關(guān)系型數(shù)據(jù)庫,SAP HANA內(nèi)存數(shù)據(jù)庫不僅在維護(hù)數(shù)據(jù)的完整性、一致性方面做到了最好,而且在傳統(tǒng)關(guān)系型數(shù)據(jù)庫并不擅長的領(lǐng)域――難以顧及數(shù)據(jù)處理實(shí)效要求方面實(shí)現(xiàn)了突破。追本溯源,之所以SAP HANA實(shí)現(xiàn)了對(duì)Oracle等傳統(tǒng)關(guān)系型數(shù)據(jù)庫的超越,是因?yàn)槠洳捎昧烁倪M(jìn)的數(shù)據(jù)壓縮、行列式數(shù)據(jù)存儲(chǔ)和內(nèi)存計(jì)算技術(shù)。將海量數(shù)據(jù)經(jīng)過高效壓縮存儲(chǔ)至HANA的大內(nèi)存數(shù)據(jù)厙,提高查詢和分析效率。
數(shù)據(jù)壓縮:SAP HANA采用數(shù)據(jù)字典的方法對(duì)數(shù)據(jù)進(jìn)行壓縮,用整數(shù)來代表相應(yīng)的文本。對(duì)于數(shù)據(jù)格式相對(duì)單一的結(jié)構(gòu)化數(shù)據(jù)源,這種壓縮方式非常有效,數(shù)據(jù)讀寫速度也因此得到提升。
行列式存儲(chǔ):有人曾形象的比喻,HANA可以“識(shí)別”用戶在插入數(shù)據(jù)和輸出數(shù)據(jù)時(shí)的真正意圖。實(shí)際上這是因?yàn)镠ANA采用了行列式存儲(chǔ)方式,即增量更新(插入數(shù)據(jù))時(shí),HANA將它視為行式數(shù)據(jù)庫;而輸出數(shù)據(jù)時(shí),HANA又充分利用其列式結(jié)構(gòu)適合數(shù)據(jù)壓縮的優(yōu)點(diǎn)穩(wěn)定快速的輸出數(shù)據(jù)。而傳統(tǒng)關(guān)系型數(shù)據(jù)庫則需要犧牲其中一種方式來保證速度。
內(nèi)存數(shù)據(jù)庫計(jì)算技術(shù):根據(jù)計(jì)算機(jī)組成原理我們知道數(shù)據(jù)是從磁盤->通過數(shù)據(jù)總線和控制器(RAID,I/O hub等)―->內(nèi)存―->CPU Cache-->CPU進(jìn)行數(shù)據(jù)處理(CPU寄存器)。HANA內(nèi)存數(shù)據(jù)庫,就是將數(shù)據(jù)放在內(nèi)存中直接操作,跨過了數(shù)據(jù)總線和控制器,直接與CPU cache進(jìn)行數(shù)據(jù)傳輸,數(shù)據(jù)讀寫速度比磁盤讀寫速度高出幾個(gè)數(shù)量級(jí),極大地提高了計(jì)算速度,縮短了時(shí)間。內(nèi)存的訪問速度比磁盤快1,000,000倍。傳統(tǒng)磁盤讀取是5毫秒,內(nèi)存讀取是5納秒,比SSD和閃存快1000倍。雖然寄存器和Cache的讀取數(shù)據(jù)的速度比內(nèi)存快,但在實(shí)際的數(shù)據(jù)處理中卻應(yīng)用較少。
在傳統(tǒng)的數(shù)據(jù)庫中,由于內(nèi)存存儲(chǔ)的數(shù)據(jù)有易失性,系統(tǒng)斷電或重啟后內(nèi)存中的數(shù)據(jù)就會(huì)丟失,對(duì)此SAP HAHA采取后臺(tái)異步進(jìn)程savepoint(Data persistence)定時(shí)把內(nèi)存數(shù)據(jù)存儲(chǔ)到磁盤中,大大降低了因故障導(dǎo)致數(shù)據(jù)存儲(chǔ)丟失的問題。
4.1.2硬件方面
SAP不僅在軟件領(lǐng)域獨(dú)樹一幟,在硬件研發(fā)方面也積極創(chuàng)新,和多個(gè)國際硬件廠商開展了合作,開發(fā)了多款支持HANA的高性能服務(wù)器,包括DellR910、Fujitsu RX600 S6、HP DL980 G7、IBM x3850等服務(wù)器。
4.2 SAP HANA技術(shù)應(yīng)用
正是基于對(duì)SAP HANA高性能的認(rèn)同,SAP內(nèi)存計(jì)算技術(shù)正在全球內(nèi)廣泛應(yīng)用,不斷的轉(zhuǎn)變?nèi)藗兊乃伎?、重新?guī)劃著人們的生活和工作方式。
以亞太區(qū)第一家上線HANA技術(shù)的某快速消費(fèi)品企業(yè)為例,該企業(yè)年銷售額近百億元,業(yè)務(wù)涉及生產(chǎn)、銷售、計(jì)劃、調(diào)度、物流、市場營銷等多個(gè)方面,這對(duì)企業(yè)的綜合管理和整體運(yùn)營能力提出了很高的要求。同時(shí),作為一個(gè)快速消費(fèi)品行業(yè)企業(yè),準(zhǔn)確實(shí)時(shí)的數(shù)據(jù)對(duì)于企業(yè)來說非常重要,企業(yè)高管如果要對(duì)瞬息萬變的市場行情做出準(zhǔn)確的判斷,就必須依據(jù)準(zhǔn)確實(shí)時(shí)的數(shù)據(jù)進(jìn)行科學(xué)決策。
該企業(yè)在應(yīng)用了HANA技術(shù)后,確實(shí)提高了數(shù)據(jù)查詢、處理的能力。數(shù)據(jù)展現(xiàn)能力快速提高。據(jù)測試,商業(yè)智能報(bào)表快25~30倍,邏輯計(jì)算能力速度提高了約150倍,而且,越是復(fù)雜的運(yùn)算,HANA的邏輯運(yùn)算能力就越突出,數(shù)據(jù)實(shí)時(shí)、同步真正實(shí)現(xiàn)。
5公安工作應(yīng)用hana技術(shù)的可行性
公安部門的各類信息來源(公安管控信息、社會(huì)管理信息和社會(huì)公開信息等)中,人口信息、水電煤氣信息、通訊信息、網(wǎng)絡(luò)賬號(hào)、圖像、聲音以及視頻等信息絕大部分是非結(jié)構(gòu)化數(shù)據(jù)。在這個(gè)“非結(jié)構(gòu)化數(shù)據(jù)時(shí)代”,主要用于管理結(jié)構(gòu)化數(shù)據(jù)的傳統(tǒng)關(guān)系型數(shù)據(jù)庫受限明顯,尤其是運(yùn)算速度過慢被人所詬病。而采用擅長大數(shù)據(jù)運(yùn)算的SAP HANA技術(shù)無疑是明智的選擇。
首先,從數(shù)據(jù)采集及存儲(chǔ)方面來看,作為內(nèi)存數(shù)據(jù)庫,SAP HANA可以將龐大的公安數(shù)據(jù),通過高效的數(shù)據(jù)壓縮和行列式存儲(chǔ)功能進(jìn)行優(yōu)化,存儲(chǔ)在HANA大內(nèi)存數(shù)據(jù)庫中,進(jìn)而為偵察員提供高效便捷的案事件信息查詢功能。值得一提的是,HANA技術(shù)采用的數(shù)據(jù)壓縮和行列式存儲(chǔ)不會(huì)破壞數(shù)據(jù)原有格式,而且可還原性非常高,非常適合偵察員保留案件原始資料和數(shù)據(jù),提高自主分析比對(duì)不同案事件的能力。其次,從分析應(yīng)用來看,作為綜合應(yīng)用分析平臺(tái),SAP HANA依靠其高速的邏輯運(yùn)算模式,可以有效支撐TB級(jí)別以上的大數(shù)據(jù)運(yùn)算,將大幅提高公安整體工作效率和水平。
綜上所述,公安部門為了在“大數(shù)據(jù)時(shí)代”脫穎而出,加強(qiáng)信息化建設(shè),提高公安辦案水平,強(qiáng)化預(yù)警節(jié)點(diǎn)突發(fā)情況能力,不斷升級(jí)服務(wù)公共決策水平,為頂層設(shè)計(jì)提供可靠依據(jù)。而以SAP HANA技術(shù)為基礎(chǔ)數(shù)據(jù)庫應(yīng)用的設(shè)想,無疑是目前公安部門破解大數(shù)據(jù)難題的理想選擇。
摘 要:電力行業(yè)貿(mào)易結(jié)算用智能電表功能多,故障類型多樣。隨著運(yùn)行時(shí)間的延長,故障發(fā)生的概率增加。本文是針對(duì)智能電表故障類型、發(fā)生概率等數(shù)據(jù)的分析和總結(jié),探究智能電表數(shù)據(jù)倉庫模型建立,對(duì)進(jìn)一步做好智能表質(zhì)量評(píng)估和運(yùn)行電能表故障預(yù)測提出解決方法。
關(guān)鍵詞:智能電表;故障;數(shù)據(jù);分析
1 故障數(shù)據(jù)整理及數(shù)據(jù)倉庫的構(gòu)建
1.1 故障數(shù)據(jù)整理
通過已有的SG186系統(tǒng)、MDS系統(tǒng)、拆回表分揀系統(tǒng),對(duì)智能電表故障數(shù)據(jù)進(jìn)行匯總。通過整理發(fā)現(xiàn),智能電表故障數(shù)據(jù)維度高,信息條目數(shù)多。在眾多維度中選擇和電表故障問題關(guān)系比較緊密的影響因子信息,并且將它們整合在一起。對(duì)數(shù)據(jù)本身的一些問題進(jìn)行清理,對(duì)缺失值、不合理數(shù)據(jù)以及不符合書寫規(guī)范的數(shù)據(jù)。
通過對(duì)各維度離散化標(biāo)稱數(shù)據(jù)的數(shù)目,并將他們進(jìn)行編號(hào),最后以編號(hào)的形式存入數(shù)據(jù)倉庫中。對(duì)于日期型的數(shù)據(jù),統(tǒng)一成天、月、年三種緯度來進(jìn)行儲(chǔ)存。電表的使用壽命長度以天為單位計(jì)算,電表的讀數(shù)統(tǒng)一為小數(shù)點(diǎn)后兩位。
1.2 建立數(shù)據(jù)倉庫
通過對(duì)已有故障數(shù)據(jù)的匯總分類,初步建立數(shù)據(jù)庫。數(shù)據(jù)庫包含7個(gè)維度表、2個(gè)事件表。維度表分別為通訊接口表(CommunicationInterface)、芯片廠商表(ChipManufactory)、電流型號(hào)表(ElectricCurrent)、電表廠商表(ElectricMeterManufactory)、時(shí)間表(Time)、電表故障表(MeterFault)、地區(qū)表(DArea)。事件表是電表信息表(Meter)和壞表信息表(BadMeter)。
故障數(shù)據(jù)倉庫各表字段包括條形碼編號(hào)、表故障編號(hào)、安裝時(shí)間、拆除時(shí)間、地區(qū)編號(hào)、電池使用時(shí)間、電池電壓、開蓋次數(shù)、電表讀數(shù)、芯片型號(hào)編號(hào)、芯片型號(hào)、通訊接口編號(hào)、通訊接口型號(hào)、地區(qū)名稱、建檔日期、故障類型、故障編號(hào)。
各表中的數(shù)據(jù),根據(jù)對(duì)于舊表數(shù)據(jù)的統(tǒng)計(jì),共有7個(gè)芯片型號(hào)、8種通訊接口、5種電流型號(hào)、30個(gè)電表廠家和28種電表故障。按照天津區(qū)域分布,將天津分為10個(gè)區(qū)域,把時(shí)間分為日、月、年三個(gè)維度,在決策時(shí)可以按照不同時(shí)間緯度來進(jìn)行統(tǒng)計(jì)工作。
2 故障分布與相關(guān)性分析
2.1 各個(gè)廠商電表的故障分布分析
針對(duì)各電表生產(chǎn)廠商的故障電表,進(jìn)行以下三項(xiàng)分析:
各電表生產(chǎn)廠商內(nèi)部的故障分布比例;各電表廠商的易發(fā)生故障列表(采用基于t檢驗(yàn)的評(píng)分機(jī)制);各電表廠商的特有故障列表(廠商的特有故障為相對(duì)于其他電表生產(chǎn)廠商,該廠商更易出現(xiàn)的故障,采用tf/idf法分析)。
從分析結(jié)果發(fā)現(xiàn),多數(shù)廠商和地區(qū)的故障分布均具有一定特殊性,可以通過深入分析找到某廠商或地區(qū)區(qū)別于其他地區(qū)的特有故障類型。
2.2 故障之間的相關(guān)性分析
對(duì)各故障之間的相關(guān)程度進(jìn)行分析(采用經(jīng)過t檢驗(yàn)的斯皮爾曼等級(jí)相關(guān)系數(shù),保留相關(guān)度>0.9的高度相關(guān)故障,共20對(duì))。
從分析結(jié)果中我們可以看到,部分故障類型之間存在極高的相關(guān)性。
3 故障/參數(shù)間因果關(guān)系檢驗(yàn)
3.1 Granger因果檢驗(yàn)原理及方法
Granger因果檢驗(yàn)通過比較“已知上一時(shí)刻所有信息,這一時(shí)刻X的概率分布情況”和“已知上一時(shí)刻除Y以外的所有信息,這一時(shí)刻X的概率分布情況”來進(jìn)行假設(shè)檢驗(yàn),進(jìn)而判斷Y對(duì)X是否存在因果關(guān)系。
在本任務(wù)中,我們首先對(duì)芯片型號(hào)、電流型號(hào)、通訊接口型號(hào)、地區(qū)、生產(chǎn)廠家、電表使用時(shí)間、電表讀數(shù)、電表故障組成的矩陣進(jìn)行單位根檢驗(yàn),以判斷序列是否是平穩(wěn)的。如果平穩(wěn)則進(jìn)一步兩列兩列之間進(jìn)行Granger因果檢驗(yàn)。
3.2 Granger因果檢驗(yàn)結(jié)果
在進(jìn)行單位根檢驗(yàn)后,ADF-Fisher Chi-square的P值為0,小于0.05,因此序列是平穩(wěn)的。在進(jìn)行Granger因果檢驗(yàn)后得到如下實(shí)驗(yàn)結(jié)果。
①對(duì)于電表故障來說,芯片型號(hào)、使用地區(qū)、電表生產(chǎn)廠商、通訊接口型號(hào)、電流型號(hào)、電表讀數(shù)、使用時(shí)間都是影響的原因。
②對(duì)于電表壽命來說,芯片型號(hào)、使用地區(qū)、電表生產(chǎn)廠商、通訊接口型號(hào)、電流型號(hào)、電表讀數(shù)都是影響的原因。
③同時(shí)我們發(fā)現(xiàn)使用地區(qū)的不同,對(duì)于電表完整的生存周期中的讀數(shù)有因果關(guān)系。我們由此可以猜測不同地區(qū)的用電習(xí)慣可能會(huì)有不同。
4 故障預(yù)測
在因果分析中,我們驗(yàn)證了和電表故障與壽命相關(guān)的影響因素,現(xiàn)在我們用這些影響因素來訓(xùn)練基礎(chǔ)的分類器。在原始數(shù)據(jù)中,我們總共統(tǒng)計(jì)出了28種故障。故障類型過于細(xì)化且各種故障發(fā)生的數(shù)量相差極大,對(duì)于我們分類器的分類精度造成了非常大的影響。因此我們參照《智能電能表故障原因分類表.xls》,將28種故障分為3大類。我們的分類工作主要是針對(duì)這3大類進(jìn)行分類。
第一類,也可以稱作管理問題,主要包括外觀有污跡和無載波模塊兩類。
第二類是等待報(bào)廢的問題,主要包括表殼損壞、按鍵失靈、銘牌損壞、鉛封損壞、接線端子損壞等。
剩下的問題都包含在第三種中,主要包括ERR-01到ERR-08、RS485通訊故障、繼電器故障、黑屏白屏花屏、卡槽壞、密鑰恢復(fù)不成功、日計(jì)時(shí)誤差不合格、液晶顯示故障等等。
接下來我們就針對(duì)這三種故障進(jìn)行了分類器的訓(xùn)練。目標(biāo)有兩個(gè):
一是在電表入庫時(shí)就預(yù)先判斷該電表的可能故障。
二是對(duì)已使用電表可能發(fā)生故障的預(yù)測。
4.1 樸素貝葉斯模型
4.1.1 樸素貝葉斯原理
樸素貝葉斯法是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類方法。樸素貝葉斯分類器基于一個(gè)簡單的假定:給定目標(biāo)值時(shí)屬性之間相互條件獨(dú)立。貝葉斯公式是:
P(C|X)=(P(X|C)P(C))/P(X)
其中C代表的是我們需要判斷的類別,而X代表的各維參數(shù)所組成的向量。
基于假定我們可以把P(Ci|X)的概率轉(zhuǎn)化為P(Ci|X)=P(x1|Ci)P(x2|Ci)...P(xn|Ci)P(Ci)。然后我們比較所得的概率大小,選取概率最大的類別作為我們分類器的預(yù)測類別。
4.1.2 樸素貝葉斯的實(shí)現(xiàn)
首先我們從數(shù)據(jù)倉庫中把我們所需要緯度的數(shù)據(jù)提取出來,并按照我們需要的格式編排完畢。然后分別統(tǒng)計(jì)我們需要的各種先驗(yàn)知識(shí)并訓(xùn)練模型。
4.1.3 樸素貝葉斯模型的結(jié)果
①入庫電表故障預(yù)測
經(jīng)檢驗(yàn)我們的樸素貝葉斯模型的分類準(zhǔn)確度是65.2216%。(如表1)
表1 入庫電表故障預(yù)測
[A\&B\&C\&Classified as\&17301\&323\&17461\&A=1\&2467\&243\&2376\&B=2\&13418\&576\&51133 C=3\&C=3\&]
從表格中可以看出我們的樸素貝葉斯分類器對(duì)于第三類故障的分類準(zhǔn)確度最高,對(duì)于第一類的分類準(zhǔn)確度次之,對(duì)于第二類的分類準(zhǔn)確度最差。
以下是分類器工作的示意范例,我們將規(guī)范化的芯片型號(hào)、地區(qū)、生產(chǎn)廠商、通訊接口型號(hào)、電流型號(hào)構(gòu)建成一個(gè)向量。例如我們選擇一塊芯片型號(hào)是東軟4.0、地區(qū)是城南、生產(chǎn)廠家是浙江萬勝電力儀表有限公司、通訊接口型號(hào)是東軟載波,電流型號(hào)是5(60)A的電表將各維信息轉(zhuǎn)化為(2,7,25,3,5)的向量輸入我們的模型,經(jīng)過模型計(jì)算輸出結(jié)果是3,表示模型預(yù)測這塊表以后發(fā)生第3類故障的概率最高。
關(guān)于具體的模型數(shù)據(jù),可參考《電表故障樸素貝葉斯結(jié)果.doc》以及《TJDW_Problem_NaiveBayes.model》
②已用電表故障預(yù)測
經(jīng)檢驗(yàn)我們的樸素貝葉斯模型的分類準(zhǔn)確度是65.288%。(如表2)
從表格中可以看出我們的樸素貝葉斯分類器對(duì)于第三類故障的分類準(zhǔn)確度最高,對(duì)于第一類的分類準(zhǔn)確度次之,對(duì)于第二類的分類準(zhǔn)確度最差。
以下是分類器工作的示意范例,我們將規(guī)范化的芯片型號(hào)、地區(qū)、生產(chǎn)廠商、通訊接口型號(hào)、電流型號(hào)、電表使用時(shí)間、電表讀數(shù)構(gòu)建成一個(gè)向量。例如我們選擇一塊芯片型號(hào)是東軟4.0、地區(qū)是城南、生產(chǎn)廠家是浙江萬勝電力儀表有限公司、通訊接口型號(hào)是東軟載波,電流型號(hào)是5(60)A、已使用壽命400~800天、已讀1000~10000字的電表,將各維信息轉(zhuǎn)化為(2,7,25,3,5,2,2)的向量輸入我們的模型中,經(jīng)過模型計(jì)算輸出結(jié)果是3,表示模型預(yù)測這塊表如果將會(huì)發(fā)生故障那么發(fā)生第三類故障的可能性最高。
關(guān)于樸素貝葉斯模型分類器訓(xùn)練模型及參數(shù)的具體信息,可參考《電表故障樸素貝葉斯結(jié)果預(yù)測.doc》以及《TJDW_Problem_NaiveBayes_Prediction.model》。
4.2 決策樹模型
4.2.1 決策樹原理簡介
決策樹是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過構(gòu)成決策樹來評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法,是直觀運(yùn)用概率分析的一種圖解法。
4.2.2 決策樹實(shí)現(xiàn)
首先通過統(tǒng)計(jì)工作以及數(shù)據(jù)變換,我們需要構(gòu)造出輸出數(shù)據(jù)。然后按照計(jì)算信息熵,以信息熵衰減程度從大到小的順序構(gòu)建樹結(jié)構(gòu)。最后在葉子節(jié)點(diǎn)中,通過投票多數(shù)通過的方式?jīng)Q定分類結(jié)果
4.2.3決策樹模型結(jié)果分析
①入庫電表故障預(yù)測
經(jīng)檢驗(yàn)我們的決策樹模型分類準(zhǔn)確率為68.0%。其中對(duì)第三類故障的分類準(zhǔn)確度較高,第一類次之,對(duì)第二類的分類效果較差。
表3 決策樹入庫電表故障預(yù)測結(jié)果
以下是分類器工作的示意范例,我們將規(guī)范化的芯片型號(hào)、地區(qū)、生產(chǎn)廠商、通訊接口型號(hào)、電流型號(hào)構(gòu)建成一個(gè)向量。例如我們選擇一塊芯片型號(hào)是東軟4.0、地區(qū)是城東、生產(chǎn)廠家是浙江萬勝電力儀表有限公司、通訊接口型號(hào)是東軟載波,電流型號(hào)是5(60)A的電表,將各維信息轉(zhuǎn)化為(2,6,25,3,5)的向量輸入我們的模型中,經(jīng)過模型計(jì)算輸出得出故障為第一類的概率是0.22、第二類的概率是0.05、第三類的概率是0.73,那么我們預(yù)測這塊表將來發(fā)生第三類故障的概率最高。
②已用電表故障預(yù)測
經(jīng)檢驗(yàn)我們的決策樹模型分類準(zhǔn)確率為69.1%。其中對(duì)第三類故障的分類準(zhǔn)確度較高,第一類次之,對(duì)第二類的分類效果較差。
表4 決策樹已用電表故障預(yù)測結(jié)果
以下是分類器工作的示意范例,我們將規(guī)范化的芯片型號(hào)、地區(qū)、生產(chǎn)廠商、通訊接口型號(hào)、電流型號(hào)、電表使用時(shí)間、電表讀數(shù)構(gòu)建成一個(gè)向量。例如我們選擇一塊芯片型號(hào)是東軟4.0、地區(qū)是城東、生產(chǎn)廠家是浙江萬勝電力儀表有限公司、通訊接口型號(hào)是東軟載波,電流型號(hào)是5(60)A、已使用壽命400~800天、已讀1000~10000字的電表,將各維信息轉(zhuǎn)化為(2,6,25,3,5,2,2)的向量輸入我們的模型中,經(jīng)過模型計(jì)算輸出得出故障為第一類的概率是0.38、第二類的概率是0.13、第三類的概率是0.49,那么我們預(yù)測這塊表將來發(fā)生第三類故障的概率最高。
4.3 softmax神經(jīng)網(wǎng)絡(luò)
4.3.1 softmax神經(jīng)網(wǎng)絡(luò)簡介
神經(jīng)網(wǎng)絡(luò)是一種應(yīng)用類似于大腦神經(jīng)突觸連接的結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型。我們所采用的多層感知器是一種前饋神經(jīng)網(wǎng)絡(luò)模型,可以將輸入的多個(gè)數(shù)據(jù)集映射到單一的輸出的數(shù)據(jù)集上。我們?cè)谳敵鰧拥募せ詈瘮?shù)選擇了softmax回歸函數(shù)。Softmax回歸函數(shù)是Logistic回歸模型在多分類問題上的推廣,可以將目標(biāo)變量分為K類。最后我們可以得到樣本屬于各個(gè)類的概率分別是多少。
4.3.2 softmax神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)
首先進(jìn)行數(shù)據(jù)變換,將數(shù)據(jù)變換成我們需要的格式,然后初始化我們的多層感知機(jī)并應(yīng)用調(diào)整的共軛梯度下降算法反復(fù)迭代更新神經(jīng)網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的權(quán)值,輸出結(jié)果使用softmax回歸函數(shù)進(jìn)行激活。等參數(shù)收斂后,我們就得到了一個(gè)softmax神經(jīng)網(wǎng)絡(luò)模型。
4.3.3 softmax神經(jīng)網(wǎng)絡(luò)結(jié)果分析
①入庫電表故障預(yù)測
我們選擇芯片型號(hào)、地區(qū)、生產(chǎn)廠商、通訊接口型號(hào)、電流型號(hào)作為緯度,將各個(gè)可取的屬性值改為0-1表示的布爾值,這樣我們就構(gòu)建了有60個(gè)節(jié)點(diǎn)的輸入層,有兩個(gè)節(jié)點(diǎn)數(shù)分別為12和9的隱藏層以及有3個(gè)輸出節(jié)點(diǎn)的輸出層的softmax多層感知機(jī)。(如表5)
可以看出,在入庫電表故障預(yù)測中我們的softmax多層感知機(jī)模型對(duì)于第三類故障分類準(zhǔn)確率最高,對(duì)于第一類次之,對(duì)于第二類效果最差。
以下是分類器工作的示意范例,我們將規(guī)范化的芯片型號(hào)、地區(qū)、生產(chǎn)廠商、通訊接口型號(hào)、電流型號(hào)構(gòu)建成一個(gè)60維0-1向量。例如我們選擇一塊芯片型號(hào)是東軟4.0、地區(qū)是城東、生產(chǎn)廠家是浙江萬勝電力儀表有限公司、通訊接口型號(hào)是東軟載波,電流型號(hào)是5(60)A,將各維信息轉(zhuǎn)化為向量輸入我們的模型中,經(jīng)過模型計(jì)算輸出得出故障為第一類的概率是0.155、第二類的概率是0.030、第三類的概率是0.815,那么我們預(yù)測這塊表將來發(fā)生第三類故障的概率最高。
②已用電表故障預(yù)測
我們選擇芯片型號(hào)、地區(qū)、生產(chǎn)廠商、通訊接口型號(hào)、電流型號(hào)、電表使用時(shí)間、電表讀數(shù)作為緯度,將各個(gè)可取的屬性值改為0-1表示的布爾值,這樣我們就構(gòu)建了有70個(gè)節(jié)點(diǎn)的輸入層,有兩個(gè)節(jié)點(diǎn)數(shù)分別為13和10的隱藏層以及有3個(gè)輸出節(jié)點(diǎn)的輸出層的softmax多層感知機(jī)。(表6)
可以看出在已用電表故障預(yù)測中,我們的softmax多層感知機(jī)模型對(duì)于第三類故障分類準(zhǔn)確率最高,對(duì)于第一類次之,對(duì)于第二類效果最差。
以下是分類器工作的示意范例,我們將規(guī)范化的芯片型號(hào)、地區(qū)、生產(chǎn)廠商、通訊接口型號(hào)、電流型號(hào)、電表使用時(shí)間、電表讀數(shù)構(gòu)建成一個(gè)70維0-1向量。例如我們選擇一塊芯片型號(hào)是東軟4.0、地區(qū)是城東、生產(chǎn)廠家是浙江萬勝電力儀表有限公司、通訊接口型號(hào)是東軟載波,電流型號(hào)是5(60)A、已使用壽命400~800天、已讀1000~10000字的電表,將各維信息轉(zhuǎn)化為向量輸入我們的模型中,經(jīng)過模型計(jì)算輸出得出故障為第一類的概率是0.307、第二類的概率是0.022、第三類的概率是0.672,那么我們預(yù)測這塊表將來發(fā)生第三類故障的概率最高。
5 結(jié)論
兩種方案唯一的區(qū)別在于RS485總線、低壓電力線載波混合抄表系統(tǒng)增加了一層物理設(shè)備,即采集終端,使得系統(tǒng)由主站、集中器、采集終端和RS485總線電能表四層物理設(shè)備構(gòu)成。
①綜合性能(性價(jià)比),方案1占優(yōu);
②在通信性能、遠(yuǎn)程斷送電控制、抗擾能力方面,方案1優(yōu)勢明顯;
③在功能擴(kuò)展、設(shè)備成本方面,方案2占優(yōu);
④方案2最大缺點(diǎn)是安裝、調(diào)試和維護(hù)工作量大,且RS485總線抗干擾能力相對(duì)較弱;
⑤方案1最大缺點(diǎn)是一體化載波電能表成本相對(duì)較高。
摘 要:當(dāng)前,大數(shù)據(jù)分析在作戰(zhàn)指揮中的作用越來越突出。然而,大數(shù)據(jù)分析有時(shí)也會(huì)對(duì)作戰(zhàn)指揮產(chǎn)生不利影響。該文針對(duì)大數(shù)據(jù)分析的特點(diǎn)和作戰(zhàn)指揮對(duì)大數(shù)據(jù)分析的需求,對(duì)大數(shù)據(jù)分析在作戰(zhàn)指揮中可能存在的困局進(jìn)行了簡要分析,并提出了破解困局相應(yīng)的對(duì)策。
關(guān)鍵詞:大數(shù)據(jù)分析 作戰(zhàn)指揮 困局 對(duì)策
目前,很多國家已把大數(shù)據(jù)上升到國家戰(zhàn)略加以推動(dòng),奪取“數(shù)據(jù)主導(dǎo)權(quán)”的重要性日益突出。未來影響、決定軍事行動(dòng)的核心是數(shù)據(jù)。在信息化戰(zhàn)場上,不同偵察平臺(tái)搜集的情報(bào)、作戰(zhàn)指揮中心的各條指令、作戰(zhàn)力量的實(shí)時(shí)反饋信息等,都是以數(shù)據(jù)的形式存在并發(fā)揮作用,這些數(shù)據(jù)不僅量很大,而且類型多樣,來自多源,且以實(shí)時(shí)、迭代的方式來實(shí)現(xiàn)[1]。正因?yàn)槿绱耍瑪?shù)據(jù)的積累、數(shù)據(jù)存儲(chǔ)能力、數(shù)據(jù)分析和處理能力無疑將成為獲取戰(zhàn)場優(yōu)勢的決定性因素。因此,大數(shù)據(jù)分析已成作戰(zhàn)指揮的核心要素之一。但是,正如條形碼的應(yīng)用存在缺陷一樣,最新的大數(shù)據(jù)分析也可能導(dǎo)致誤入歧途[2]。
1 作戰(zhàn)指揮中大數(shù)據(jù)分析的特點(diǎn)與作用
一般來說,大數(shù)據(jù)具有數(shù)據(jù)類型多樣、數(shù)據(jù)處理高速、數(shù)據(jù)規(guī)模海量和數(shù)據(jù)價(jià)值密度低等特點(diǎn)[3]。在作戰(zhàn)指揮中,從數(shù)據(jù)到?jīng)Q策的時(shí)效性要求高,要求在規(guī)定的時(shí)限內(nèi)挖掘出高價(jià)值的輔助決策信息,這對(duì)其大數(shù)據(jù)分析提出了嚴(yán)峻挑戰(zhàn)。
作戰(zhàn)決策是作戰(zhàn)指揮的核心,大數(shù)據(jù)之所以引起作戰(zhàn)指揮領(lǐng)域的高度重視,其重要原因在于大數(shù)據(jù)直接瞄準(zhǔn)作戰(zhàn)指揮的核心。作戰(zhàn)決策過去是科學(xué)技術(shù)較難滲透的領(lǐng)域,基于指揮員直覺和經(jīng)驗(yàn)判斷的決策模式一直占據(jù)主導(dǎo)地位,這也被一些人認(rèn)為是作戰(zhàn)指揮的“軟肋”。大數(shù)據(jù)分析通過創(chuàng)新式挖掘海量數(shù)據(jù),形成從數(shù)據(jù)到?jīng)Q策的快速反應(yīng)鏈路,從而構(gòu)建以諸軍兵種、戰(zhàn)場環(huán)境間數(shù)據(jù)共享為基礎(chǔ)的自主式?jīng)Q策支持系統(tǒng),化數(shù)據(jù)優(yōu)勢為決策優(yōu)勢,以技術(shù)驅(qū)動(dòng)指揮決策模式的變革。目前,在作戰(zhàn)指揮領(lǐng)域,針對(duì)作戰(zhàn)數(shù)據(jù)的分析處理能力還很薄弱,加強(qiáng)大數(shù)據(jù)分析不僅能為作戰(zhàn)指揮提供有價(jià)值的決策信息,而且有助于快速建立從數(shù)據(jù)到?jīng)Q策的指揮鏈路、有效解決指揮信息流通的一些“瓶頸”問題,以確保奪取作戰(zhàn)的“數(shù)據(jù)主導(dǎo)權(quán)”。
2 大數(shù)據(jù)分析在作戰(zhàn)指揮中可能存在的困局
在信息化戰(zhàn)場上,事物之間的關(guān)聯(lián)性越來越普遍;但許多關(guān)聯(lián)隱藏很深,僅靠直覺和經(jīng)驗(yàn)判斷難以發(fā)現(xiàn)。相關(guān)關(guān)系是大數(shù)據(jù)分析的核心。一般來說,兩種數(shù)據(jù)的相關(guān)關(guān)系可通過當(dāng)一種數(shù)據(jù)產(chǎn)生變化時(shí)引起另一種數(shù)據(jù)的變化程度來衡量,變化程度越高,說明這兩種數(shù)據(jù)的關(guān)聯(lián)度就越高。大數(shù)據(jù)分析通過識(shí)別有用的關(guān)聯(lián)物來進(jìn)行分析,關(guān)聯(lián)物數(shù)量越多,種類越豐富,分析的綜合程度就越高,判斷預(yù)測的準(zhǔn)確性也就越高。在作戰(zhàn)指揮領(lǐng)域,大數(shù)據(jù)分析主要通過對(duì)戰(zhàn)場大量的、相互關(guān)聯(lián)的終端產(chǎn)生的數(shù)據(jù)進(jìn)行相關(guān)關(guān)系的分析,進(jìn)而形成判斷、得出結(jié)論,并做出預(yù)測。
然而,在作戰(zhàn)指揮中,由于從數(shù)據(jù)到?jīng)Q策的高時(shí)效性和高對(duì)抗性,大數(shù)據(jù)分析可能存在以下困局:
由于全樣本數(shù)據(jù)需要更多的時(shí)間去分析,采用全樣本數(shù)據(jù)分析有時(shí)難以滿足作戰(zhàn)決策的高時(shí)效性要求[4];此外,作戰(zhàn)數(shù)據(jù)難免會(huì)包含一些不良信息;因此,如何動(dòng)態(tài)地組織數(shù)據(jù)樣本既使其數(shù)據(jù)價(jià)值密度提升又使其分析能滿足作戰(zhàn)決策的時(shí)效性要求是一個(gè)十分棘手的問題。
大數(shù)據(jù)樣本不僅耗費(fèi)更多的時(shí)間去分析,它們往往還包含所含個(gè)體的許多不同信息,從統(tǒng)計(jì)學(xué)的角度講,這意味著這些樣本是“高維的”,而更多的維度增加了獲得欺騙性關(guān)聯(lián)的風(fēng)險(xiǎn)。在作戰(zhàn)指揮中,一旦大數(shù)據(jù)分析得出的分析結(jié)論包含了欺騙性關(guān)聯(lián)的信息,可能給作戰(zhàn)決策造成嚴(yán)重的不利影響,而發(fā)現(xiàn)欺騙性關(guān)聯(lián)絕非易事。因此,防范欺騙性關(guān)聯(lián)是作戰(zhàn)指揮中大數(shù)據(jù)分析面臨的一個(gè)難點(diǎn)問題。
上述兩個(gè)問題是作戰(zhàn)指揮中大數(shù)據(jù)分析迫切需要解決的問題,否則作戰(zhàn)指揮中大數(shù)據(jù)分析的可靠性難免將遭受質(zhì)疑。
3 破解作戰(zhàn)指揮中大數(shù)據(jù)分析困局的對(duì)策
作戰(zhàn)指揮產(chǎn)生大量、異質(zhì)結(jié)構(gòu)的數(shù)據(jù)集,為了提高大數(shù)據(jù)分析的時(shí)效性,應(yīng)在作戰(zhàn)決策知識(shí)情景庫的引導(dǎo)下動(dòng)態(tài)地組織樣本數(shù)據(jù)集。作戰(zhàn)決策知識(shí)情景庫應(yīng)該包含戰(zhàn)場態(tài)勢的框架性信息。一般來說,為便于激活數(shù)據(jù)關(guān)聯(lián),作戰(zhàn)決策知識(shí)情景庫包括主題關(guān)鍵詞表、子主題關(guān)鍵詞表和配屬關(guān)鍵詞表。一個(gè)主題關(guān)鍵詞代表戰(zhàn)場情況的一個(gè)重要方面,它對(duì)應(yīng)若干子主題關(guān)鍵詞,而一個(gè)子主題關(guān)鍵詞又對(duì)應(yīng)若干配屬關(guān)鍵詞,配屬關(guān)鍵詞通常代表局部的細(xì)節(jié)。對(duì)作戰(zhàn)決策來說,一條高價(jià)值的預(yù)測結(jié)論通常有一個(gè)主題,并且還與其它主題相關(guān);因此,用于分析的樣本數(shù)據(jù)集應(yīng)包含與所涉及主題所有配屬關(guān)鍵詞相關(guān)的數(shù)據(jù),并過濾掉失效或虛假的信息。作戰(zhàn)決策知識(shí)情景庫既是動(dòng)態(tài)組織樣本數(shù)據(jù)集的牽引,也為樣本數(shù)據(jù)集的數(shù)據(jù)挖掘提供了導(dǎo)向性信息[5]。利用作戰(zhàn)決策知識(shí)情景庫動(dòng)態(tài)組織樣本數(shù)據(jù)集提高了數(shù)據(jù)質(zhì)量和整體一致性,避免了無關(guān)數(shù)據(jù)的干擾,無疑使數(shù)據(jù)分析更有針對(duì)性,也更有效率。
在作戰(zhàn)指揮的大數(shù)據(jù)分析中,為了避免分析結(jié)論包含欺騙性關(guān)聯(lián)的情況發(fā)生,需要對(duì)分析結(jié)論進(jìn)行檢驗(yàn),以證實(shí)結(jié)論中每一項(xiàng)關(guān)聯(lián)的真實(shí)性。競爭假設(shè)分析法是一個(gè)有效的證偽方法,它將結(jié)論中每一項(xiàng)關(guān)聯(lián)看作一個(gè)假設(shè),平等地對(duì)待各個(gè)假設(shè),通過尋找證據(jù)反駁假設(shè)的方法來識(shí)別假設(shè),只有不能被駁倒的假設(shè)才被接受是真實(shí)的。競爭假設(shè)分析比較適合用于對(duì)分析結(jié)論進(jìn)行檢驗(yàn)[5]。客觀地說,利用競爭假設(shè)分析法對(duì)大數(shù)據(jù)分析結(jié)論進(jìn)行檢驗(yàn)需要建立相應(yīng)的評(píng)判標(biāo)準(zhǔn)、規(guī)則和知識(shí)庫,并設(shè)計(jì)相應(yīng)的數(shù)據(jù)挖掘算法;這本身就是一項(xiàng)具有挑戰(zhàn)性的工作。值得強(qiáng)調(diào)的是,對(duì)分析結(jié)論中的關(guān)聯(lián)進(jìn)行識(shí)別不僅能有效防范因數(shù)據(jù)的多維度產(chǎn)生欺騙性關(guān)聯(lián)的風(fēng)險(xiǎn),而且能避免因過度關(guān)注某一類數(shù)據(jù)(如最新的數(shù)據(jù))而陷入“一維”視角。對(duì)作戰(zhàn)指揮的大數(shù)據(jù)分析而言,對(duì)分析結(jié)論進(jìn)行檢驗(yàn)無疑會(huì)提高其質(zhì)量,也是其不可缺少的一部分。
4 結(jié)語
在信息化戰(zhàn)爭中,指揮人員可以有效利用大數(shù)據(jù)探尋信息化戰(zhàn)爭的內(nèi)在規(guī)律,而不是“淹沒”在海量數(shù)據(jù)中一籌莫展。因此,大數(shù)據(jù)分析在作戰(zhàn)指揮中的作用越來越突出。為了快速為作戰(zhàn)決策提供高價(jià)值的情報(bào),大數(shù)據(jù)分析必須解決動(dòng)態(tài)組織樣本數(shù)據(jù)和對(duì)分析結(jié)論進(jìn)行檢驗(yàn)的難題。當(dāng)前,作戰(zhàn)指揮領(lǐng)域大數(shù)據(jù)分析的研究方興未艾,有許多難題尚待解決。面對(duì)諸多困難與挑戰(zhàn),只有調(diào)動(dòng)多方力量,充分吸收并借鑒各相關(guān)領(lǐng)域研究的方法或成果,勇于探索和創(chuàng)新,才能實(shí)現(xiàn)大數(shù)據(jù)分析有效服務(wù)于作戰(zhàn)指揮的目標(biāo)。
摘 要:大數(shù)據(jù)是當(dāng)今世界信息化建設(shè)發(fā)展的大趨勢,它帶來了一場工作、生活和思維上的大變革,也引發(fā)了對(duì)大數(shù)據(jù)背景下軍隊(duì)審計(jì)數(shù)據(jù)分析的思考。文章基于大數(shù)據(jù)發(fā)展趨勢和軍隊(duì)審計(jì)工作現(xiàn)狀,指出應(yīng)從數(shù)據(jù)基礎(chǔ)式審計(jì)、研判數(shù)據(jù)結(jié)構(gòu)、運(yùn)用挖掘型技術(shù)、構(gòu)建安全體系等方面入手,加強(qiáng)大數(shù)據(jù)背景下軍隊(duì)審計(jì)數(shù)據(jù)與信息化建設(shè)。
關(guān)鍵詞:大數(shù)據(jù) 軍隊(duì)審計(jì) 數(shù)據(jù)分析
大數(shù)據(jù)是以云計(jì)算為基礎(chǔ),通過信息存儲(chǔ)、分享和挖掘,將大量、高速、多變的終端數(shù)據(jù)存儲(chǔ)下來并分析計(jì)算,尋求解決問題的有效方法。隨著軍隊(duì)信息化建設(shè)的不斷推進(jìn),未來軍事經(jīng)濟(jì)活動(dòng)都將以數(shù)據(jù)信息流的形式展現(xiàn)和保存,產(chǎn)生的數(shù)據(jù)量增長迅速,數(shù)據(jù)種類和格式日漸豐富。面對(duì)一個(gè)個(gè)數(shù)量龐大、種類繁雜的數(shù)據(jù)信息源,審計(jì)機(jī)關(guān)不僅要具備對(duì)海量數(shù)據(jù)的采集和存儲(chǔ)的能力,更重要的是能夠迅速分析和挖掘數(shù)據(jù),從中找出審計(jì)線索、發(fā)現(xiàn)問題、尋求對(duì)策。
一、大數(shù)據(jù)的定義與特征
根據(jù)維基百科的定義,大數(shù)據(jù)是指無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。對(duì)于大數(shù)據(jù),美國著名的顧能公司給出了這樣的定義:是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。隨著大數(shù)據(jù)研究的深入,大數(shù)據(jù)概念的內(nèi)涵和外延不斷地產(chǎn)生變化,業(yè)界對(duì)其定義尚未完全統(tǒng)一。目前主流的定義基本是從大數(shù)據(jù)的特征出發(fā),試圖通過闡述和歸納這些特征來給出大數(shù)據(jù)的定義,其中比較有代表性的是4V。大數(shù)據(jù)的4個(gè)“V”有四個(gè)層面:一是數(shù)據(jù)體量巨大。從TB級(jí)別,躍升到PB級(jí)別。二是數(shù)據(jù)類型繁多。包括網(wǎng)絡(luò)日志、視頻、圖片、地理位置等信息。三是處理速度快。1秒定律,可從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息,這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。四是只要合理利用數(shù)據(jù)并對(duì)其進(jìn)行正確、準(zhǔn)確的分析,將會(huì)帶來很高的價(jià)值回報(bào)。業(yè)界將其歸納為4個(gè)“V”――Volume(數(shù)據(jù)體量大)、Variety(數(shù)據(jù)類型繁多)、Velocity(處理速度快)、Value(價(jià)值密度低)。大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用,具有數(shù)據(jù)量大、查詢分析復(fù)雜等特點(diǎn),強(qiáng)調(diào)將數(shù)據(jù)結(jié)合到業(yè)務(wù)流程和決策過程中,部分類型的數(shù)據(jù)必須實(shí)時(shí)分析才能對(duì)業(yè)務(wù)產(chǎn)生價(jià)值。
二、大數(shù)據(jù)背景給軍隊(duì)審計(jì)數(shù)據(jù)分析帶來的機(jī)遇和挑戰(zhàn)
(一)大數(shù)據(jù)背景給軍隊(duì)審計(jì)數(shù)據(jù)分析帶來的機(jī)遇
1.軍隊(duì)審計(jì)數(shù)據(jù)分析的認(rèn)同感大為增強(qiáng)。軍隊(duì)審計(jì)部門作為綜合性的經(jīng)濟(jì)監(jiān)督部門,一直秉承數(shù)據(jù)說話的傳統(tǒng)。審計(jì)報(bào)告中無論是綜合評(píng)價(jià),還是揭示問題,無一不是以數(shù)據(jù)為支撐的。在大數(shù)據(jù)背景下,海量數(shù)據(jù)離散地存儲(chǔ)于不同信息系統(tǒng)中??沙浞掷脭?shù)據(jù)倉庫、聯(lián)機(jī)分析、數(shù)據(jù)挖掘和數(shù)據(jù)可視化等技術(shù),對(duì)這些數(shù)據(jù)進(jìn)行關(guān)聯(lián)并深度挖掘分析,科學(xué)評(píng)估經(jīng)費(fèi)的使用情況和法規(guī)的實(shí)施效果,從而得出客觀的審計(jì)結(jié)論。所有這一切都將得到各級(jí)黨委和被審計(jì)單位的高度認(rèn)同,從而進(jìn)一步提升軍隊(duì)審計(jì)自身的地位。
2.軍隊(duì)審計(jì)數(shù)據(jù)分析所需的基礎(chǔ)數(shù)據(jù)的獲取將變得更為便利。在破除了軍隊(duì)內(nèi)部協(xié)同思想理念上的障礙后,隨著大數(shù)據(jù)技術(shù)發(fā)展,跨越系統(tǒng)、跨越平臺(tái)、跨越數(shù)據(jù)流結(jié)構(gòu)的技術(shù)將使軍隊(duì)內(nèi)部縱向、橫向部門得以流暢協(xié)同。軍隊(duì)審計(jì)部門不再需要“點(diǎn)對(duì)點(diǎn)”地與被審計(jì)單位進(jìn)行聯(lián)網(wǎng),在內(nèi)部局域網(wǎng)設(shè)定的許可權(quán)限內(nèi),可以直接查詢和利用相關(guān)數(shù)據(jù)信息,極大地節(jié)約了審計(jì)成本;同時(shí)由于利用大數(shù)據(jù)技術(shù),數(shù)據(jù)處理及分析響應(yīng)時(shí)間將大幅減少,審計(jì)工作的效率將明顯提高,可以同時(shí)對(duì)多個(gè)類別、多種領(lǐng)域的數(shù)據(jù)進(jìn)行分析、處理。
3.軍隊(duì)審計(jì)數(shù)據(jù)分析將有助于提高黨委決策的科學(xué)性和準(zhǔn)確性,推動(dòng)預(yù)測預(yù)警和應(yīng)急響應(yīng)機(jī)制建設(shè),更加有效地規(guī)范軍事經(jīng)濟(jì)活動(dòng)。審計(jì)人員可以通過對(duì)歷年海量數(shù)據(jù)的統(tǒng)計(jì)分析,挖掘出軍事經(jīng)濟(jì)活動(dòng)的特點(diǎn)規(guī)律,對(duì)各類違規(guī)違紀(jì)行為進(jìn)行總結(jié)歸納,為黨委建章立制提供參考依據(jù);同時(shí)還能科學(xué)地評(píng)估管理規(guī)章的執(zhí)行效果,從而幫助各級(jí)黨委不斷發(fā)現(xiàn)問題、整改落實(shí)。隨著審計(jì)分析的進(jìn)一步深化,審計(jì)分析將超越傳統(tǒng)的數(shù)據(jù)分析方法,不但是對(duì)純數(shù)據(jù)可以進(jìn)行分析挖掘,對(duì)財(cái)務(wù)賬表、報(bào)告等都可以進(jìn)行深度挖掘、人工智能。
(二)大數(shù)據(jù)背景給軍隊(duì)審計(jì)數(shù)據(jù)分析帶來的挑戰(zhàn)
大數(shù)據(jù)在給軍隊(duì)審計(jì)信息化帶來機(jī)遇的同時(shí),也帶來前所未有的挑戰(zhàn):一是實(shí)現(xiàn)資源統(tǒng)一規(guī)劃和使用,必須以數(shù)據(jù)編碼和信息標(biāo)準(zhǔn)統(tǒng)一、相互之間兼容互聯(lián)為前提。由于目前缺乏制度依據(jù),部門間橫向協(xié)同難,原有的“信息孤島”將給審計(jì)機(jī)關(guān)獲取審計(jì)數(shù)據(jù)以及進(jìn)行持續(xù)化審計(jì)造成困難。二是面對(duì)數(shù)量龐大、種類繁雜的數(shù)據(jù)信息源,審計(jì)機(jī)關(guān)不僅要具備對(duì)海量數(shù)據(jù)的采集和存儲(chǔ)的能力,更重要的是能夠迅速分析和挖掘數(shù)據(jù),從傳統(tǒng)的“經(jīng)驗(yàn)依賴”轉(zhuǎn)化為“數(shù)據(jù)依賴”,審計(jì)人員的數(shù)據(jù)駕馭能力將受到考驗(yàn)。三是審計(jì)業(yè)務(wù)流程大多以數(shù)據(jù)信息形式展現(xiàn),資金流向更多體現(xiàn)為數(shù)據(jù)信息流的交換,使得違規(guī)違紀(jì)行為更加隱蔽和多樣,微小的數(shù)據(jù)變動(dòng)就可能造成經(jīng)濟(jì)損失。以往僅限于重點(diǎn)人員和財(cái)務(wù)的審計(jì)已經(jīng)不能滿足需要,抽樣分析以及單一的財(cái)務(wù)賬目分析也難以發(fā)現(xiàn)微小數(shù)據(jù)異常,這就要求審計(jì)機(jī)關(guān)對(duì)審計(jì)對(duì)象進(jìn)行全面覆蓋。四是審計(jì)機(jī)關(guān)作為軍事經(jīng)濟(jì)運(yùn)行安全的免疫系統(tǒng),不僅要對(duì)已存在的問題進(jìn)行查處和修補(bǔ),還要對(duì)潛在的風(fēng)險(xiǎn)進(jìn)行及時(shí)的揭示和抵御,更要通過大數(shù)據(jù)這個(gè)金礦,從更高層面、更全范圍、更廣視角為上級(jí)黨委提供系統(tǒng)性、綜合性、前瞻性的審計(jì)建議。
三、大數(shù)據(jù)背景下軍隊(duì)審計(jì)數(shù)據(jù)分析的策略
(一)明確工作目標(biāo)導(dǎo)向,實(shí)施數(shù)據(jù)基礎(chǔ)式審計(jì)
傳統(tǒng)的以審計(jì)組劃分的分散式審計(jì)模式已不能適應(yīng)大數(shù)據(jù)背景下審計(jì)數(shù)據(jù)分析工作要求。首先,當(dāng)前軍隊(duì)審計(jì)工作要建立健全制度、整合審計(jì)資源,結(jié)合審計(jì)人員的專業(yè)理論素養(yǎng)、實(shí)踐工作經(jīng)驗(yàn)、數(shù)據(jù)處理能力等因素,著手組建數(shù)據(jù)集中分析模式團(tuán)隊(duì)。其次,明確審計(jì)工作目標(biāo)導(dǎo)向,按照“總體全面分析、重點(diǎn)業(yè)務(wù)分析、重點(diǎn)事項(xiàng)分析”逐層遞進(jìn)的思路,以系統(tǒng)全面的數(shù)據(jù)信息源為基礎(chǔ),堅(jiān)持“面向業(yè)務(wù)需求、指導(dǎo)審計(jì)實(shí)踐、推動(dòng)數(shù)據(jù)分析”的原則開展審計(jì)數(shù)據(jù)分析工作。最后,要理清軍隊(duì)審計(jì)數(shù)據(jù)分析的工作思路,運(yùn)用信息系統(tǒng)實(shí)施數(shù)據(jù)基礎(chǔ)式審計(jì)方法,全面分析被審計(jì)單位在經(jīng)濟(jì)活動(dòng)中存在的問題與不足,為軍隊(duì)審計(jì)工作的順利開展提供數(shù)據(jù)支撐和技術(shù)保證。
(二)研判后臺(tái)數(shù)據(jù)結(jié)構(gòu),掌握重點(diǎn)數(shù)據(jù)資源
在大數(shù)據(jù)時(shí)代,軍事經(jīng)濟(jì)數(shù)據(jù)將呈現(xiàn)指數(shù)增長,挖掘重點(diǎn)及敏感數(shù)據(jù)審計(jì)的難度日益加大。做好審計(jì)數(shù)據(jù)的掘取、存儲(chǔ)、處理與應(yīng)用,對(duì)提高審計(jì)效率、實(shí)現(xiàn)分析結(jié)果的精準(zhǔn)化具有重要作用。通過檢查被審計(jì)單位內(nèi)部控制制度,審查單位內(nèi)部對(duì)不同業(yè)務(wù)數(shù)據(jù)的使用管理是否到位,數(shù)據(jù)庫管理和安全操作制度是否完善,重點(diǎn)領(lǐng)域數(shù)據(jù)庫常態(tài)監(jiān)管措施是否嚴(yán)格,移動(dòng)設(shè)備安全使用規(guī)程是否執(zhí)行;依據(jù)數(shù)據(jù)庫設(shè)計(jì)文檔和數(shù)據(jù)注釋等媒介,研究論證后臺(tái)數(shù)據(jù)結(jié)構(gòu),確定重點(diǎn)、敏感信息數(shù)據(jù)庫范圍;采取穿行測試法、重新執(zhí)行法、代碼審查法、文檔審查法等技術(shù)手段深入挖掘,切實(shí)掌握重點(diǎn)事項(xiàng)、信息、賬表和報(bào)告間的勾稽關(guān)系。
(三)運(yùn)用挖掘型分析技術(shù),開展數(shù)據(jù)深度分析
目前軍隊(duì)審計(jì)中應(yīng)用較多的是查詢型分析和驗(yàn)證型分析,無法滿足深刻揭示軍事經(jīng)濟(jì)活動(dòng)內(nèi)在規(guī)律的現(xiàn)實(shí)需要,必須要引入挖掘型分析技術(shù)。挖掘型分析是利用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘工具進(jìn)行的審計(jì)分析,主要有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則等方法。運(yùn)用挖掘型數(shù)據(jù)分析技術(shù),首先要做好審計(jì)數(shù)據(jù)的分類、存儲(chǔ)、快速調(diào)用等工作,整合分析數(shù)據(jù)資源,搭建云數(shù)據(jù)存儲(chǔ)平臺(tái),完善數(shù)據(jù)整理和研判機(jī)制,實(shí)現(xiàn)重點(diǎn)數(shù)據(jù)庫間的兼容互聯(lián),共享審計(jì)云平臺(tái)服務(wù)器運(yùn)算能力資源。其次,要研發(fā)數(shù)據(jù)審計(jì)方法和分析工具,運(yùn)用移動(dòng)辦公、云計(jì)算等技術(shù)對(duì)海量數(shù)據(jù)進(jìn)行遠(yuǎn)程分析,深度分析審計(jì)疑點(diǎn)及問題線索,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)分析結(jié)果的精確化。
(四)把握系統(tǒng)運(yùn)行特點(diǎn),構(gòu)建數(shù)據(jù)安全體系
大數(shù)據(jù)在給軍隊(duì)審計(jì)工作創(chuàng)新發(fā)展帶來機(jī)遇的同時(shí),也為信息資源安全帶來了挑戰(zhàn)。軍隊(duì)審計(jì)部門掌握了大量關(guān)系到國家安全和國防實(shí)力的經(jīng)濟(jì)數(shù)據(jù),這些寶貴的數(shù)據(jù)資源一旦損失,將會(huì)對(duì)國家安全造成無法挽回的損失和后果。要確保數(shù)據(jù)資源安全,必須全面了解被審計(jì)單位信息系統(tǒng)的管理體制、總體架構(gòu)、規(guī)劃設(shè)計(jì)、管理水平等特點(diǎn),重點(diǎn)調(diào)研審計(jì)信息系統(tǒng)的數(shù)據(jù)資源,尤其是清楚掌握后臺(tái)數(shù)據(jù)庫的的項(xiàng)目、數(shù)量、功能模塊、版本、管理維護(hù)部門、訪問模式、數(shù)據(jù)存儲(chǔ)和備份等信息。要重視審計(jì)數(shù)據(jù)及其信息安全系統(tǒng)的建設(shè),創(chuàng)新大數(shù)據(jù)信息安全審計(jì)技術(shù)的研發(fā),加強(qiáng)對(duì)重點(diǎn)領(lǐng)域敏感審計(jì)數(shù)據(jù)的監(jiān)管,運(yùn)用大數(shù)據(jù)技術(shù)應(yīng)對(duì)高級(jí)可持續(xù)攻擊,并精心培養(yǎng)一大批既具備軍隊(duì)審計(jì)業(yè)務(wù)知識(shí)又具備數(shù)據(jù)挖掘和應(yīng)用開發(fā)能力的專業(yè)技術(shù)人才,著力構(gòu)建完善的數(shù)據(jù)安全體系。
(責(zé)編:若佳)
摘要:隨著大數(shù)據(jù)時(shí)代的到來,大數(shù)據(jù)分析也應(yīng)運(yùn)而生。將大數(shù)據(jù)分析應(yīng)用于數(shù)學(xué)課堂教學(xué)是一種全新的嘗試。本文簡要分析了大數(shù)據(jù)分析的概念,從不同方面對(duì)基于大數(shù)據(jù)分析下的教學(xué)課堂教學(xué)進(jìn)行了深入研究,結(jié)合筆者豐富的教學(xué)實(shí)踐,最終提出了一些基于大數(shù)據(jù)分析下的數(shù)學(xué)課堂教學(xué)的策略。希望通過本文的分析研究,能夠?yàn)楦玫剡M(jìn)行數(shù)學(xué)課堂教學(xué),提供一些有益的借鑒與參考。
關(guān)鍵詞:大數(shù)據(jù)分析;數(shù)學(xué)課堂;教學(xué)研究
如今,我們已經(jīng)進(jìn)入到了一個(gè)“數(shù)據(jù)驅(qū)動(dòng)學(xué)校、分析改革教育”的大數(shù)據(jù)時(shí)代,大數(shù)據(jù)正影響著傳統(tǒng)教育與傳統(tǒng)教學(xué),未來大數(shù)據(jù)必將改變傳統(tǒng)教育的面貌[1]。隨著大數(shù)據(jù)時(shí)代的到來,大數(shù)據(jù)分析也相應(yīng)地產(chǎn)生。因而,研究基于大數(shù)據(jù)分析下的數(shù)學(xué)課堂教學(xué)具有較為重要的理論意義和現(xiàn)實(shí)意義。
一、大數(shù)據(jù)分析的概念
1.大數(shù)據(jù)的概念。就數(shù)據(jù)本身而言,其是記載信息的一種載體,當(dāng)然,也是知識(shí)的來源。數(shù)據(jù)的不斷增加,表示其相應(yīng)的記錄范圍、測量范圍和分析范圍在不斷擴(kuò)大,表示人類獲取的知識(shí)越來越多,獲取的信息量越來越大,而知識(shí)的邊界也在相應(yīng)地不斷擴(kuò)展與延伸。所謂大數(shù)據(jù),可以從宏觀和圍觀兩個(gè)角度來進(jìn)行理解,有不少國內(nèi)外學(xué)者選擇從宏觀角度理解和研究大數(shù)據(jù),其對(duì)于大數(shù)據(jù)的概念做了以下定義,即需要新處理模式才可以具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn),大數(shù)據(jù)具有4V特點(diǎn),分別是Volume(數(shù)據(jù)量大)、Velocity(實(shí)時(shí)性強(qiáng))、Variety(種類多樣)、Veracity(真實(shí)性),另外還有一部分學(xué)者認(rèn)為應(yīng)當(dāng)再加兩個(gè)V,即Value(價(jià)值)和Visualization(可視化)[2]。而維基百科給出的定義則是無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。
2.大數(shù)據(jù)分析的概念。所謂大數(shù)據(jù)分析,即對(duì)規(guī)模巨大、數(shù)量龐大的數(shù)據(jù)進(jìn)行分析。其具有四個(gè)非常顯著的特征:首先,數(shù)據(jù)量大;其次,速度很快;再次,種類繁多;最后,真實(shí)性。而大數(shù)據(jù)分析的目的就是要通過對(duì)歷史數(shù)據(jù)的分析和挖掘,科學(xué)總結(jié)與發(fā)現(xiàn)其中蘊(yùn)藏的規(guī)律和模式,并結(jié)合源源不斷的動(dòng)態(tài)流式數(shù)據(jù)去預(yù)測事物未來的發(fā)展趨勢[3]。
二、基于大數(shù)據(jù)分析下的數(shù)學(xué)課堂教學(xué)策略
1.更新教學(xué)觀念,構(gòu)建數(shù)據(jù)分析觀念。物質(zhì)決定意識(shí),意識(shí)是物質(zhì)的反映。在高中數(shù)學(xué)教學(xué)中,教師在課堂教學(xué)的過程中,教學(xué)方法、教學(xué)模式難免會(huì)受其自身教學(xué)觀念的影響,因而數(shù)學(xué)教師首先必須先更新教學(xué)觀念,構(gòu)建數(shù)據(jù)分析觀念。在新課標(biāo)中提出了“數(shù)據(jù)分析觀念”一詞,這一詞是由“統(tǒng)計(jì)觀念”變更而來。由此可見,隨著大數(shù)據(jù)時(shí)代的來臨,數(shù)據(jù)分析也日益受到人們的關(guān)注與重視。因而,有必要在數(shù)學(xué)課堂教學(xué)構(gòu)建相應(yīng)的背景,構(gòu)建數(shù)據(jù)分析觀念,使學(xué)生樹立數(shù)據(jù)分析的意識(shí),并對(duì)其予以重視[4]。
2.勇于探索,在數(shù)學(xué)教學(xué)中嘗試分層教學(xué)。在現(xiàn)行的高中數(shù)學(xué)課堂教學(xué)上,一般采取班級(jí)統(tǒng)一上課的模式,這樣的教學(xué)模式比較固定,缺乏新意,不利于培養(yǎng)和發(fā)展學(xué)生的個(gè)性,更不利于挖掘?qū)W生的潛能。我國古代教育師祖孔子曾提出“因材施教”,就是要求教師根據(jù)每個(gè)學(xué)生不同的情況,對(duì)學(xué)生進(jìn)行不同類型的教育。在高中數(shù)學(xué)課堂教學(xué)中,教師可以對(duì)學(xué)生嘗試分層教學(xué)。一個(gè)班有眾多的學(xué)生,學(xué)生與學(xué)生之間存在著個(gè)體、個(gè)性差異,對(duì)不同的學(xué)生進(jìn)行不同類型的教學(xué),能夠促進(jìn)有效教學(xué)。對(duì)于個(gè)性化差異和個(gè)體化差異比較明顯的小學(xué)生,也可以嘗試不同的教學(xué)方法,嘗試全新的教學(xué)模式,對(duì)于不同基礎(chǔ)和不同背景下的學(xué)生,要正視其存在的個(gè)體差異,對(duì)他們進(jìn)行分層次的教學(xué),這樣有利于促進(jìn)學(xué)生更好地學(xué)習(xí)數(shù)學(xué),也有利于充分挖掘?qū)W生的數(shù)學(xué)潛能。
3.學(xué)會(huì)運(yùn)用大數(shù)據(jù)分析和獲取數(shù)據(jù)中的有用信息。在高中數(shù)學(xué)教學(xué)中,教師應(yīng)注意引導(dǎo)和幫助學(xué)生學(xué)會(huì)運(yùn)用大數(shù)據(jù)分析和獲取數(shù)據(jù)中的有用信息,充分調(diào)動(dòng)學(xué)生學(xué)習(xí)數(shù)學(xué)的積極性和主動(dòng)性。通過激發(fā)學(xué)生的學(xué)習(xí)興趣,幫助學(xué)生提高他們的學(xué)習(xí)效率,這樣既有助于促進(jìn)學(xué)生全面發(fā)展,也有助于提升高中數(shù)學(xué)課堂教學(xué)的效率[5]。舉例來說,教師可以結(jié)合高中數(shù)學(xué)教材內(nèi)容,大數(shù)據(jù)分析工具制定教學(xué)計(jì)劃,例如在學(xué)習(xí)《空間向量》這一章時(shí),教師可以引導(dǎo)學(xué)生結(jié)合實(shí)際生活,充分發(fā)揮想象力,對(duì)空間向量進(jìn)行思考,還可以引入與空間向量相關(guān)的內(nèi)容,通過相關(guān)數(shù)據(jù)分析,幫助學(xué)生加深對(duì)知識(shí)的理解。同時(shí),帶動(dòng)學(xué)生主動(dòng)思考,積極參與課堂互動(dòng)。此外,教師還應(yīng)教學(xué)生學(xué)會(huì)獲取數(shù)據(jù)中的有用信息。以高中數(shù)學(xué)《統(tǒng)計(jì)》這一章為例,在學(xué)習(xí)《統(tǒng)計(jì)》這一章時(shí)涉及抽樣方法以及總體分布的估計(jì),教師可以在具體教學(xué)過程中,引導(dǎo)學(xué)生利用大數(shù)據(jù)對(duì)相關(guān)數(shù)據(jù)進(jìn)行分析,然后從中獲取有用的信息,以幫助解題。
4.引入數(shù)據(jù)挖掘算法,提升數(shù)學(xué)運(yùn)算能力。數(shù)學(xué)教師除了按照教學(xué)大綱要求完成教學(xué)任務(wù)之外,還要注意在數(shù)學(xué)課堂中引入數(shù)據(jù)挖掘算法,注意提升學(xué)生的數(shù)學(xué)運(yùn)算能力。一方面,數(shù)學(xué)教師要利用大數(shù)據(jù)分析工具密切關(guān)注學(xué)生對(duì)所學(xué)數(shù)學(xué)知識(shí)的掌握情況;另一方面,還要密切關(guān)注學(xué)生對(duì)于數(shù)學(xué)運(yùn)算能力的掌握。引導(dǎo)和幫助學(xué)生學(xué)會(huì)收集數(shù)據(jù)和使用數(shù)據(jù),利用大數(shù)據(jù)中的數(shù)據(jù)挖掘算法,培養(yǎng)數(shù)學(xué)解題能力。對(duì)于高中學(xué)生而言,數(shù)學(xué)運(yùn)算能力是其必須掌握的,數(shù)學(xué)運(yùn)算能力是學(xué)好數(shù)學(xué)的前提和基礎(chǔ)。因而,數(shù)學(xué)運(yùn)算能力非常重要。舉例來說,在高中數(shù)學(xué)的運(yùn)算中,涉及函數(shù)、指數(shù)和向量等計(jì)算,而這些計(jì)算相對(duì)而言又比較復(fù)雜,如果在計(jì)算過程中出現(xiàn)失誤,將導(dǎo)致整個(gè)運(yùn)算結(jié)果錯(cuò)誤。這就要求學(xué)生具備較強(qiáng)的運(yùn)算能力,在運(yùn)算過程中保持細(xì)心、認(rèn)真和嚴(yán)謹(jǐn)?shù)膽B(tài)度進(jìn)行運(yùn)算。在高中數(shù)學(xué)教學(xué)中,教師要教學(xué)生運(yùn)用不同的數(shù)學(xué)方法進(jìn)行解題,讓學(xué)生學(xué)會(huì)舉一反三。
5.學(xué)會(huì)分類,重視數(shù)學(xué)知識(shí)的積累。高中數(shù)學(xué)學(xué)科是一門具有較強(qiáng)的抽象性和較強(qiáng)的邏輯性的學(xué)科,知識(shí)點(diǎn)還比較多,這就要求學(xué)會(huì)分類,對(duì)各類數(shù)學(xué)知識(shí)進(jìn)行分門別類,這樣有助于加深對(duì)知識(shí)的理解,也有助于理清數(shù)學(xué)知識(shí)的脈絡(luò),促進(jìn)學(xué)生更好地進(jìn)行下一階段的數(shù)學(xué)學(xué)習(xí)。此外,還應(yīng)重視數(shù)學(xué)知識(shí)的積累。高中數(shù)學(xué)知識(shí)具有較強(qiáng)的連貫性和銜接性,學(xué)生在學(xué)習(xí)過程中如果出現(xiàn)知識(shí)點(diǎn)斷層問題,很容易影響下一階段的數(shù)學(xué)知識(shí)學(xué)習(xí),致使前期所學(xué)的知識(shí)與后期將要學(xué)習(xí)的知識(shí)無法較好地銜接,影響學(xué)生的學(xué)習(xí)積極性,也會(huì)在一定程度上影響學(xué)生的整體成績。因而,在高中數(shù)學(xué)教學(xué)過程中,教師要注意幫助學(xué)生做好相關(guān)知識(shí)點(diǎn)的復(fù)習(xí)和鞏固,加深學(xué)生對(duì)前期所學(xué)知識(shí)的印象。例如:在初中的數(shù)學(xué)學(xué)習(xí)過程中,教師對(duì)十字相乘法已經(jīng)不作要求了,同時(shí)對(duì)三次或三次以上多項(xiàng)式因式分解也不作要求了,但是到了高中教材中卻多處要用到。另外二次根式中對(duì)分子、分母有理化這也是初中不作要求的內(nèi)容,但是分子、分母有理化卻是高中函數(shù)、不等式常用的解題技巧,特別是分子有理化應(yīng)用更加廣泛。所以,教師在教學(xué)過程中,應(yīng)該多復(fù)習(xí)以前學(xué)生學(xué)過的知識(shí),將其進(jìn)行一定的積累,同時(shí),也能為其今后數(shù)學(xué)知識(shí)的學(xué)習(xí)奠定良好的基礎(chǔ)。此外,還要養(yǎng)成良好的數(shù)學(xué)學(xué)習(xí)習(xí)慣和數(shù)學(xué)知識(shí)積累意識(shí),在實(shí)際學(xué)習(xí)過程中,充分重視數(shù)學(xué)知識(shí)的積累,通過各種不同的方式促進(jìn)對(duì)數(shù)學(xué)知識(shí)的理解,并且學(xué)會(huì)運(yùn)用自己所學(xué)的數(shù)學(xué)方法來解決數(shù)學(xué)問題,通過這種方法能夠使學(xué)生不斷地鞏固所學(xué)的數(shù)學(xué)知識(shí),提升數(shù)學(xué)解題能力,提升整體數(shù)學(xué)素質(zhì)。
6.感悟數(shù)字化的便利,學(xué)以致用,提升數(shù)學(xué)應(yīng)用意識(shí)。大數(shù)據(jù)時(shí)代的來臨,改變了人們以往的生活方式,改變了人們生活的方方面面,也在一定程度上改變了數(shù)學(xué)課堂教學(xué),舉例來說,大數(shù)據(jù)時(shí)代的來臨改變了高中數(shù)學(xué)課堂教學(xué)的形式、方法等。教師可以通過大數(shù)據(jù)提供的數(shù)字化信息,運(yùn)用多媒體設(shè)備進(jìn)行備課以及給學(xué)生布置作業(yè),還可以利用大數(shù)據(jù)分析班里每位同學(xué)的學(xué)習(xí)情況。在數(shù)學(xué)學(xué)習(xí)過程中,學(xué)生在感悟數(shù)字化的便利的同時(shí),還要學(xué)會(huì)將所學(xué)的數(shù)學(xué)知識(shí)融會(huì)貫通,學(xué)以致用。當(dāng)然,有一點(diǎn)必須強(qiáng)調(diào)的是,無論哪一學(xué)科,都有其自身的特性及作用。以高中數(shù)學(xué)學(xué)科為例,數(shù)學(xué)是一門科學(xué)性與綜合性較強(qiáng)的學(xué)科,其作用之一就是能夠培養(yǎng)人的邏輯思維推算能力。并且,數(shù)學(xué)還是一門與我們生活息息相關(guān)的學(xué)科。因而,在學(xué)習(xí)數(shù)學(xué)這門課程時(shí),教師要當(dāng)好向?qū)У慕巧?,注意培養(yǎng)學(xué)生的數(shù)學(xué)學(xué)習(xí)意識(shí),要讓學(xué)生學(xué)以致用,注重提升他們的數(shù)學(xué)應(yīng)用意識(shí)。
三、結(jié)束語
綜上所述,基于大數(shù)據(jù)分析下的數(shù)學(xué)課堂教學(xué)策略主要有:第一,更新教學(xué)觀念,構(gòu)建數(shù)據(jù)分析觀念。第二,勇于探索,在數(shù)學(xué)教學(xué)中嘗試分層教學(xué)。第三,培養(yǎng)數(shù)學(xué)學(xué)習(xí)興趣,學(xué)會(huì)獲取數(shù)據(jù)中的有用信息。第四,引入數(shù)據(jù)挖掘算法,提升數(shù)學(xué)運(yùn)算能力。第五,學(xué)會(huì)分類,重視數(shù)學(xué)知識(shí)的積累。第六,感悟數(shù)字化的便利,學(xué)以致用,提升數(shù)學(xué)應(yīng)用意識(shí)。筆者希望有更多的有志之士,能夠投身到這個(gè)課題的研究之中,指出筆者在文中的不足之處,同時(shí)也可以為基于大數(shù)據(jù)分析下的數(shù)學(xué)課堂教學(xué)這一課題的研究,做出自己應(yīng)有的一份貢獻(xiàn)。
摘要:從近幾年的經(jīng)濟(jì)發(fā)展來看,我國金融已經(jīng)從以前的傳統(tǒng)金融邁進(jìn)了互聯(lián)網(wǎng)金融時(shí)代,在政府的大力支持下,促使了互聯(lián)網(wǎng)行業(yè)蓬勃的發(fā)展,同時(shí)也有力地推進(jìn)了我國傳統(tǒng)金融行業(yè)的改革。雖然互聯(lián)網(wǎng)金融行業(yè)可以更快捷、更有效地處理大量數(shù)據(jù)而被廣泛的使用,但是這也給金融行業(yè)帶來了新的挑戰(zhàn)和風(fēng)險(xiǎn),如風(fēng)險(xiǎn)控制、預(yù)警及金融穩(wěn)定等。因此,為了能夠使得互聯(lián)網(wǎng)金融行業(yè)安全、快速地發(fā)展起來,我們必須建立起一個(gè)健全的互聯(lián)網(wǎng)金融風(fēng)險(xiǎn)預(yù)警體系,才能保證互聯(lián)網(wǎng)金融順利地進(jìn)行。
關(guān)鍵詞:大數(shù)據(jù) 互聯(lián)網(wǎng)金融 金融風(fēng)險(xiǎn) 風(fēng)險(xiǎn)預(yù)警
近幾年來,我國互聯(lián)網(wǎng)行業(yè)不斷發(fā)展,互聯(lián)網(wǎng)金融也蓬勃地發(fā)展起來,2015年中國的互聯(lián)網(wǎng)金融行業(yè)規(guī)模已經(jīng)突破了14萬億元,互聯(lián)網(wǎng)金融已經(jīng)遍及全中國。雖然如此,互聯(lián)網(wǎng)金融中仍然存在著很多的不足和風(fēng)險(xiǎn),為了能夠更好地控制和發(fā)現(xiàn)互聯(lián)網(wǎng)金融中存在的風(fēng)險(xiǎn),我們必須有建立一個(gè)健全的互聯(lián)網(wǎng)金融預(yù)警系統(tǒng)。本文就是以大數(shù)據(jù)為基礎(chǔ),結(jié)合互聯(lián)網(wǎng)金融自身獨(dú)有的特點(diǎn),建立大數(shù)據(jù)分析下的互聯(lián)網(wǎng)金融風(fēng)險(xiǎn)預(yù)警系統(tǒng)。運(yùn)用這個(gè)系統(tǒng)能提前發(fā)現(xiàn)互聯(lián)網(wǎng)金融中的各種風(fēng)險(xiǎn)及不足,可以讓企業(yè)提前做好準(zhǔn)備及防范,保證互聯(lián)網(wǎng)金融更安全地發(fā)展起來。
一、概念
互聯(lián)網(wǎng)金融是指依托互聯(lián)網(wǎng)工具及通信工具來實(shí)現(xiàn)資金互轉(zhuǎn)、支付等業(yè)務(wù)的新興行業(yè)模式。這種互聯(lián)網(wǎng)金融模式主要依托的是互聯(lián)網(wǎng)技術(shù)水平,然而隨著互聯(lián)網(wǎng)絡(luò)技術(shù)水平的提高,互聯(lián)網(wǎng)金融也在快速地發(fā)展。
二、大數(shù)據(jù)及其特點(diǎn)
(一)數(shù)據(jù)分類
在互聯(lián)網(wǎng)金融行業(yè)中,數(shù)據(jù)貫穿了整個(gè)網(wǎng)絡(luò)金運(yùn)轉(zhuǎn)過程。在互聯(lián)網(wǎng)金融交易中主要有:參與者(客戶)、互聯(lián)網(wǎng)金融企業(yè)及相關(guān)的金融產(chǎn)品和服務(wù)?;ヂ?lián)網(wǎng)金融不僅僅可以輸入、保存參與者(客戶)信息數(shù)據(jù)以及提供產(chǎn)品信息數(shù)據(jù),甚至還可以保留參與者(客戶)在對(duì)互聯(lián)網(wǎng)平臺(tái)進(jìn)行操作時(shí)的各種數(shù)據(jù)信息,這些數(shù)據(jù)信息正是互聯(lián)網(wǎng)金融大數(shù)據(jù)庫,是網(wǎng)絡(luò)金融的基礎(chǔ)。根據(jù)互聯(lián)網(wǎng)金融數(shù)據(jù)的操作過程,可將其分類為:用戶信息數(shù)據(jù)、成交信息數(shù)據(jù)、用戶操作數(shù)據(jù)等。
用戶信息數(shù)據(jù)是指每個(gè)參與者(客戶)在建立賬戶時(shí)要填寫的基本資料,這些資料被保存后就會(huì)被自動(dòng)儲(chǔ)存到企業(yè)的信息系統(tǒng)里。用戶資料數(shù)據(jù)關(guān)系到每個(gè)用戶的私人資料,所以企業(yè)必須對(duì)此數(shù)據(jù)進(jìn)行嚴(yán)格保密,進(jìn)行統(tǒng)一的管理,不能被泄露。
成交信息數(shù)據(jù)是指互聯(lián)網(wǎng)金融行業(yè)為用戶提供了商品及服務(wù),然后用戶對(duì)此商品或服務(wù)進(jìn)行購買成交時(shí),有成交信息數(shù)據(jù),可以保留你成交過程中的整個(gè)操作,作為你安全成交的憑證和依據(jù),防止交易過程中產(chǎn)生的風(fēng)險(xiǎn)。用戶操作數(shù)據(jù),是記錄用戶在對(duì)互聯(lián)網(wǎng)金融行業(yè)平臺(tái)進(jìn)行操作時(shí)相應(yīng)過程的記錄。
(二)數(shù)據(jù)特點(diǎn)
互聯(lián)網(wǎng)金融數(shù)據(jù)分為以下特點(diǎn):規(guī)模廣、多樣化、高效性。首先,規(guī)模廣是指互聯(lián)網(wǎng)金融數(shù)據(jù)涉及廣泛,覆蓋廣。其次,多樣化是指互聯(lián)網(wǎng)數(shù)據(jù)涉及種類多,信息數(shù)據(jù)的多元化。最后,高效性是指對(duì)互聯(lián)網(wǎng)金融數(shù)據(jù)信息處理及時(shí)、準(zhǔn)確、高效。
三、互聯(lián)網(wǎng)金融風(fēng)險(xiǎn)
在互聯(lián)網(wǎng)金融發(fā)展過程中,存在不少風(fēng)險(xiǎn),主要體現(xiàn)如下:第一,用戶對(duì)互聯(lián)網(wǎng)金融與傳統(tǒng)金融概念不清晰,投資風(fēng)險(xiǎn)意識(shí)不強(qiáng),有人認(rèn)為互聯(lián)網(wǎng)金融是創(chuàng)新投資,與傳統(tǒng)金融不同,其實(shí)互聯(lián)網(wǎng)金融與改變傳統(tǒng)金融并沒有本質(zhì)上的區(qū)別;第二,存在技術(shù)不足與人為破壞導(dǎo)致的風(fēng)險(xiǎn),互聯(lián)網(wǎng)金融雖然已經(jīng)被廣泛使用,但是互聯(lián)網(wǎng)技術(shù)風(fēng)險(xiǎn)還是存在的,例如計(jì)算機(jī)故障與其他類型的風(fēng)險(xiǎn),例如:黑客、病毒等。
第三,經(jīng)營多樣化導(dǎo)致監(jiān)管風(fēng)險(xiǎn)?;ヂ?lián)網(wǎng)金融的多樣化導(dǎo)致風(fēng)險(xiǎn)監(jiān)管難度更大,涉及到銀行業(yè)務(wù)、證券業(yè)務(wù)、保險(xiǎn)業(yè)務(wù)等,業(yè)務(wù)交叉性強(qiáng)。第四,互聯(lián)網(wǎng)金融市場在一定程度上與傳統(tǒng)金融市場相沖擊。
互聯(lián)網(wǎng)金融的興起與傳統(tǒng)商業(yè)銀行業(yè)在一定程度上是相沖擊的,使得銀行間的競爭增大,相互抬高利率,而且還改變負(fù)債的結(jié)構(gòu)。
四、互聯(lián)網(wǎng)金融風(fēng)險(xiǎn)預(yù)警系統(tǒng)
(一)以數(shù)據(jù)為基礎(chǔ)
在互聯(lián)網(wǎng)金融風(fēng)險(xiǎn)預(yù)警系統(tǒng)建立的過程中,我們必須注意以下幾點(diǎn):
第一,可操作性,在互聯(lián)網(wǎng)金融風(fēng)險(xiǎn)預(yù)警系統(tǒng)建立時(shí),要結(jié)合本企業(yè)實(shí)際情況,方便、安全、易操作;在對(duì)數(shù)據(jù)進(jìn)行分析時(shí),要有利于操作,這樣才能快速識(shí)別風(fēng)險(xiǎn),作出防范。
第二,及時(shí)性,對(duì)于互聯(lián)網(wǎng)金融行業(yè)的數(shù)據(jù)我們必須及時(shí)處理,具有高效性,所以在進(jìn)行建立該系統(tǒng)的時(shí)候必須要注意時(shí)限性,確保能夠及時(shí)地發(fā)現(xiàn)風(fēng)險(xiǎn)及不足,這樣才能有充足的時(shí)間去預(yù)防,避免出錯(cuò),造成不良損失。
第三,準(zhǔn)確性,在建立該預(yù)警系統(tǒng)的過程中要保證數(shù)據(jù)的準(zhǔn)確性,才能避免對(duì)風(fēng)險(xiǎn)作出錯(cuò)誤的判斷,造成不必要的損失。
(二)系統(tǒng)數(shù)據(jù)分級(jí)
在互聯(lián)網(wǎng)金融預(yù)警系統(tǒng)分為四個(gè)級(jí)別,分別如下:
1、數(shù)據(jù)管理
互聯(lián)網(wǎng)金融預(yù)警系統(tǒng)是以數(shù)據(jù)為基礎(chǔ)的,預(yù)警系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行分析與處理,所以要對(duì)數(shù)據(jù)的管理建立健全系統(tǒng)。這樣可以更方便地對(duì)數(shù)據(jù)進(jìn)行導(dǎo)出、整理及存儲(chǔ)。
2、數(shù)據(jù)整合
數(shù)據(jù)整合主要是風(fēng)險(xiǎn)預(yù)警系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行整體的分析,進(jìn)行風(fēng)險(xiǎn)預(yù)警。
3、數(shù)據(jù)分析
風(fēng)險(xiǎn)預(yù)警系統(tǒng)進(jìn)行數(shù)據(jù)整合后,對(duì)所有的數(shù)據(jù)進(jìn)行分析和處理,從而來判定風(fēng)險(xiǎn)。所以,風(fēng)險(xiǎn)預(yù)警系統(tǒng)必須具備智能性。
4、數(shù)據(jù)結(jié)果
數(shù)據(jù)解釋就是數(shù)據(jù)分析能夠?qū)︼L(fēng)險(xiǎn)進(jìn)行解釋及反應(yīng),并且分析結(jié)果。
五、結(jié)論與建議
綜上所述,互聯(lián)網(wǎng)金融風(fēng)險(xiǎn)預(yù)警系統(tǒng)主要作用是降低企業(yè)經(jīng)營過程中的失誤,對(duì)風(fēng)險(xiǎn)能過提早進(jìn)行預(yù)警,及時(shí)作出防范,減少不必要的損失。在互聯(lián)網(wǎng)金融風(fēng)險(xiǎn)預(yù)警系統(tǒng)運(yùn)行過程中,我們提出幾點(diǎn)建議:第一,企業(yè)應(yīng)對(duì)員工建立健全的考核評(píng)價(jià)體系,“人”是萬事的主導(dǎo)者,所以建立完整的考核評(píng)價(jià)體系是必然的;第二,企業(yè)應(yīng)該制定科學(xué)的金融風(fēng)險(xiǎn)預(yù)警系統(tǒng)操作規(guī)范。為了確保該系統(tǒng)能實(shí)現(xiàn)規(guī)范性的操作,企業(yè)應(yīng)該制定一套科學(xué)規(guī)范的程序,同時(shí)還要制定該系統(tǒng)的使用規(guī)范及流程,以便明確操作人員的權(quán)責(zé)及范圍,對(duì)風(fēng)險(xiǎn)進(jìn)行及時(shí)處理與實(shí)時(shí)監(jiān)測。