摘要:【目的】實(shí)現(xiàn)對(duì)大規(guī)模法律文本中法律術(shù)語(yǔ)的自動(dòng)識(shí)別,促進(jìn)法律大數(shù)據(jù)的結(jié)構(gòu)化進(jìn)程?!痉椒ā繉l件隨機(jī)場(chǎng)模型作為主動(dòng)學(xué)習(xí)算法的分類器,在經(jīng)過(guò)K-means聚類后的語(yǔ)料庫(kù)中,按照分層抽樣的方式抽取用于啟動(dòng)主動(dòng)學(xué)習(xí)算法的初始樣本,將熵值作為主動(dòng)學(xué)習(xí)的樣例選擇依據(jù),迭代地進(jìn)行主動(dòng)學(xué)習(xí)的學(xué)習(xí)過(guò)程及樣例選擇過(guò)程,直到模型的調(diào)和均值F值趨于穩(wěn)定時(shí)停止迭代,輸出最終的法律術(shù)語(yǔ)自動(dòng)識(shí)別模型——AL-CRF模型?!窘Y(jié)果】在中文裁判文書上的命名實(shí)體識(shí)別實(shí)驗(yàn)表明,通過(guò)少量且高質(zhì)的樣本訓(xùn)練的AL-CRF模型對(duì)于法律術(shù)語(yǔ)的識(shí)別準(zhǔn)確率和召回率可達(dá)90%以上,且相較于等標(biāo)注工作量訓(xùn)練的CRF模型F值提高4.85%?!揪窒蕖縆-means聚類方法對(duì)噪聲和離群點(diǎn)較為敏感,可能會(huì)影響模型的識(shí)別效果?!窘Y(jié)論】結(jié)合主動(dòng)學(xué)習(xí)的條件隨機(jī)場(chǎng)模型能在保證識(shí)別質(zhì)量的情況下,減少低質(zhì)量樣本的標(biāo)注工作量。
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢雜志社
CSSCI南大期刊 下單
國(guó)際刊號(hào):2096-3467
國(guó)內(nèi)刊號(hào):10-1478/G2
雜志詳情