結(jié)合主動(dòng)學(xué)習(xí)的條件隨機(jī)場(chǎng)模型用于法律術(shù)語(yǔ)的自動(dòng)識(shí)別

法律文本命名實(shí)體識(shí)別主動(dòng)學(xué)習(xí) 條件隨機(jī)場(chǎng) 樣例選擇

作者：黃菡; 王宏宇; 王曉光中南財(cái)經(jīng)政法大學(xué)信息與安全工程學(xué)院; 武漢430073; 武漢大學(xué)信息資源研究中心; 武漢430072; 武漢大學(xué)信息管理學(xué)院; 武漢430072

摘要：【目的】實(shí)現(xiàn)對(duì)大規(guī)模法律文本中法律術(shù)語(yǔ)的自動(dòng)識(shí)別,促進(jìn)法律大數(shù)據(jù)的結(jié)構(gòu)化進(jìn)程?！痉椒ā繉l件隨機(jī)場(chǎng)模型作為主動(dòng)學(xué)習(xí)算法的分類器,在經(jīng)過(guò)K-means聚類后的語(yǔ)料庫(kù)中,按照分層抽樣的方式抽取用于啟動(dòng)主動(dòng)學(xué)習(xí)算法的初始樣本,將熵值作為主動(dòng)學(xué)習(xí)的樣例選擇依據(jù),迭代地進(jìn)行主動(dòng)學(xué)習(xí)的學(xué)習(xí)過(guò)程及樣例選擇過(guò)程,直到模型的調(diào)和均值F值趨于穩(wěn)定時(shí)停止迭代,輸出最終的法律術(shù)語(yǔ)自動(dòng)識(shí)別模型——AL-CRF模型?！窘Y(jié)果】在中文裁判文書上的命名實(shí)體識(shí)別實(shí)驗(yàn)表明,通過(guò)少量且高質(zhì)的樣本訓(xùn)練的AL-CRF模型對(duì)于法律術(shù)語(yǔ)的識(shí)別準(zhǔn)確率和召回率可達(dá)90%以上,且相較于等標(biāo)注工作量訓(xùn)練的CRF模型F值提高4.85%?！揪窒蕖縆-means聚類方法對(duì)噪聲和離群點(diǎn)較為敏感,可能會(huì)影響模型的識(shí)別效果?！窘Y(jié)論】結(jié)合主動(dòng)學(xué)習(xí)的條件隨機(jī)場(chǎng)模型能在保證識(shí)別質(zhì)量的情況下,減少低質(zhì)量樣本的標(biāo)注工作量。

注：因版權(quán)方要求，不能公開(kāi)全文，如需全文，請(qǐng)咨詢雜志社

期刊咨詢免費(fèi)咨詢雜志訂閱

數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)

CSSCI南大期刊下單

國(guó)際刊號(hào)：2096-3467

國(guó)內(nèi)刊號(hào)：10-1478/G2

雜志詳情

相關(guān)熱門期刊

中西醫(yī)結(jié)合研究

CSSCI南大期刊下單

國(guó)際刊號(hào)：1674-4616

國(guó)內(nèi)刊號(hào)：42-1789/R
中西醫(yī)結(jié)合肝病

CSSCI南大期刊下單

國(guó)際刊號(hào)：1005-0264

國(guó)內(nèi)刊號(hào)：42-1322/R
中西醫(yī)結(jié)合

CSSCI南大期刊下單

國(guó)際刊號(hào)：0254-9034

國(guó)內(nèi)刊號(hào)：11-2219/R
浙江中西醫(yī)結(jié)合

CSSCI南大期刊下單

國(guó)際刊號(hào)：1005-4561

國(guó)內(nèi)刊號(hào)：33-1177/R