摘要:圖像自動(dòng)語句標(biāo)注利用計(jì)算機(jī)自動(dòng)生成描述圖像內(nèi)容的語句,在服務(wù)機(jī)器人等領(lǐng)域有廣泛應(yīng)用.許多學(xué)者已經(jīng)提出了一些基于注意力機(jī)制的算法,但是注意力分散問題以及由注意力分散引起的生成語句錯(cuò)亂問題還未得到較好解決.在傳統(tǒng)注意力機(jī)制的基礎(chǔ)上引入注意力反饋機(jī)制,利用關(guān)注信息的圖像特征指導(dǎo)文本生成,同時(shí)借助生成文本中的關(guān)注信息進(jìn)一步修正圖像中的關(guān)注區(qū)域,該過程不斷強(qiáng)化圖像和文本中的關(guān)鍵信息匹配、優(yōu)化生成的語句.針對常用數(shù)據(jù)集Flickr8k, Flickr30k 和MSCOCO 的實(shí)驗(yàn)結(jié)果表明,該模型在一定程度上解決了注意力分散和語句順序錯(cuò)亂問題,比其他基于注意力機(jī)制方法標(biāo)注的關(guān)注區(qū)域更加準(zhǔn)確,生成語句更加通順.
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社
北大期刊 下單
國際刊號(hào):1003-9775
國內(nèi)刊號(hào):11-2925/TP
雜志詳情