首頁 > 期刊 > 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào) > 面向圖像自動(dòng)語句標(biāo)注的注意力反饋模型【正文】

面向圖像自動(dòng)語句標(biāo)注的注意力反饋模型

作者：呂凡; 胡伏原; 張艷寧; 夏振平; 盛勝利蘇州科技大學(xué)電子與信息工程學(xué)院; 蘇州215009; 蘇州科技大學(xué)蘇州市虛擬現(xiàn)實(shí)智能交互及應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室; 蘇州215009; 西北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院; 西安710029; Department; of; Computer; Science; University; of; Central; Arkansas; Conway; AZ; 72035; 天津大學(xué)智能與計(jì)算學(xué)部; 天津300072; 江蘇省建筑智慧節(jié)能重點(diǎn)實(shí)驗(yàn)室; 蘇州215009

摘要：圖像自動(dòng)語句標(biāo)注利用計(jì)算機(jī)自動(dòng)生成描述圖像內(nèi)容的語句,在服務(wù)機(jī)器人等領(lǐng)域有廣泛應(yīng)用.許多學(xué)者已經(jīng)提出了一些基于注意力機(jī)制的算法,但是注意力分散問題以及由注意力分散引起的生成語句錯(cuò)亂問題還未得到較好解決.在傳統(tǒng)注意力機(jī)制的基礎(chǔ)上引入注意力反饋機(jī)制,利用關(guān)注信息的圖像特征指導(dǎo)文本生成,同時(shí)借助生成文本中的關(guān)注信息進(jìn)一步修正圖像中的關(guān)注區(qū)域,該過程不斷強(qiáng)化圖像和文本中的關(guān)鍵信息匹配、優(yōu)化生成的語句.針對常用數(shù)據(jù)集Flickr8k, Flickr30k 和MSCOCO 的實(shí)驗(yàn)結(jié)果表明,該模型在一定程度上解決了注意力分散和語句順序錯(cuò)亂問題,比其他基于注意力機(jī)制方法標(biāo)注的關(guān)注區(qū)域更加準(zhǔn)確,生成語句更加通順.

注：因版權(quán)方要求，不能公開全文，如需全文，請咨詢雜志社

期刊咨詢免費(fèi)咨詢雜志訂閱