《Google 讓機(jī)器更懂語言的博大精深,發(fā)布最大消除歧義數(shù)據(jù)庫》要點(diǎn):
本文介紹了Google 讓機(jī)器更懂語言的博大精深,發(fā)布最大消除歧義數(shù)據(jù)庫,希望對您有用。如果有疑問,可以聯(lián)系我們。
理解語言的核心自然是了解詞語在文本中的分歧含義.先來說個中文笑話:
上司:“你這是什么意思?”
下屬:“沒什么意思,意思意思.”
上司:“你這就不夠意思了.”
下屬:“小意思,小意思.”
上司:“你這人真有意思.”
下屬:“其實(shí)也沒有其余意思.”
上司:“那我就欠好意思了.”
下屬:“是我欠好意思.”
如果讓機(jī)器來理解這到底是什么意思,想必它會很頭痛的吧.
那么用相對簡單的英文?也沒有那么簡單.畢竟一個單詞可能包含數(shù)十個意思.
舉個例子:“He will receive stock in the reorganized company.”這個句子中,我們結(jié)合上下詞就能知道,“stock”是股票的意思,我們可以從牛津字典中找到更專業(yè)的解釋.
但同樣在牛津字典中,stock 這個詞還有超過 10 個不同的含義,好比“(商店里的)庫存”或是“(鞭子、釣竿等的)柄”.對于電腦演算法而言,如何從博大精深的含義中找尋某個句子中對應(yīng)的詞義?這的確是一個詞義消歧難題,也就是 AI-Complete 問題.
19 日 Google 研究院又發(fā)出了重量級新聞,他們發(fā)布了利用 MASC&SemCor 資料集的大規(guī)模有監(jiān)督詞義消歧語詞.這些語詞會與牛津字典上的例句互相映照,廣泛適用于各個社交.與此同時,本次發(fā)布也是最大的全句釋義語詞程序庫之一.
人們透過對句子中詞語的內(nèi)容進(jìn)行理解,因?yàn)槲覀兡芡高^常識判斷內(nèi)文的含義.比如同一個例子,“‘stock’ in a business.”代表的自然是股票的意思,而“‘stock’ in a bodega.”更有可能是庫存的意思,即使這里的 bodega 也可能指酒窖生意.我們希望為機(jī)器提供足夠的配景資訊,并應(yīng)用于理解字句中詞語的含義.
有監(jiān)督詞義消歧(WSD)嘗試解決這一問題,也就是讓機(jī)器學(xué)習(xí)使用人工暗號的資料,并與字典中的詞語所代表的典型含義符合.我們希望構(gòu)建這樣的監(jiān)督模型,能夠不考慮復(fù)雜語境,并符合句中單詞在詞典中最可能表達(dá)的含義.雖然這一點(diǎn)富有挑戰(zhàn)性,但監(jiān)督模型在大量訓(xùn)練資料支持下表現(xiàn)良好.
透過發(fā)布資料集,我們希望社交能夠提出更好的算法,讓機(jī)器對自然語言產(chǎn)生更深刻的理解,支持以下的應(yīng)用:
在人工暗號的資料集中,每一個詞義注釋都由 5 個評估者進(jìn)行審核.為了確保品質(zhì),這些評估者會進(jìn)行訓(xùn)練(gold annotation),即讓語言學(xué)家對一些研究樣本進(jìn)行標(biāo)記.以下是我們的標(biāo)記頁面.
在頁面左邊呈現(xiàn)的是 general 的常用詞義及例句,在右側(cè)的文本中,general 一詞會標(biāo)亮顯示.除了符合詞義,評估者還能對詞語進(jìn)行判斷,可以指出包括“拼字錯誤”、“上述情況都不符合”、“不確定”等 3 種情況.此外,評估者可以對一些含有隱喻的詞語進(jìn)行暗號并評論.
這些人工的詞義標(biāo)注采用 Krippendorff’s alpha(α >= 0.67 則具有必定可信度,α >= 0.80 則表示具有很高的可信度)進(jìn)行判斷,結(jié)果顯示得分為 0.869.這是一個非常不錯的成績了.
與此同時,Google 也發(fā)布了兩個從牛津詞典到 Wordnet 的對映.小的資料集中含有 2,200 個單詞,而大的資料集則是演算法構(gòu)建的.這兩個對映內(nèi)容能更將 Wordnet 的內(nèi)容應(yīng)用于牛津詞典的語料庫中,也能在使用過程中實(shí)行系統(tǒng)的構(gòu)建.
研究成果已經(jīng)收錄在“Semi-supervised Word Sense Disambiguation with Neural Models”中,主要采用的是 LSTM 語言處理模型及半監(jiān)督學(xué)習(xí)演算法.
(本文由 雷鋒網(wǎng)授權(quán)轉(zhuǎn)載,首圖來源:Flickr/Valery KenskiCC BY 2.0)
如需獲取更多資訊,請關(guān)注微信公眾賬號:Technews科技新報(bào)
《Google 讓機(jī)器更懂語言的博大精深,發(fā)布最大消除歧義數(shù)據(jù)庫》是否對您有啟發(fā),歡迎查看更多與《Google 讓機(jī)器更懂語言的博大精深,發(fā)布最大消除歧義數(shù)據(jù)庫》相關(guān)教程,學(xué)精學(xué)透。維易PHP學(xué)院為您提供精彩教程。
轉(zhuǎn)載請注明本頁網(wǎng)址:
http://www.fzlkiss.com/jiaocheng/10699.html