- 相關(guān)推薦
應(yīng)用電子技術(shù)的論文
本文由goodboysk貢獻(xiàn)
doc文檔可能在WAP端瀏覽體驗(yàn)不佳。建議您優(yōu)先選擇TXT,或下載源文件到本機(jī)查看。
基于語句結(jié)構(gòu)及語義相似度計(jì)算主觀題評(píng)分算法的研究
賈電如,李陽明 (燕山大學(xué) 信息科學(xué)與工程學(xué)院,河北 秦皇島 066004) 2009-05-15 摘 要:文字類主觀題的自動(dòng)評(píng)分是實(shí)現(xiàn)遠(yuǎn)程教育中在線考試系統(tǒng)的一個(gè)關(guān)鍵技術(shù),由于其自動(dòng)評(píng)判具 有相當(dāng)難度,使自動(dòng)評(píng)分系統(tǒng)中在對(duì)語句結(jié)構(gòu)、關(guān)鍵字匹配、詞性、詞義以及語義方面的判斷還存在很多 問題。通過對(duì)已有的算法分析,提出了一種方法,采用淺層次句法結(jié)構(gòu)分析和深層次語義分析相結(jié)合的算 法計(jì)算相似度,該方法可以提高主觀題自動(dòng)評(píng)分的效率和準(zhǔn)確度,具有一定的實(shí)用價(jià)值。 關(guān)鍵詞: 關(guān)鍵詞:自動(dòng)評(píng)分;動(dòng)態(tài)規(guī)劃;語句相似度;語義相似度
目前,在線考試系統(tǒng)正在逐漸代替?zhèn)鹘y(tǒng)的考試系統(tǒng),能否實(shí)現(xiàn)主觀題自動(dòng)評(píng)分是在線考試系統(tǒng)中一個(gè) 重要環(huán)節(jié)。對(duì)于主觀題的考查,由于它的答題涉及到人工智能、模式識(shí)別以及自然語言理解等方面的理論 知識(shí),評(píng)閱時(shí)就需要解決很多技術(shù)上的問題,因而成為阻礙在線考試系統(tǒng)發(fā)展的一個(gè)技術(shù)難點(diǎn)。 當(dāng)前的主觀題自動(dòng)評(píng)分算法中, 多數(shù)使用的是對(duì)學(xué)生答案和標(biāo)準(zhǔn)答案中關(guān)鍵字匹配來計(jì)算語句相似度, 如基于向量空間模型 TF-IDF 方法、詞性詞序相結(jié)合的方法以及基于語義依存樹等
[1-4]
。已有的這些方法要
么從句子的表層結(jié)構(gòu)信息進(jìn)行匹配而忽略了語句語義分析,要么就是從語義分析而影響了整體語句的相似 性,這些都會(huì)影響到自動(dòng)評(píng)分計(jì)算的精確度。由于漢語語言的結(jié)構(gòu)和語義的復(fù)雜性,一種意思可以用多種 形式和多種關(guān)鍵字表達(dá),單從一方面很難對(duì)語句的意思作出準(zhǔn)確的判斷,因此提出了一種新的主觀題自動(dòng) 評(píng)分算法策略,主要思想是采用淺層次句法結(jié)構(gòu)分析和深層次語義分析相結(jié)合的算法計(jì)算相似度,將這兩 種思想結(jié)合起來使用可以互補(bǔ)不足,提高了主觀題自動(dòng)評(píng)分的準(zhǔn)確度。 1 語句相似度計(jì)算算法 在主觀題自動(dòng)批改系統(tǒng)中,語句相似度是用來評(píng)價(jià)學(xué)生答案和標(biāo)準(zhǔn)答案的接近程度。針對(duì)漢語的特殊 性和機(jī)器翻譯領(lǐng)域內(nèi)一些對(duì)語句相似度的研究,采用動(dòng)態(tài)規(guī)劃法來計(jì)算語句相似度,主要思想是對(duì)語句進(jìn) 行層次句法分析。首先用正向最大匹配(MM)和基于詞頻統(tǒng)計(jì)的方法對(duì)句子分詞,將分詞后得到的語句視 為詞的向量,分別對(duì)各個(gè)關(guān)鍵詞進(jìn)行匹配。然后在此基礎(chǔ)上利用動(dòng)態(tài)規(guī)劃算法求出最優(yōu)路徑及語句相似度
[5]
。
1.1 相關(guān)定義 令 P 表示標(biāo)準(zhǔn)答案中的某一語句,Q 表示學(xué)生答案中的某一語句
。P 和 Q 分別表示如下: P={P1,P2,…,Pm},Q={Q1,Q2,…,Qm},其中 Pi 表示 P 語句中的一個(gè)關(guān)鍵詞,Qj 表示語句 Q 語句中的一個(gè)關(guān)鍵詞, 且 Pi=Pmi U Pgi, Qj=Qmj U Qgj,其中 Pmi 表示語句 P 中第 i 個(gè)詞的詞義集合,Pgi 表示語句 P 中第 i 個(gè)詞的詞性 集合;同理 Qmj 表示語句 Q 中第 j 個(gè)詞的詞義集合,Qgj 表示語句 Q 中第 j 個(gè)詞的詞性集合。為了便于進(jìn)一步 討論給出以下幾個(gè)定義: 定義 1:詞義、詞性相似度。詞義、詞性相似度可分別表示為:SMij=SM(Pmi,Qmj),SGij=SM(Pgi,Qgj)。 定義 2:關(guān)鍵詞相似度。關(guān)鍵詞相似度 Wij=a×SMij+β×SGij 其中 a、β分別為詞義、詞性相似度的權(quán)值。 定義 3:詞向量的相似矩陣。用定義 2 計(jì)算出語句 P 和 Q 的所有關(guān)鍵詞的相似度 Wij(i=1,2,…,m;j=1,2,j=i=1,2,…,n),形成一個(gè) m×n 矩陣 M,稱該矩陣為語句向量的相似矩陣。
定義 4: 拓展詞向量相似矩陣,對(duì)矩陣 M 進(jìn)行如下拓展, 形成矩陣 M',令 M'0,0=0, M'i,0, M'0,j=0(i=1,2,…,m; j=1,2,…,n),則 M'i,j=max{M'i-1,j-1+Wij, M'i,j-1+γ,M'i-1,j+γ},其中,γ表示詞位置不對(duì)應(yīng)時(shí)的懲罰系數(shù)。 1.2 語句相似度求解算法 (1)利用動(dòng)態(tài)規(guī)劃法先求出 M'矩陣 。 (2)M'矩陣的初始化 創(chuàng)建一個(gè)(m+1,n+1)矩陣,矩陣的行表示標(biāo)準(zhǔn)答案語句 P 的每個(gè)詞,矩陣的列表示學(xué)生答案語句 Q 的每 個(gè)詞,利用定義 4 進(jìn)行初始化,將 M'矩陣的 M'i,0,M'0,j 設(shè)置為 0.其中 i=0,1,2,…,m; j=0,1,2,…,n。 (3)利用定義 1、2、3、4 依次求解 M'矩陣中的每個(gè)元素 M'i,j。 (4)求解最優(yōu)相似矩陣 先從點(diǎn)(m,n)開始,到(1,1)結(jié)束。在點(diǎn)(i,j)上選擇 M'i-1,j-1+Wij,M'i,j-1+γ,M'i-1,j+γ最大者為最優(yōu)點(diǎn), 所對(duì)應(yīng)的 Mx, y 作為路徑的前一個(gè)節(jié)點(diǎn)(x,y)。如果出現(xiàn)三者中兩部分值相同且最大時(shí),若該值在斜路徑上則 選擇斜路徑上(i-1,j-1)作為路徑的前一個(gè)節(jié)點(diǎn);若不在斜路徑上,優(yōu)選水平方面(i-1,j)作為路徑的前一 個(gè)節(jié)點(diǎn);依次遞推則選擇一條最優(yōu)路徑。這樣得到的路徑上就是一條最優(yōu)的路徑,路徑上最后一個(gè)點(diǎn)的值 M'm,n 表示了語句中所以詞的相似度之和。 設(shè) L 是標(biāo)準(zhǔn)答案語句的詞數(shù),則語句相似度為 Sim=M’m,n/L。 2 語義相似度計(jì)算算法 Dekang Lin 認(rèn)為任何兩個(gè)事物的相似度取決于它們的共性(Commonality)和個(gè)性(Differentces),然 后從信息理論的角度給出任意兩個(gè)事物相似度的通用公式:
[7] [6]
其中分子是描述 A、B 共性所需要的信息量的大小;分母是完整地描述出 A、B 所需要的信息量大小。劉 群 認(rèn)為兩個(gè)詞語的相似度是它們?cè)诓煌纳舷挛闹锌梢曰ハ嗵鎿Q且不改變文本的句法語義結(jié)構(gòu)的可能性 大小。在本文中計(jì)算語義相似度是利用《知網(wǎng)》中詞語相似度的定義[9],可以把詞語語義相似度的計(jì)算歸 結(jié)為
“概念”相似度的計(jì)算;“概念”的相似度由描述它的“義原”的相似度得到。詞語存在著一詞多義的 現(xiàn)象,知網(wǎng)中的一詞多義表現(xiàn)為單個(gè)詞語有多個(gè)概念,每個(gè)概念由一項(xiàng)定義來描述。比如:“打”在“打架”, “打太極”,“打獵”中的意義各不相同,知網(wǎng)中對(duì)應(yīng)的概念描述分別是: DEF = fight| 爭(zhēng)斗 DEF = exercise| 鍛煉,sport| 體育 DEF = catch| 捉住, # animal| 獸 詞語語義相似度的計(jì)算,嚴(yán)格來講應(yīng)該是計(jì)算概念之間的語義相似度。本文中采用劉群的思路,認(rèn)為兩 個(gè)詞語的語義相似度是其所有概念之間相似度的最大值。 Sim(c1,c2)=maxSim(C1i,C2j)(i=1,2,…,m;j=1,2,…,n) 其中, C1i 是詞 C1 的 m 項(xiàng)概念,C2j 是 C2 的 n 項(xiàng)概念。這樣就把兩個(gè)詞語之間的相似度問題歸結(jié)到了兩個(gè) 概念之間的相似度問題。本文利用語句相似度中分詞方法將詞語標(biāo)注為概念,然后再對(duì)概念計(jì)算相似度。
[8]
2.1 義原相似度的計(jì)算 由于所有的概念都最終歸結(jié)于用義原來表示, 詞語整體相似度由部分相似度合成的,所以義原的相似 度計(jì)算是概念相似度計(jì)算的基礎(chǔ)。 所有的義原根據(jù)上下位關(guān)系構(gòu)成了一個(gè)樹狀的義原層次體系,這里采用劉 群的公式計(jì)算語義相似度的方法。
其中,S1、S2 表示兩個(gè)義原, distance(S1, S2)表示它們的路徑長(zhǎng)度,a 是一個(gè)可調(diào)節(jié)的參數(shù)。在知網(wǎng) 的知識(shí)描述語言中,在一些義原出現(xiàn)的位置都可能出現(xiàn)一個(gè)具體詞(概念),并用圓括號(hào)( )括起來。所以本文 在計(jì)算相似度時(shí)還要考慮到具體詞和具體詞、具體詞和義原之間的相似度計(jì)算。理想的做法應(yīng)該是先把具 體詞還原成知網(wǎng)的語義表達(dá)式,然后再計(jì)算相似度。 這樣做將導(dǎo)入函數(shù)的遞歸調(diào)用,有可能導(dǎo)致死循環(huán),反而 使算法變得很復(fù)雜。由于具體詞在知網(wǎng)的語義表達(dá)式中只占很小的比例,因此可以作如下處理:具體詞與義 原的相似度定義為一個(gè)比較小的常數(shù)γ。具體詞和具體詞的相似度按兩個(gè)詞相同則為 1 否則為 0。 2.2 概念相似度的計(jì)算 由義原相似度可以計(jì)算概念相似度,詞語整體相似要建立在部分相似的基礎(chǔ)上。把一個(gè)復(fù)雜的整體分 解成部分,通過計(jì)算部分之間的相似度得到整體的相似度。假設(shè)兩個(gè)整體 A 和 B 都可以分解成以下部分:A 分解成 A1, A2,…, An, B 分解成 B1, B2,…,Bm ,那么這些部分之間的對(duì)應(yīng)關(guān)系就有 m ×n 種。但并不是這些 部分之間的相似度都對(duì)整體的相似度發(fā)生影響,所以應(yīng)該選擇那些發(fā)生影響的部分之間的相似度,選擇出來 后再進(jìn)一步得到整體的相似度。 在比較兩個(gè)整體的相似性時(shí),首先要做的工作是對(duì)這兩個(gè)整體的各個(gè)部分之 間建立起一一對(duì)應(yīng)的關(guān)系,然后在這些對(duì)應(yīng)的部分之間進(jìn)行比較。 如果某一部分的對(duì)應(yīng)物為空則
將任何義原 (或具體詞)與空值的相似度定義為一個(gè)比較小的常數(shù)δ;其他整體的相似度通過部分的相似度加權(quán)平均得 到
[10]
。對(duì)于實(shí)詞概念的語義表達(dá)式,可以將其分成四個(gè)部分:
第一獨(dú)立義原描述式:將兩個(gè)概念的這一部分的相似度記為 Sim1(S1,S2); 其他獨(dú)立義原描述式:語義表達(dá)式中除第一獨(dú)立義原以外的所有其他獨(dú)立義原(或具體詞),將兩個(gè)概念 的這一部分的相似度記為 Sim2(S1,S2); 關(guān)系義原描述式:語義表達(dá)式中所有的關(guān)系義原描述式,將兩個(gè)概念的這一部分的相似度記為 Sim3(S1,S2); 符號(hào)義原描述式:語義表達(dá)式中所有的符號(hào)義原描述式,將兩個(gè)概念的這一部分的相似度記為 Sim4(S1,S2)。 于是兩個(gè)概念語義表達(dá)式的整體相似度記為:
其中,βi(1≤i≤4)是可調(diào)節(jié)的參數(shù),且有β1+β2+β3+β4=1,β1≥β2≥β3≥β4 。后者反映了 Sim1 到 Sim4 對(duì)于總體相似度所起到的作用依次遞減。由于第一獨(dú)立義原描述式反映了一個(gè)概念最主要的特征,所 以應(yīng)該將其權(quán)值定義得相對(duì)比較大,一般應(yīng)在 0.5 以上。 3 實(shí)驗(yàn)測(cè)試與分析 以《操作系統(tǒng)》課程為實(shí)驗(yàn)素材,選取 2006 級(jí)計(jì)算機(jī)專業(yè)學(xué)生的 90 份考卷中 4 道簡(jiǎn)答題為例。每道 試題的分?jǐn)?shù)是 10 分, 分別通過計(jì)算機(jī)自動(dòng)評(píng)分和人工閱卷, 所得到的評(píng)分結(jié)果進(jìn)行分析, 得到如下表所示:
其中誤差為自動(dòng)評(píng)分與人工評(píng)分所得分?jǐn)?shù)之差。由于系統(tǒng)中分詞詞典中缺少某些專用詞匯或由于語句 繁瑣較長(zhǎng), 可能導(dǎo)致得分的偏差。 但是對(duì)于主觀題來說,在人工評(píng)閱時(shí), 也受到教師情緒等諸多因素的影響, 因此認(rèn)為只要誤差小于 1 分的就認(rèn)為得到了正確的評(píng)分。
本文綜合運(yùn)用了語句層次結(jié)構(gòu)、句法、詞性、語義等特征來計(jì)算相似度,不僅考慮詞語的局部相似, 還從語句的整體出發(fā),考查了語句語義整體相似性,大大提高了相似度計(jì)算性能,降低了計(jì)算的時(shí)間復(fù)雜 度,同時(shí)也提高了主觀題自動(dòng)評(píng)分的準(zhǔn)確性,具有一定的實(shí)用價(jià)值。
1
【應(yīng)用電子技術(shù)的論文】相關(guān)文章:
應(yīng)用電子技術(shù)求職信12-06
物聯(lián)網(wǎng)應(yīng)用論文09-14
汽車電子技術(shù)的應(yīng)用與發(fā)展趨勢(shì)淺析04-27
電力電子技術(shù)在電能傳輸領(lǐng)域中的應(yīng)用04-27
電力電子技術(shù)的應(yīng)用及其發(fā)展趨勢(shì)04-29
應(yīng)用電子技術(shù)專業(yè)求職信02-28
應(yīng)用電子技術(shù)專業(yè)自我鑒定范文08-12