91伊人久久大香线蕉_青久久久久国产线免观_亚洲无码久久精品视频_熟妇在线观看免费视频

首頁 > 淘吧 > 正文

機器人已試點參與多次大規(guī)模考試,探索作文評分

核心提示: 近日,科大訊飛相關(guān)人士表示,在教育部考試中心的組織下,智能閱卷技術(shù),已經(jīng)在全國多個省份的大規(guī)模考試(如中高考、成人高考、學(xué)業(yè)水平測試等考試)中通過了多次多范圍試點驗證。

對于各大考試來說,閱卷是相當(dāng)重要的一環(huán),同時也耗時耗力。而隨著人工智能不斷升級,近年來機器人閱卷技術(shù)已日漸成熟。

近日,科大訊飛相關(guān)人士表示,在教育部考試中心的組織下,智能閱卷技術(shù),已經(jīng)在全國多個省份的大規(guī)模考試(如中高考、成人高考、學(xué)業(yè)水平測試等考試)中通過了多次多范圍試點驗證。

在2017年湖北省的中考中,襄陽市率先引進了智能評卷系統(tǒng),該市教育考試院院長劉朝志對媒體表示,“相比人工閱卷,智能閱卷除了在閱卷速度上有優(yōu)勢外,還能彌補其在雷同卷、空白卷處理上的不足。”

大規(guī)??荚囍幸堰M行多次多范圍試點驗證

2016年3月,教育部考試中心和科大訊飛成立了聯(lián)合實驗室,共同開展人工智能技術(shù)在智能閱卷、命題、考試評價分析等方面的研究。

近日,科大訊飛方面告訴澎湃新聞,目前,在考試中心的組織下,科大訊飛的全學(xué)科智能閱卷技術(shù)已在學(xué)業(yè)水平測試,例如大學(xué)英語四六級,以及全國多個省份的高考、中考、成人高考等大規(guī)??荚囍羞M行了多次多范圍試點驗證。

驗證結(jié)果表明,計算機評分結(jié)果已經(jīng)達到了現(xiàn)場閱卷老師的水平,完全滿足大規(guī)??荚嚨男枰?/p>

以往,進行幾十萬、幾百萬份考試試卷樣本的分析需要耗費巨大的人力資源,可行性很低,但如今通過精準(zhǔn)的圖文識別以及海量文本檢索技術(shù),可以快速核對檢查所有試卷與目標(biāo)相似的文本,并迅速提取并標(biāo)注出可能存在問題的試卷。

據(jù)《襄陽晚報》報道,與往年中考閱卷不同的是,2017年湖北襄陽市中考閱卷在全省率先引進了智能評卷系統(tǒng)。閱卷點一位技術(shù)人員說,智能評卷系統(tǒng)可進行工作量分析,可列出每個評卷源評卷總量,監(jiān)控每個老師的評卷質(zhì)量。

襄陽市教育考試院院長劉朝志稱,有了智能閱卷大數(shù)據(jù),每道題的得分情況,全市的平均點,哪塊知識學(xué)生掌握得好,哪一塊教育教學(xué)不到位,都可出一份教育教學(xué)診斷報告,更有利于老師教、學(xué)生學(xué)。“相比人工閱卷,智能閱卷除了在閱卷速度上有優(yōu)勢外,還能彌補其在雷同卷、空白卷處理上的不足。”

據(jù)襄陽市教育考試院中招科工作人員龔勛介紹,智能閱卷系統(tǒng)可覆蓋絕大多數(shù)的范文。運用智能系統(tǒng)后,可在海量數(shù)據(jù)里面搜索,就能準(zhǔn)確判斷是否抄襲了范文。

7月19日,劉朝志向澎湃新聞表示,目前還需更多時間才能對外透露更多信息。

科大訊飛方面告訴澎湃新聞,智能閱卷采用了基于深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的圖文識別技術(shù),已經(jīng)達到人眼識別中英文手寫字符相當(dāng)?shù)乃健T擁椉夹g(shù)應(yīng)用于正式考試中,可以輔助人工閱卷,減少人員投入,降低人工閱卷中疲勞、情緒等因素的影響,進一步提升人工閱卷評分的效率、準(zhǔn)確性和公平性,從而對整個產(chǎn)業(yè)產(chǎn)生極大的變革。

此外,通過該項技術(shù),將全部考生作答試卷都進行電子化后生成的海量、準(zhǔn)確的分析數(shù)據(jù)也為之后教與學(xué)的研究提供了有力素材,并且提供了未來可被良好應(yīng)用的、與考試閱卷業(yè)務(wù)深度結(jié)合的突破點。比如,通過智能化的評分和批改加強與真實的課堂更好地結(jié)合。

“在做的大項目中有一些技術(shù)成果可以用于高考閱卷,但根本的目的是引入人工智能將閱卷推向3.0時代。”6月,科大訊飛輪值總裁吳曉如對澎湃新聞表示,“閱卷1.0時代是紙筆閱卷,2.0時代是在網(wǎng)上把人組織起來用機器自動評閱一些客觀題,而在人工智能時代,已經(jīng)可以開始對主觀題進行自動評閱。”

機器批改主觀題早不再是空想

一般考試中通常包含客觀題和主觀題兩個部分。而在有了答題卡、掃描儀后,客觀題全部可以由機器批閱。不僅閱卷速度大大提升,而且更加準(zhǔn)確。

而自20世紀(jì)60年代以來,國外許多專家和學(xué)者就開始致力于主觀題的機器閱卷技術(shù)研究,出現(xiàn)了各種不同的自動批改系統(tǒng),例如美國的MBA、托??荚囍芯蛻?yīng)用了E-rater系統(tǒng)。但這些系統(tǒng)大部分針對的都是第二語言作文,即非母語作文。但是,批閱學(xué)生用母語寫的作文需要在更高層次,比如作文的文采、篇章的銜接、作文立意等方面做出評判。

到了2015年11月,科大訊飛的機器智能閱卷技術(shù)在安慶、合肥等地成功試點應(yīng)用。經(jīng)過對人機評分結(jié)果的分析,計算機在評分一致率、平均分差、相關(guān)度以及與仲裁分更接近的比例等指標(biāo)方面都已達到或超過人工評分水平。這意味著,機器評閱主觀題已不再是空想。

那么,對于沒有客觀標(biāo)準(zhǔn)答案的主觀題,機器閱卷的原理和依據(jù)是什么?吳曉如解釋,機器閱卷和人工閱卷的本質(zhì)區(qū)別在于工作機理的差異。機器是通過統(tǒng)計、推理、判斷來決策,這與人的思維方式不同。在閱卷過程中,機器采用智能學(xué)習(xí)的方式。通常一組專家評閱約500到1000份試卷后,機器就能學(xué)習(xí)到這一種試卷的評閱模式并形成一個模型。這種模型對其他試卷就可以形成有效的處理和覆蓋,再根據(jù)該模型自動評閱其他試卷。

而對于度量標(biāo)準(zhǔn)則是,先推選一組公認(rèn)閱卷水平較高的專家,把這一組專家對一組試卷給出的平均分作為一種相對標(biāo)準(zhǔn)。之后,把機器最后的測試結(jié)果、其他測試員測試的結(jié)果與專家的平均分比較。如果機器和專家給出平均分更接近、相關(guān)度更高,才認(rèn)為機器評閱的結(jié)果達到預(yù)期。

“只有一種簡單的或是標(biāo)準(zhǔn)化的測試模式實際上是非常容易作弊的,但從目前很多應(yīng)用的結(jié)果來看,還沒有一種辦法能夠很好地欺騙機器”,吳曉如說,“就像Alpha Go下圍棋一樣,并不是說找到一種客觀、標(biāo)準(zhǔn)的套路就可以打敗它。”

此外,對于機器閱卷是否會抹殺學(xué)生創(chuàng)造力的擔(dān)憂,吳曉如表示,閱卷中機器會把與眾不同的、富有創(chuàng)造力的試卷挑出來交給人工處理。還有,對于犯了低級錯誤但有新思路導(dǎo)致測試成績不佳的考卷,也需要現(xiàn)場的測試員和專家來判斷。

吳曉如說,實際上,機器主觀題閱卷已經(jīng)過了很長一段時間的驗證。“很多教育專家、一線教師、校長一開始都對機器閱卷不認(rèn)同,但通過結(jié)果的現(xiàn)場對比,這些專家最后還是認(rèn)可機器要比人工測試的結(jié)果更好。”

探索作文自動評分

而在國內(nèi)近年的主觀題的機器閱卷技術(shù)研究中,最令外界眼前一亮的是哈工大訊飛聯(lián)合實驗室研發(fā)的語文作文評分技術(shù)。

要給作文評分就需要面對觀性相當(dāng)強的文本。那機器應(yīng)該從哪些維度去評判?又如何去量化這些維度?

研究人員介紹,就像在中、高考閱卷中,全國的教師以一套統(tǒng)一、嚴(yán)格的標(biāo)準(zhǔn)來進行評分一樣,機器批閱作文,最重要的也是讓機器學(xué)到這套標(biāo)準(zhǔn),然后按標(biāo)準(zhǔn)批閱。

也就是,教師們先設(shè)置一套通用的從字跡工整度、詞匯豐富性、句子通順度、文采、篇章結(jié)構(gòu)、立意等多個層次綜合評估一篇作文質(zhì)量的解決方案。之后,機器就可以利用算法從少量人工評分的樣本中學(xué)習(xí)獲得作文評分標(biāo)準(zhǔn)。比如一次考試有2000份卷子,從第一份卷子開始,機器就可以學(xué)習(xí)教師的閱卷方法,學(xué)到200份的時候機器就可以代替人工,自動對剩下的試卷進行智能化打分。

作文評分系統(tǒng)中,詞匯豐富性和立意屬于內(nèi)容相關(guān)的特征;字跡工整度、局部連貫性、句法正確性和篇章結(jié)構(gòu)屬于表達相關(guān)的特征;文采屬于發(fā)展等級特征。另外,該技術(shù)還利用人工神經(jīng)網(wǎng)絡(luò)對作文的語義進行深度表示,從而得以從宏觀上把握文章的立意。

而這每一項標(biāo)準(zhǔn)背后都需要復(fù)雜、精密的技術(shù)來支持。例如,判斷字跡工整度就需要用到手寫識別技術(shù),即自動將圖片中的手寫體字轉(zhuǎn)寫為文本的同時,給出識別概率,以此來表示工整度。再例如,判斷一篇作文是否離題,就先需要根據(jù)題目內(nèi)容提取關(guān)鍵詞,并根據(jù)主題進行擴展,同時提取作文中的關(guān)鍵詞,再計算作文的關(guān)鍵詞和題目的關(guān)鍵詞的相似度。另外,也可以在該次考試的大規(guī)模數(shù)據(jù)上訓(xùn)練主題模型,得到全局的主題分布,然后和待考察作文的主題分布對比。

參與國家“863計劃”(國家高技術(shù)研究發(fā)展計劃)的科大訊飛方面表示,隨著人工智能技術(shù)的發(fā)展,未來,除了開放式的作文,甚至政治、歷史、地理科目的問答題機器都可以自動閱卷。

當(dāng)全自動機器閱卷成為現(xiàn)實后,教師們將會有更多的時間和精力投入到對教學(xué)方法、教學(xué)手段等創(chuàng)造性工作的研究中,從而為學(xué)生帶來質(zhì)量更高、更全面的教育。

  • 微笑
  • 流汗
  • 難過
  • 羨慕
  • 憤怒
  • 流淚
責(zé)任編輯:李璐