機器得到的結(jié)果取決于我們設(shè)置的指令,但其執(zhí)行過程卻更為高效。我們必須承認,機器運行時的很多中間狀態(tài),是在設(shè)計初始指令時無法預(yù)見的。機器自己也會感悟出很多知識。在這種情況下,我們有必要將機器視為智能的。
1950年,艾倫·圖靈在《思維》雜志上發(fā)表了其著名論文《計算機器與智能》,并提出了如今廣為人知的圖靈測試。
70年來,圖靈測試一直被認為是人工智能學(xué)術(shù)界的“北極星”。隨著人工智能技術(shù)的發(fā)展,之后也有許多其他測試誕生,但沒有一個能夠與之齊名。“圖靈測試展現(xiàn)出極致的簡單和優(yōu)雅,這讓它在過去70年中長盛不衰。”DataRobot數(shù)據(jù)科學(xué)副總裁扎克·麥耶說。
雖然自圖靈測試概念誕生以來,人工智能均以通過圖靈測試為目標,但進入新時代,人工智能評價標準卻需要從舊基準中脫身升級。
2020年12月28日,亞馬遜副總裁兼語音助手Alexa首席科學(xué)家羅希特·普拉薩德在《快公司》上發(fā)表的文章中表態(tài),圖靈測試已經(jīng)失去了意義,是時候建立新的人工智能衡量標準了。
圖靈測試僅限于機器能否給出類人的回答
“機器能否思考?”
為了回答這個問題,艾倫·圖靈提出一種測試方法:如果一個測試者對無法確認身份的兩個對象(一人、一機器)提出相同的一系列問題,得到的答案讓他無法區(qū)分究竟誰是機器、誰是人,那么則認定機器通過測試。
這種測試方法后來被人們歸納為圖靈測試。研究者希望能夠據(jù)此檢測機器是否能表現(xiàn)出人類也無法區(qū)分的行為,很多初期的人工智能助手都是基于此目標設(shè)計的。
麻省理工學(xué)院教授大衛(wèi)·敏德爾說:“這樣的界定,展示的智慧是有限的。”
圖靈在他的論文中曾預(yù)測,到2000年,一個普通人在圖靈測試中正確區(qū)分人和機器的可能性將降到70%甚至更低。
然而,圖靈當(dāng)年的預(yù)測沒有應(yīng)驗。
普拉薩德認為,圖靈測試的目標和當(dāng)前人工智能研究方向不完全一致,人工智能研究者對通過圖靈測試的興趣不大。人工智能派上更大用場的地方是植入到手機、汽車和家里,人們更關(guān)心的是AI能夠帶來哪些更新的交互體驗和技術(shù)進步,而不是通過測試的分數(shù)有多高。
事實也如此,人們更加關(guān)心與機器的互動及它所能提供的幫助,而不是區(qū)分機器和人類。
另外,一些科學(xué)家發(fā)現(xiàn),讓人工智能在圖靈測試里取得更好成績并不難,只需要讓計算機給出的答案盡量像人類給出的答案就行了。例如回答圖靈測試設(shè)計的問題時,計算機可以瞬間給出答案,而普通人需要思考或查找信息的時間更長,為了模仿或騙過人類,機器也可以模仿人類給出適當(dāng)?shù)耐nD、延遲。
從某種角度看,這樣的圖靈測試更像是一場人工智能“欺騙”人類的游戲。但由此出現(xiàn)了一個突出的問題——為了通過測試,很多機器被迫削弱了快速查找信息和計算的能力。
機器快速計算和信息查詢的能力遠強于人類,這些能力構(gòu)成了現(xiàn)代人工智能的核心。在諸如視覺、自然語言處理等領(lǐng)域,最強的算法已經(jīng)取得遠超人類的結(jié)果,以AlphaGo擊敗頂級人類圍棋選手為代表的種種人工智能的重大進展,很難在一成不變的圖靈測試中得到體現(xiàn)。
也正因此,從應(yīng)用的角度出發(fā),讓計算機放棄自己的優(yōu)勢去模擬人類確實完全沒有必要。
更重要的是,圖靈測試僅考慮了文本交流的情況,而沒有考慮到現(xiàn)在的人工智能已經(jīng)能夠使用各種傳感器,能夠從視覺、聽覺、觸覺等多角度來感受外部世界。
通過圖靈測試已不是現(xiàn)在的研究重點
毫無疑義的是,人工智能對人類社會的影響已超越了圖靈測試的范疇,人工智能研究的目標早已不再局限于AI與人類的區(qū)別,而是如何發(fā)揮機器的速度和信息搜索優(yōu)勢,代替人類完成工作或改善人們的日常生活。
用圖靈測試來檢驗今天的人工智能水平,還有些局限不能忽略,如圖靈測試沒有詳細的標準,也沒有固定的問答模式,一套流程提問和判斷非常主觀,缺乏嚴謹?shù)臉藴?,并不科學(xué)。
那么,這是否意味著圖靈測試已經(jīng)過時?
事實并非如此,即便圖靈測試已不能完全證實人工智能的進步程度,但一個優(yōu)秀的人工智能應(yīng)該能夠通過圖靈測試。有研究者指出,圖靈測試的巧妙在于它沒有直接去定義什么是“智能”,而是將“能否思考”這個抽象的問題,引入了一個更精準,也看似更實用的場景。
從這個角度看,圖靈測試不能稱為過時,只不過是現(xiàn)代人工智能研究不應(yīng)該把通過圖靈測試作為重點。普拉薩德亦指出,盡管沒有考慮到人工智能日益增強的收集數(shù)據(jù)能力和計算能力,圖靈測試仍然是聊天機器人和數(shù)字助理常用的基準。
人工智能需要建立一套全新衡量標準
普拉薩德認為,應(yīng)該創(chuàng)造新的智能評估方式,適用于評估一般類型的智能機器。新的測試應(yīng)該弄明白人工智能是如何表現(xiàn)出類似人的智能特征的,包括語言能力、自我監(jiān)督和具備“常識”。此外,測試范圍還應(yīng)該包括人工智能在多大程度上改善了人們的日常生活。
中國工程院院士、清華大學(xué)信息學(xué)院院長戴瓊海教授也曾在公開演講中指出,人工智能發(fā)展非???,已經(jīng)取代了人類以往常用的大部分工具。但是,這種取代能不能做得更好,需要做一套測試。
即便是與圖靈測試捆綁最深的人工智能對話系統(tǒng),其研究者也在呼喚對圖靈測試進行改進。
前微軟全球執(zhí)行副總裁、微軟亞洲研究院院長沈向洋還在微軟任職時提出,圖靈測試已難不倒像微軟小冰這樣的情感型人工智能產(chǎn)品。鑒于今天的人工智能技術(shù)環(huán)境,計算機學(xué)術(shù)界有必要對圖靈測試進行修正和升級,是時候討論難度更高的“超圖靈測試”了。
普拉薩德強調(diào),新的衡量標準應(yīng)該體現(xiàn)出機器在效率上的優(yōu)勢,比如計算、搜索、代人完成任務(wù)等,綜合評價人工智能給人類帶來的幫助,而不是執(zhí)迷于消除人工智能和人的區(qū)別。他認為,人工智能只有具備更廣泛的學(xué)習(xí)能力,才能成為處理大量任務(wù)方面的專家,針對特定任務(wù)所表現(xiàn)出的智能并不能代表人工智能真正的能力。
隨著人工智能技術(shù)的進步和更多被應(yīng)用到現(xiàn)實生活中,人們一邊對人工智能改善自己生活有了更多的期待,一邊又對人工智能的使用甚至濫用提高了警惕。
對此,業(yè)界正在逐漸達成共識——新的人工智能衡量標準應(yīng)該在倫理層面有所顧忌,而非固化地遵從圖靈測試的標準。
不能否認的是,研究人員仍對更強大的類人智能問題感興趣,而大眾亦越來越受到科幻影視所展現(xiàn)的未來世界的影響,向往更加強大的“通用人工智能”,即像人一樣思考、像人一樣可從事多種工作的機器。
戴瓊海提出,新一代圖靈測試,要從專用智能走向通用智能,要針對新一代人工智能提出的目標和要求,給出新的測試方向。人工智能的需求始終在改變,在不斷重新考慮設(shè)計新的評價標準和體系的過程中,人類跨越圖靈測試已經(jīng)成為必然結(jié)果,但其作為人工智能發(fā)展初期的導(dǎo)航標,極大地激發(fā)了人類對人工智能的想象,非凡意義將永遠不會磨滅。(記者 劉 艷)
已有0人發(fā)表了評論