首頁>資訊 >
人工智能無法精準(zhǔn)讀取人臉表情(下) 2021-11-09 16:52:43  來源:36氪

神譯局是36氪旗下編譯團(tuán)隊(duì),關(guān)注科技、商業(yè)、職場(chǎng)、生活等領(lǐng)域,重點(diǎn)介紹國(guó)外的新技術(shù)、新觀點(diǎn)、新風(fēng)向。

編者按:人工智能讀取人臉表情,似乎是眾多科技公司都在嘗試的新業(yè)態(tài)。這一市場(chǎng)也在不斷增長(zhǎng)。一些人認(rèn)為,情緒檢測(cè)自動(dòng)化系統(tǒng),不僅能更好地發(fā)現(xiàn)人類真實(shí)情緒,而且還能協(xié)調(diào)人們內(nèi)心的感受。但也有許多人擔(dān)心,這項(xiàng)技術(shù)存在很多缺陷,其應(yīng)用過程甚至?xí)?dǎo)致新的風(fēng)險(xiǎn)。這篇文章來自編譯,作者認(rèn)為,人工智能根本無法精準(zhǔn)讀取人臉表情。這是文章的下篇,文章在探討情緒識(shí)別在人工智能行業(yè)發(fā)揮的作用的同時(shí),也指出了由此而產(chǎn)生的一系列問題。

推薦閱讀:人工智能做無法精準(zhǔn)讀取人臉表情(上)

圖片來源:openpr

在西方文化中,面相學(xué)的發(fā)展在18世紀(jì)和19世紀(jì)達(dá)到了高潮。當(dāng)時(shí),面相學(xué)被視為解剖學(xué)的一部分。這一傳統(tǒng)中的一個(gè)關(guān)鍵人物是瑞士牧師約翰·卡斯帕·拉瓦特(Johann Kaspar Lavater),著有《面相學(xué)短篇集》(Essays on Physiognomy)一書。

拉瓦特采用了面相學(xué)的方法,并將其與當(dāng)時(shí)最新的科學(xué)知識(shí)相結(jié)合。他認(rèn)為,骨骼結(jié)構(gòu)是外貌和性格類型之間的潛在聯(lián)系。如果面部表情是短暫存在的,那么頭骨應(yīng)該可以為面相學(xué)有關(guān)推斷提供更可靠的材料。

在種族科學(xué)中,頭骨測(cè)量是一種相對(duì)流行的技術(shù),被用來支持民族主義、白人至上主義和仇外心理。在整個(gè)19世紀(jì)中,弗朗茨·約瑟夫·高爾(Franz Joseph Gall)、約翰·加斯帕·斯柏茲姆(Johann Gaspar Spurzheim)等顱相學(xué)家以及科學(xué)犯罪學(xué)專家切薩雷·龍勃羅梭(Cesare Lombroso)都對(duì)這種研究方法展開了詳盡的闡述,這些研究也導(dǎo)致這些學(xué)者聲名狼藉。

然而,首先公開嘗試將攝影和其他技術(shù)手段應(yīng)用于人臉研究的,則是法國(guó)神經(jīng)學(xué)家杜徹尼·博洛尼(DuchennedeBoulogne),他被??寺u(yù)為“極具天賦的觀察者”。

其著作的《人體面相機(jī)制》(Mécanisme de la physionomie humaine)一書,為后來達(dá)爾文和??寺难芯慷嫉於酥匾幕A(chǔ)。在這本書中,博洛尼將過去面相學(xué)和顱相學(xué)的觀點(diǎn)與更現(xiàn)代的生理學(xué)和心理學(xué)有關(guān)研究聯(lián)系在一起。他并不認(rèn)可之前有關(guān)面部特征的模糊斷言,而是通過更深入的研究,去探索面部表情和內(nèi)心精神和情感狀態(tài)之間的聯(lián)系。

博洛尼在巴黎的一家精神病院La Salpetrière Hospital工作,那里收容了多達(dá)5000名患有各種精神疾病和神經(jīng)系統(tǒng)疾病的患者。博洛尼會(huì)將其中一部分患者當(dāng)作被試對(duì)象,讓他們參與到令人痛苦的實(shí)驗(yàn)當(dāng)中。長(zhǎng)久以來,醫(yī)學(xué)和技術(shù)實(shí)驗(yàn)通常都會(huì)將最脆弱的人或不懂得拒絕的人當(dāng)作被試對(duì)象,這也是傳統(tǒng)的一部分。

在科學(xué)界鮮為人知的博洛尼,決定開發(fā)一種電擊技術(shù),來刺激被試對(duì)象面部的肌肉運(yùn)動(dòng)。他的目標(biāo)是建立對(duì)臉部的更完整解剖和生理學(xué)認(rèn)識(shí)。

通過這些方法,博洛尼希望將全新的心理科學(xué)與之前的面相特征聯(lián)系起來。他借助了最新的攝影技術(shù),比如可以將曝光時(shí)間大幅減少的濕版火棉膠攝影,從而能通過照片捕捉那些轉(zhuǎn)瞬即逝的肌肉運(yùn)動(dòng)和面部表情。

即使在這些早期研究階段,捕捉到的面部表情也從來不是最自然的狀態(tài),也不是社會(huì)中出現(xiàn)的人類表情,而是通過對(duì)肌肉的粗暴電擊而模擬的狀態(tài)。不管怎么說,博洛尼都相信,借助攝影和其他技術(shù)系統(tǒng),有助于讓研究變得更加客觀和有說服力,因此也更適合科學(xué)研究。

下面是一些選自《人體面相機(jī)制》(來自美國(guó)國(guó)家醫(yī)學(xué)圖書館)的照片:

在博洛尼的影響下,埃克曼也把攝影技術(shù)作為其實(shí)驗(yàn)過程中的核心。他認(rèn)為,由于許多面部表情都是在人類無意識(shí)下出現(xiàn)的,因此,慢動(dòng)作拍攝法對(duì)他的研究至關(guān)重要。其目的是尋找所謂的微表情,即面部細(xì)微的肌肉運(yùn)動(dòng)。

在早期研究中,??寺钠渲幸粋€(gè)計(jì)劃是,編寫一個(gè)可以檢測(cè)和分析面部表情的系統(tǒng)。1971年,他與幾位研究人員共同合作發(fā)表了一篇研究報(bào)告,并在報(bào)告中首次提出了“面部表情評(píng)分方法(FAST)”這一概念。

在借助于照片的基礎(chǔ)上,埃克曼主要通過自己的直覺,在FAST方法中使用了六種基本的情感類型。然而,這一方法很快就出現(xiàn)了問題。有幾位研究人員發(fā)現(xiàn),有些面部表情并不在埃克曼使用的情感類型范疇內(nèi)。

于是,??寺鼪Q定,在下一個(gè)實(shí)驗(yàn)中,借助測(cè)量工具來聚焦于面部肌肉組織,這與博洛尼當(dāng)初的電擊研究相呼應(yīng)。

??寺_定了面部大約40種不同的肌肉收縮狀態(tài),并將每個(gè)面部表情的基本組成部分稱為“動(dòng)作單元”。經(jīng)過初步測(cè)試和驗(yàn)證,??寺土硪晃恍睦韺W(xué)家華萊士·弗里森(Wallace Friesen)于1978年在一篇研究報(bào)告中又提出了“面部動(dòng)作編碼系統(tǒng)(FACS)”。時(shí)至今日,其更新版本也一直在廣泛使用。

盡管FACS取得了較大的成功,但這一方法卻需要大量的人力。??寺岬?,平均而言,通常需要花75至100個(gè)小時(shí)來訓(xùn)練人們使用FACS方法。此外,單單完成一分鐘的面部影片片段的評(píng)分,就需要一個(gè)小時(shí)。這一挑戰(zhàn),也恰恰為新興的計(jì)算機(jī)視覺領(lǐng)域提供了發(fā)展機(jī)遇。

隨著計(jì)算機(jī)在情感識(shí)別方面的應(yīng)用逐漸普及,研究人員也認(rèn)識(shí)到,需要收集標(biāo)準(zhǔn)化的圖像來進(jìn)行實(shí)驗(yàn)。

1992年,在美國(guó)國(guó)家科學(xué)基金會(huì)(National Science Foundation)的一篇報(bào)告中,??寺土硪晃蛔髡呓ㄗh道,“建立一個(gè)由不同面部研究團(tuán)隊(duì)共享的、可隨時(shí)訪問的多媒體數(shù)據(jù)庫,將是解決面部表情理解問題的重要資源”。

不到一年,美國(guó)國(guó)防部就開始資助一項(xiàng)收集面部照片的項(xiàng)目。在該世紀(jì)末,機(jī)器學(xué)習(xí)研究人員已經(jīng)開始收集、標(biāo)記并公開分享相應(yīng)數(shù)據(jù)集,這些數(shù)據(jù)集也推動(dòng)了當(dāng)今大部分機(jī)器學(xué)習(xí)研究的發(fā)展。

此外,學(xué)術(shù)實(shí)驗(yàn)室和有關(guān)公司也在同時(shí)開展有關(guān)項(xiàng)目,創(chuàng)建了幾十個(gè)照片數(shù)據(jù)庫。例如,瑞典某實(shí)驗(yàn)室的研究人員創(chuàng)建了KDEF數(shù)據(jù)集。該數(shù)據(jù)集收集了包括喜悅、憤怒、厭惡、悲傷、驚訝和恐懼等六種表情的圖片。

當(dāng)你查看這些數(shù)據(jù)集照片時(shí),你很容易獲得一種看默劇的感受:從這些照片中,你可以輕易地發(fā)現(xiàn)被采集者面部令人難以置信的驚喜,或者極大的快樂,或者使人嚇得發(fā)呆的恐懼。總之,這些被采集者所表露出的情緒,完全是能夠?qū)崿F(xiàn)機(jī)器識(shí)別的情緒。

Cohn-Kanade數(shù)據(jù)集的照片示例:喜悅,憤怒,厭惡,悲傷,驚訝和恐懼。圖片來源:Jeffrey Cohn

隨著這一領(lǐng)域在規(guī)模和復(fù)雜程度方面的增長(zhǎng),用于情感識(shí)別的照片類型也在不斷增加。研究人員開始使用FACS系統(tǒng)來標(biāo)記數(shù)據(jù),這些數(shù)據(jù)并不是來自于刻意擺出的表情,更是自然流露出的面部表情,有的甚至是在實(shí)驗(yàn)室條件之外收集的。

??寺墓ぷ鳟a(chǎn)生了深遠(yuǎn)而廣泛的影響?!都~約時(shí)報(bào)》(The New York Times)將??寺u(yù)為“世界上最著名的面相學(xué)家”,《時(shí)代周刊》(Time)也將他評(píng)為全球最有影響力的100人之一。

他的思想成為了流行文化的一部分,甚至被寫入了馬爾科姆·格拉德威爾(Malcolm Gladwell)著作的暢銷書《眨眼之間》(Blink),以及熱播美劇《別對(duì)我說謊》(Lie to Me)。??寺€是《別對(duì)我撒謊》一劇的主角顧問,劇中主角很顯然也是以他為原型刻畫出來的。

埃克曼的生意也可謂是蒸蒸日上。他把“欺騙檢測(cè)”這項(xiàng)技術(shù)出售給了包括美國(guó)運(yùn)輸安全管理局(Transportation Security Administration)等機(jī)構(gòu),TSA還借助這項(xiàng)技術(shù),開發(fā)了“旅客觀測(cè)篩選技術(shù)(SPOT)”項(xiàng)目。

自911恐怖襲擊事件以來,SPOT一直被用于監(jiān)測(cè)乘機(jī)旅客的面部表情,以“自動(dòng)化”檢測(cè)恐怖分子。該系統(tǒng)采用了94項(xiàng)標(biāo)準(zhǔn),據(jù)稱這些標(biāo)準(zhǔn)都是有關(guān)壓力、恐懼或欺騙的跡象。

不過,在系統(tǒng)應(yīng)用過程中,必然會(huì)出現(xiàn)一部分群體被區(qū)別對(duì)待的情況。任何有壓力的人,或者在被問話時(shí)感到不舒服的人,或者與警察或邊境保護(hù)工作人員產(chǎn)生過不友好經(jīng)歷的人,都可能會(huì)被系統(tǒng)標(biāo)注出來。這就形成了一種“種族歸納”。

由于存在種族偏見,并缺乏科學(xué)研究方法,SPOT項(xiàng)目也遭到了美國(guó)國(guó)會(huì)下屬機(jī)構(gòu)美國(guó)政府問責(zé)局(Government Accountability Office,GAO)和有關(guān)公民自由團(tuán)體的強(qiáng)烈譴責(zé)與批評(píng)。盡管耗資近九億美元,但并沒有直接證明表面這套系統(tǒng)取得了成功。

隨著??寺曔h(yuǎn)揚(yáng),對(duì)其研究的懷疑和批評(píng)也隨之而來。早期的批判家有文化人類學(xué)家瑪格麗特·米德(Margaret Mead)。她在20世紀(jì)60年代末就情緒的普遍性問題與??寺归_了激烈的爭(zhēng)論。

隨后幾十年,來自不同領(lǐng)域的科學(xué)家也都加入了這一批判隊(duì)伍。近年來,心理學(xué)家詹姆斯·拉塞爾(James Russell)和何塞·米格爾·費(fèi)南迪斯·多爾斯(José-Miguel Fernández-Dols)通過研究發(fā)現(xiàn),情感研究這門科學(xué)最基本的方面仍然存在許多不確定性因素。

眾多批判者中,最重要的可能是科學(xué)史學(xué)家魯斯·萊伊(Ruth Leys),她從埃克曼的研究方法中發(fā)現(xiàn)了一個(gè)核心問題。

她在其著作的《情感的演化》(The Ascent of Affect)一書中寫道:“埃克曼所使用的刻意擺出表情或非自然流露表情照片,表達(dá)的是不受文化影響的一系列基本情感狀態(tài)?!彪S后,不同背景的人們會(huì)給這些照片分類標(biāo)注,以證明面部表情在不同背景人群中的共通性。

心理學(xué)家、神經(jīng)科學(xué)家麗莎·費(fèi)爾德曼·巴雷特(Lisa Feldman Barrett)直言不諱地指出:“科技公司可以說任何他們想說的,但數(shù)據(jù)卻是明確的。他們可以檢測(cè)出皺眉頭,但這與檢測(cè)到憤怒情緒完全是兩碼事。”

更令人不安的是,直到今天,在情感研究領(lǐng)域,針對(duì)“到底什么是情緒?”這一問題,研究人員都沒有達(dá)成共識(shí)。

什么是情緒?人類情緒是如何形成的?又是如何表達(dá)出來的?情緒在心理上或者神經(jīng)生物學(xué)上能起到什么作用?情緒與刺激物之前又有什么關(guān)系?這些都是尚未解決并達(dá)成共識(shí)的問題。即便有眾多的批判聲音,為什么從一個(gè)人臉上“解讀情緒”的方法仍然存在?

圖片來源:nordicapis

自20世紀(jì)60年代以來,在美國(guó)國(guó)防部大量資金的推動(dòng)下,已經(jīng)開發(fā)出許多系統(tǒng),在測(cè)量面部運(yùn)動(dòng)方面也越來越精準(zhǔn)。由于埃克曼的理論可以實(shí)現(xiàn)大規(guī)模自動(dòng)化,因此似乎也是計(jì)算機(jī)視覺的理想選擇。

基于??寺碚撆c方法有效性的認(rèn)可,許多機(jī)構(gòu)和企業(yè)也都紛紛投資于這一領(lǐng)域。如果人們認(rèn)識(shí)到情緒不容易分類,或者它們不可能可靠地根據(jù)面部表情來檢測(cè)的話,那這只會(huì)對(duì)一個(gè)不斷增長(zhǎng)的領(lǐng)域產(chǎn)生巨大的破壞作用。

許多機(jī)器學(xué)習(xí)論文都在直接引用埃克曼的理論,在這些作者眼中,好像這些問題已經(jīng)解決了一樣。事實(shí)上,有關(guān)背景、條件、關(guān)系和文化等復(fù)雜問題往往都被忽略了。埃克曼自己也說過,他也對(duì)其理論的商業(yè)化方式表達(dá)出了擔(dān)憂。然而,當(dāng)他嘗試寫信給科技公司,請(qǐng)求他們提供證據(jù)來證明其開發(fā)的情緒識(shí)別程序有效性時(shí),他沒有收到任何答復(fù)。

因此,與其試圖搭建更多識(shí)別并將面部表情分類的系統(tǒng),我們不如質(zhì)疑這些分類的源頭,以及其產(chǎn)生的社會(huì)和政治影響。

例如,這些系統(tǒng)在標(biāo)記婦女(特別是黑人婦女)的言語情感方面,就與標(biāo)記男性言語情感存在不同。據(jù)馬里蘭大學(xué)(University of Maryland)的一項(xiàng)研究發(fā)現(xiàn),一些面部識(shí)別軟件在解讀黑人面部表情時(shí),會(huì)反饋出更多的負(fù)面情緒,經(jīng)常都會(huì)將黑人面部表情解讀為具有憤怒或輕蔑傾向。

這就是情感識(shí)別自動(dòng)化的危險(xiǎn)所在。幾十年來,科學(xué)界一直圍繞根據(jù)面部來推斷情緒狀態(tài)這一問題而爭(zhēng)論不休,這也凸顯出一個(gè)核心問題,即一刀切的“情感檢測(cè)”并不是正確的方法。情緒是復(fù)雜的,它們的發(fā)展與變化與我們的文化和歷史有關(guān),這些內(nèi)容目前都還屬于人工智能框架之外。

遺憾的是,求職者已經(jīng)因?yàn)槠涿娌勘砬榛蚵曊{(diào)與其他員工不匹配而受到不公平對(duì)待。在學(xué)校,學(xué)生也會(huì)因?yàn)楸砬榭雌饋砗軕嵟獾教貏e對(duì)待。在商場(chǎng),顧客可能會(huì)因?yàn)槠涿娌勘砬槎毁|(zhì)疑為偷竊者。

這些系統(tǒng)不僅在技術(shù)上有缺陷,而且整套技術(shù)的核心方法論都存在問題。但最后,卻有人會(huì)因?yàn)檫@些系統(tǒng)的缺陷而遭到不平等對(duì)待。

??寺缙趯?shí)驗(yàn)中提出的狹隘情緒分類,如今正編寫進(jìn)機(jī)器學(xué)習(xí)系統(tǒng),成為極其復(fù)雜的情緒體驗(yàn)的“代理人”。

譯者:俊一

關(guān)鍵詞: 人工智能 精準(zhǔn) 表情

相關(guān)閱讀:
熱點(diǎn)
圖片 圖片