首頁>資訊 >
「可信AI」攻堅戰(zhàn):互聯(lián)網(wǎng)大廠的「生死攸關(guān)」時刻 2022-01-06 09:13:43  來源:36氪

近年來,「可信AI」逐漸成為人工智能領(lǐng)域的熱門話題之一,以人工智能為基礎(chǔ)支撐業(yè)務的互聯(lián)網(wǎng)科技大廠更是打了頭陣。

今年6月,螞蟻集團在全球人工智能大會上首次公布了「可信AI」技術(shù)架構(gòu)體系。今年7月,京東探索研究院在世界人工智能大會上發(fā)布了中國首個《可信人工智能白皮書》。兩家企業(yè)都將隱私保護、魯棒性/穩(wěn)定性、可解釋性、公平性作為「可信AI」的四大基本原則。

而若細究,有關(guān)隱私保護與公平性的呼吁又遠遠早于名詞「可信AI」的出現(xiàn)。比方說,微眾銀行、同盾科技等金融科技公司早早就開始布局數(shù)據(jù)隱私,應用聯(lián)邦學習、差分隱私等技術(shù)對數(shù)據(jù)進行保護,以驅(qū)動數(shù)據(jù)依賴模型的研究與發(fā)展。

「可信AI」是什么?為什么互聯(lián)網(wǎng)大廠頻頻下場、以致數(shù)字江湖會掀開這樣一場轟轟烈烈的研究熱潮?

更重要的是,除了企業(yè)界,學術(shù)界也紛紛投入其中。比如,今年10月,哥倫比亞大學數(shù)據(jù)科學研究院主任、ACM與IEEE雙Fellow周以真便在權(quán)威期刊《ACM通訊》上發(fā)表了《可信人工智能》一文,詳述了「可信AI」的前世今生、基本內(nèi)核與研究意義。

與「AI倫理」不同,「可信AI」除了呼吁技術(shù)發(fā)展以人為本,更從人工智能技術(shù)本身出發(fā),強調(diào)提升人工智能算法與模型的魯棒性與可解釋性。換句話說,如果「AI倫理」是人工智能社會的道德準則,那么「可信AI」就相當于人工智能時代的法律手段,將有機會從根源上制約人工智能技術(shù)的弊端。

但為何「可信AI」的研究首先是在工業(yè)界發(fā)起,而后蔓延到學術(shù)界?目前,「可信AI」的研究主體又為何是互聯(lián)網(wǎng)科技大廠?

原因也很簡單:人工智能在大規(guī)模的落地應用中出現(xiàn)了許多「信任危機」問題,無論是普通用戶還是權(quán)威學者都產(chǎn)生了對人工智能算法的擔憂。作為應用人工智能技術(shù)的主力軍,如果互聯(lián)網(wǎng)大廠不積極解決人工智能的信任問題,則很可能面臨被淘汰的命運。

01. 一場被用戶「倒逼」的技術(shù)革命

大廠們不得不開始直視一個問題:大眾對人工智能的信任度正在降低。

眾所周知,當前基于神經(jīng)網(wǎng)絡(luò)的AI技術(shù)具有不可解釋、魯棒性差、過于依賴數(shù)據(jù)等通病,內(nèi)含「獸性」,在給人類社會帶來前所未有的便利時,也蘊含著許多潛在的危害。

這樣的例子,在互聯(lián)網(wǎng)上并不少見。

據(jù)英國《每日郵報》報道,2015年2月,英國進行了首例機器人心瓣修復手術(shù)。這場手術(shù)使用的是被譽為「外科機器人界的波士頓動力」的達芬奇手術(shù)機器人。然而這樣原本是一場最尖端醫(yī)療AI技術(shù)的展示卻以慘痛的失敗告終。由于手術(shù)過程中,血液濺射到攝像頭上造成機器「失明」,導致機器人把病人的心臟「放錯位置」,并戳穿了大動脈。最終,接受手術(shù)的患者在術(shù)后一周去世。

2016年9月,央視《法治在線》欄目報道了一起發(fā)生在河北邯鄲段公路的嚴重事故。一位青年在駕駛特斯拉轎車行駛時,因未能及時躲避前方道路清掃車發(fā)生追尾,事故導致該名青年身亡。據(jù)事故后行車記錄儀中的視頻分析,事故發(fā)生時,特斯拉處于「定速」狀態(tài),因未能識別躲閃而撞上前車。這被認為是國內(nèi)披露的首起特斯拉自動駕駛功能(Autopilot)使用中發(fā)生的車禍致死案例。

源于這些真實發(fā)生的慘案,大眾對 AI 的信任度大大降低。因此,即使已有無數(shù)的研究調(diào)查表明,使用自動駕駛系統(tǒng)的車輛事故發(fā)生率遠遠低于現(xiàn)有車輛駕駛方式的事故發(fā)生率,但質(zhì)疑的聲音仍然存在:

「在自動駕駛中,決定交通革新成敗的,不是99%的準確度,而是1%的失誤率?!?/p>

當前的人工智能發(fā)展以深度學習為主,而深度學習算法最常標榜的便是「準確率高達99.99%」。由于深度學習模型的「黑匣子」特征,即使2018年憑借深度學習與神經(jīng)網(wǎng)絡(luò)的成就獲得圖靈獎(計算機領(lǐng)域的諾貝爾獎)的「深度學習三巨頭」,也無法自信地說,某一算法可以達到100%的準確性。

深度學習三巨頭,從左到右是Yann LeCun、Geoffrey Hinton與Yoshua Bengio

由此出發(fā),當準確率估計只能達到99%的深度學習算法在現(xiàn)實生活中落地時,便會帶來許多不容小覷的問題。比如,假設(shè)未來一座城市有十萬輛自動駕駛汽車,那么根據(jù)最高準確率為99%的概率推算,則可能對人類出行安全造成威脅的隱患車輛仍有一千輛。

除了「不可解釋性」,人工智能系統(tǒng)在現(xiàn)實生活的落地中還呈現(xiàn)出了許多由不公平的設(shè)計、不穩(wěn)定的模型結(jié)論與侵犯隱私等問題所引起的「用戶信任危機」。當中所牽涉的企業(yè)與用戶也不僅僅是自動駕駛行業(yè),而更多是「全民危機」。

例如,AI技術(shù)已成為互聯(lián)網(wǎng)行業(yè)發(fā)展不可缺少的原動力之一。然而,在AI賦能數(shù)字經(jīng)濟的過程中,AI算法的弊端也頻頻出現(xiàn),使得企業(yè)推出的AI產(chǎn)品引發(fā)了部分用戶擔心,質(zhì)疑的聲音層出不窮。

例如,部分電商平臺存在大數(shù)據(jù)殺熟現(xiàn)象;內(nèi)容平臺則存在用戶在推薦算法下接收的資訊內(nèi)容同質(zhì)化的現(xiàn)象;去年《人物》報道,外賣系統(tǒng)用算法將騎手困在系統(tǒng)里;社交平臺也有因監(jiān)管不當暴露個人隱私數(shù)據(jù)的問題;而在金融場景中,貸款保險等業(yè)務背后也存在由AI算法評級引發(fā)的公平性問題。

更直接的例子也仍要舉交通出行。雖然并不是人人都會選擇購買準確率僅最多達99%的自動駕駛汽車,但當代居民的日常出行幾乎都離不開乘車平臺。平臺運用人工智能系統(tǒng)進行司乘匹配、路線規(guī)劃與自動派單,在為人們的出行帶來極大便利的同時,也出現(xiàn)了許多由人工智能技術(shù)不完善所引起的問題,比如路線規(guī)劃不合理導致多收費、顯示接送到達時間與實際嚴重不符等等。

算法公平性的背后存在人為和非人為的兩種基本因素。如果說企業(yè)利用人工智能進行「大數(shù)據(jù)殺熟」,是可控的企業(yè)道德問題(企業(yè)試圖牟利),那么類似將「被投訴次數(shù)多」的司機正常分派給用戶、導致乘客人身安全受威脅的行為,則很大可能源自人工智能系統(tǒng)本身的「不可控」技術(shù)缺陷。而所謂的「不可控」是指,傳統(tǒng)的人工智能模型在決策過程中存在「黑盒」問題,即推理過程不透明。

AI 技術(shù)所帶來的便利和 AI 技術(shù)「不可信」之間的矛盾,正逐漸成為 AI 在現(xiàn)實生活中大規(guī)模落地應用的核心問題。

舉個例子:在醫(yī)療場景中,如果一個病人無法信任AI,那么Ta就不會聽從AI系統(tǒng)所給出的診斷結(jié)果與醫(yī)療建議,哪怕這些診斷是正確的、對病人是有益的。同樣地,無論企業(yè)跟用戶吹噓自動駕駛的技術(shù)有多牛,如果沒有萬全的保障,我們也不敢把「開車」交給AI;即使支付寶等在線支付平臺再便捷,若所使用的人工智能算法會導致用戶的金錢損失,我們也不會再使用。

因此,提高大眾對人工智能的信任變得至關(guān)重要。

02. 企業(yè)為何入場「可信AI」?

針對AI在落地中所產(chǎn)生的負面影響,除了全球范圍內(nèi)目前由政府組織發(fā)布的近150份AI治理原則與共識,如2019年的「G20人工智能原則」中強調(diào)「促進可信AI的創(chuàng)新」,歐盟在2019年發(fā)布《可信AI道德準則》,工業(yè)界與學術(shù)界也紛紛覺醒,主動出擊,倡導研究「可信AI」。

那么,京東、螞蟻、騰訊等等企業(yè)為何紛紛入場「可信AI」?甚至谷歌也設(shè)立了「AI倫理團隊」?

一個直接的原因是:信任是商業(yè)的基石。2002年1月,時任微軟掌舵人的比爾蓋茨便在致員工與股東客戶的《可信計算》備忘錄中提出構(gòu)成「可信」的四大因素是安全、隱私、可靠與商業(yè)誠信。

隨著人工智能信任危機的發(fā)酵,普通用戶從消費者的角度出發(fā),對人工智能產(chǎn)品的態(tài)度愈發(fā)謹慎;學者從技術(shù)研究的角度出發(fā),對人工智能模型的自身缺陷所可能引發(fā)的現(xiàn)實應用后果產(chǎn)生擔憂;而企業(yè)從經(jīng)營的角度出發(fā),不得不面對應用人工智能賦能數(shù)字經(jīng)濟時所要解決的用戶信任、技術(shù)隱患與同行競爭等問題。

近年來,各國政策在人工智能的落地中,也十分強調(diào)「以人為本」。換言之,用戶是政策的核心保護者。比方說,2018年5月,具有「史上最嚴格的隱私和數(shù)據(jù)保護法」之稱的歐盟《通用數(shù)據(jù)保護條例》(GDPR)正式生效,法國數(shù)據(jù)保護局(CNIL)則以違反GDPR為由,對谷歌處以創(chuàng)紀錄的5000萬歐元罰款,為應用人工智能等技術(shù)賦能經(jīng)濟的全球企業(yè)打響了警告槍。

除了用戶的信任問題,企業(yè)之所以要入場「可信AI」,還有兩個容易被忽略的原因:

一,企業(yè)也面臨自身的風控問題。與游戲中機器人的臨場停滯不同,人工智能系統(tǒng)在醫(yī)療、金融、出行等場景中的漏洞和失誤,可能造成的金錢與安全損失是無法彌補的。

類似支付寶這樣的互聯(lián)網(wǎng)支付平臺,每天都會受到上億次的黑產(chǎn)攻擊。他們每天都在面臨一種「如果你不跑、黑產(chǎn)就會跑到你前面」的情況,若速度比黑產(chǎn)慢,成千上萬的支付寶用戶資金安全就會受到威脅。這時,支付寶所應用的風控模型與算法魯棒性變得至關(guān)重要。

二,當前AI對人類社會的影響逐漸加深,在越來越多的場景中成為人工的替代品,如果企業(yè)沒有提前做好防御與準備,則可能在新一輪的市場競爭中被淘汰。

比如,同樣是網(wǎng)約車平臺,任何一家企業(yè)能夠率先研究出更強大、更穩(wěn)健的人工智能派單系統(tǒng),減少司乘匹配劣質(zhì)率、提升乘客與最近距離的司機匹配率以減少乘客等候時間、自動提供最優(yōu)且公平的出行價格,那么這家企業(yè)將能最大程度地降本增效,獲得市場競爭優(yōu)勢。

再比如,在線支付平臺中,如果支付寶不積極改進人工智能算法的魯棒性和可解釋性、而是依賴人工方式去篩選與識別欺詐電話,人力成本將大幅增加;同時,如果應用原有魯棒性差的模型進行篩選識別與防御,無法跑贏黑產(chǎn),那么其遭受的損失亦是無以估量的。這時,若競爭對手在「可信AI」上率先研究出更穩(wěn)健的系統(tǒng)與算法,則支付寶會失去原有城池,或面臨被淘汰的命運。這或許也是螞蟻集團早在2015年就啟動可信AI相關(guān)研究的核心動力。

2018年9月,麥肯錫全球研究所發(fā)布了一份長達60頁的報告,分析了人工智能對全球經(jīng)濟的影響,明確指出:在2030年之前,人工智能將在全球范圍內(nèi)產(chǎn)生13萬億美元的經(jīng)濟效益,使全球GDP每年增長約1.2%;此外,人工智能的應用可能會擴大企業(yè)與企業(yè)之間的差距,人工智能領(lǐng)先企業(yè)在2030年前有望實現(xiàn)回報翻倍,而延遲使用人工智能技術(shù)的公司則會遠遠落后。

03. 企業(yè)如何應對?

迫于越發(fā)收緊的政策壓力、用戶信任,與黑產(chǎn)追擊等問題,國內(nèi)外大廠不得不主動或被動地投身于「可信AI」的研究中,通過實際的行動來控制人工智能技術(shù)對人類社會所可能產(chǎn)生的負面影響。

比如,GDPR罰款事件后,谷歌在2019年推出「遺忘算法」,允許用戶刪除其在谷歌網(wǎng)頁或Youtube上刪除個人隱私數(shù)據(jù),并承諾會在特定時間(18個月)內(nèi)自動刪除用戶的位置信息、瀏覽記錄等。

在互聯(lián)網(wǎng)時代,除了誠信,人們還要考慮數(shù)據(jù)安全的問題,而數(shù)據(jù)泄露是信任危機誕生的主要來源;而到了AI時代,除了更嚴峻的數(shù)據(jù)安全問題之外,算法的統(tǒng)計性質(zhì)所帶來的不可控性、AI系統(tǒng)的自主學習性與深度學習「黑匣子」模型的不可解釋性,也成為了導致用戶信任危機的新要素。

這時候,信任問題已經(jīng)不完全取決于企業(yè)自身的意愿,還取決于企業(yè)對AI技術(shù)(數(shù)據(jù),算法等)的理解與掌控程度。所以,從企業(yè)的角度看,有意愿去推動「可信AI」,只是解決用戶信任問題的第一步。問題的關(guān)鍵,還是在于企業(yè)能否從底層技術(shù)上實現(xiàn)AI的可信性。

一個普遍的偏見是:國內(nèi)大廠對「可信AI」的意識要遠遠落后于歐美各國。但事實是,早在2015年2月,螞蟻集團就已啟動基于「端特征」的手機丟失風險研究項目,邁出了端云協(xié)同風控研究的第一步,旨在保護用戶的隱私安全。2017年6月,螞蟻又發(fā)布具備智能攻防能力的第一代智能風控引擎AlphaRisk,在用戶集中的支付寶端進行風險防控。至2021年首次對外披露技術(shù)架構(gòu),螞蟻集團已經(jīng)完成了長達6年的「可信AI」技術(shù)積累之路。據(jù)2021年6月權(quán)威專利機構(gòu)IPR daily發(fā)布的《人工智能安全可信關(guān)鍵技術(shù)專利報告》顯示,螞蟻集團旗下的支付寶在該領(lǐng)域的專利申請數(shù)和授權(quán)數(shù),均位列全球第一。

總的來說,企業(yè)在「可信AI」上的工作主要分為三部分:文書呼吁,企業(yè)管理與技術(shù)研究。

文書方面,最著名的莫過于京東探索研究院今年發(fā)布的《可信人工智能白皮書》,還有微眾銀行領(lǐng)銜的《聯(lián)邦學習白皮書》。當然,可信 AI 不能只停留在原則和共識上,還需要落實到技術(shù)實現(xiàn)和組織文化中。

企業(yè)管理上,商湯科技在去年1月成立了人工智能倫理治理委員會,并于今年上半年上線了倫理審核系統(tǒng),建立貫穿人工智能系統(tǒng)生命周期的風險管理系統(tǒng),對將要落地的人工智能系統(tǒng)進行全過程的追溯和審查,為國內(nèi)科技企業(yè)做出了表率。

在技術(shù)研發(fā)層面,實現(xiàn)「可信AI」的途徑主要是兩方面:數(shù)據(jù)與算法。數(shù)據(jù)問題集中在隱私保護和安全、數(shù)據(jù)偏見以及由此帶來的不公平,而算法問題則在于可解釋性與穩(wěn)健性(又稱為「魯棒性」)。

數(shù)據(jù)、算法與算力被舉為人工智能研究的「三駕馬車」,隨著用戶對隱私數(shù)據(jù)的保護意識加強、數(shù)據(jù)泄露所帶來的風險加大,如何在「數(shù)據(jù)保護」與「數(shù)據(jù)驅(qū)動的AI研究」中謀求兩全之策,將成為「可信AI」的熱門研究方向之一。

除了數(shù)據(jù)隱私保護,要實現(xiàn)「可信AI」,工業(yè)界與學術(shù)界的研究者目前所面臨的問題與未來要集中解決的方向還有如下幾個維度:

1)數(shù)據(jù)的公平性

AI的訓練結(jié)果直接依賴于輸入的數(shù)據(jù)。然而受數(shù)據(jù)采集條件的限制,不同群體在數(shù)據(jù)中所占的比例并不均衡,例如當下 NLP 訓練語料大多是英語和中文,其他 8000多個少數(shù)語種很難融入到AI世界當中;而由于學習語料的問題,AI簡歷篩選時往往會自動過濾掉包含特定關(guān)鍵字的求職候選者,使之成為「AI透明人」。

2)算法的穩(wěn)定性

針對 AI 模型的數(shù)據(jù)和系統(tǒng)存在多種攻擊方式,例如中毒攻擊、對抗攻擊、后門攻擊等。舉例來說,通過向模型中投喂惡意評論,便可以影響推薦系統(tǒng)的準確度;在交通標志牌上貼上特殊設(shè)計的圖案,便可以誤導自動駕駛系統(tǒng)錯誤識別。

另一方面,干擾的形式也正在逐步從數(shù)字世界向物理世界蔓延,例如通過打印對抗樣本等手段,直接對自動駕駛和人臉識別系統(tǒng)造成物理層面的干擾。

3)算法的可解釋性

以深度學習為代表的機器學習算法,本質(zhì)上是一個端到端的黑箱。一方面,人們對訓練得到的人工智能模型為何能具有極高的性能尚不清楚;另一方面,人工智能系統(tǒng)在做出決策時具體依賴哪些因素,人們也不清楚。比如,曾有實驗者向GPT-3(自然語言處理模型)提問「新冠疫情何時結(jié)束」,它的回答是「2023年12月31日」,但答案的依據(jù)是什么?研究者無從解釋,也自然難保其準確率。

《疑犯追蹤》(Person of Interest)劇照

針對上述問題,國內(nèi)各大廠紛紛開始布局研究,尋求可行的技術(shù)手段,以解決通往「可信AI」道路上的「攔路虎」。

就拿數(shù)據(jù)隱私保護來說?!阜植际接嬎恪?、「聯(lián)邦學習」等支持「數(shù)據(jù)可用不可見」的新興技術(shù)在工業(yè)界十分火熱,尤其受到了螞蟻集團、微眾銀行、同盾科技等企業(yè)的青睞。2017年11月,螞蟻聯(lián)合美國伯克利大學啟動人工智能開源項目Ray,通過分布式平臺為開發(fā)者提供計算資源及任務調(diào)度支持,并在其社區(qū)內(nèi)圍繞隱私保護、智能風控、智能搜索等應用場景持續(xù)為開發(fā)者提供開源支持;2019年,微眾開源了首個工業(yè)級聯(lián)邦學習框架FATE。

模型魯棒性方面,國內(nèi)廠商在對抗學習的研究上積極投入。2017年9月,螞蟻提交了第一項文本對抗相關(guān)的專利《一種基于拼音擴展特征識別文本內(nèi)容風險變種的方法》,并在后續(xù)的3年間,針對內(nèi)容安全場景持續(xù)探索智能對抗技術(shù)方案,合計申請專利31項 。百度提出并開源對抗樣本工具箱包「Advbox」,使用先進的生成方法構(gòu)造對抗樣本數(shù)據(jù)集來進行對抗樣本的特征統(tǒng)計、攻擊全新的AI應用,通過對抗攻擊加固業(yè)務AI模型,提升模型的安全性。

在可解釋性的應用研究上,國內(nèi)大廠的表現(xiàn)也尤為突出。2018年9月,螞蟻上線了反洗錢的智能報文系統(tǒng),針對反洗錢監(jiān)管合規(guī)要求,自動輸出包含風控原因及處理方案的報文內(nèi)容;2020年,螞蟻研發(fā)出可解釋圖算法Risk-alike,能夠在欺詐案件中主動審理場景落地。

縱觀國內(nèi)各大廠對AI技術(shù)的治理,不難發(fā)現(xiàn):以商湯為代表的感知智能技術(shù)研發(fā)更著重于「AI向善」的應用管控。而相比感知智能,「可信AI」在以金融為代表的風險敏感場景中利害更為鮮明,研究也更為深入、徹底。

在可預見的未來,金融、醫(yī)療、出行等等與人類社會現(xiàn)實息息相關(guān)的企業(yè)或?qū)⒊蔀椤缚尚臕I」的研究主力軍,并涌現(xiàn)大量可以期待的關(guān)鍵技術(shù)成果,從技術(shù)端引導人工智能造福社會。

04. 企業(yè)的責任心

一家企業(yè)能夠做出突破性的 AI 技術(shù),它將走得很快;但只有將自己的 AI 技術(shù)變得可信,它才能走得更遠?!窤I 突破」和「AI 可信」正如打江山和守江山一樣,前者更會讓人壯懷激烈,但后者才是安穩(wěn)生活的保障。

在打造「可信AI」的過程中,企業(yè)是一股不容小覷的力量。一方面,企業(yè)是技術(shù)研究的主力軍;另一方面,企業(yè)又是AI落地問題的發(fā)現(xiàn)者。在思索如何推動AI商業(yè)化的過程中,企業(yè)所發(fā)現(xiàn)的難題,反哺于學術(shù)界,可以加速解決AI落地的種種難題。

此外,企業(yè)又是推動AI技術(shù)在人類社會中產(chǎn)生價值的先鋒者。最終,在實驗室取得的AI創(chuàng)新成果,無論正面或負面,都須經(jīng)過企業(yè)的產(chǎn)品化,將其提供給用戶,影響到個人。

在這種過程中,保護用戶,也是守護企業(yè)自身。雖是一場被黑產(chǎn)和用戶倒逼的技術(shù)革命,「可信AI」的危機卻并非源于大眾對科技的愚昧與自身思想的頑固,而是人工智能本身的技術(shù)仍未發(fā)展完善。誠如前述,當前「可信AI」的研究仍存在許多亟待攻破的技術(shù)難題。

企業(yè)沖鋒,學界掩護,各方力量聯(lián)合。只有當越來越多的研究者參與其中,AI實現(xiàn)「可信」方才指日可待。

參考鏈接:

1.Bughin, J., Seong, J., Manyika, J., Chui, M., & Joshi, R. (2018). Notes from the AI frontier: Modeling the impact of AI on the world economy. McKinsey Global Institute, Brussels, San Francisco, Shanghai, Stockholm.

2. Trustworthy AI

https://cacm.acm.org/magazines/2021/10/255716-trustworthy-ai/fulltext

3. Bill Gates: Trustworthy Computing

https://www.wired.com/2002/01/bill-gates-trustworthy-computing/

4. Google Will Delete Your Data by Default—in 18 Months

https://www.wired.com/story/google-auto-delete-data/

5. ETHICS GUIDELINES FOR TRUSTWORTHY AI

https://ec.europa.eu/newsroom/dae/document.cfm?doc_id=60419

關(guān)鍵詞: 生死攸關(guān) 攻堅戰(zhàn) 網(wǎng)大

相關(guān)閱讀:
熱點
圖片 圖片