首頁 云計算

美國勞工統計局使用機器學習自動執行數據編碼

政府機構永遠充斥著各種文件,其中又不乏大量紙質文檔;即使是對于電子文檔,實際處理與解讀仍然需要耗費大量的人力。為此,聯邦機構寄希望于AI技術,即通過高級機器學習、神經網絡以及自然語言處理(NLP)技術幫助改善這類文檔的處理效率,盡可能將寶貴的人力資源解放出來。雖然其中不少技術在其他行業中早已擁有成熟的應用,并被拓展以增強各類工作流程及任務,但在部分政府部門內,這些技術還完全屬于新鮮事物。

以美國勞工統計局(BLS)為例,該機構的主要職責在于執行職業傷害與疾病調查,以確保各類工作場所中常見的健康危害問題并協助制定指導性政策。為了完成這項任務,勞工局在全國各地的辦公室中設有數十名訓練有素的員工,專職通過工作場所內的調查數據對各類傷害及疾病進行分類。但是,這方面工作一直以手動方式執行,并導致各類標記、編碼錯誤乃至速度與成本瓶頸一直妨礙著整體流程的效率提升。

為了簡化整個流程,勞工局決定引入機器學習技術。約十年之前,勞工局經濟學家Alex Measure決定探索機器學習(ML)技術如何幫助該機構改進流程效率,他本人也與我們分享了將AI技術納入勞工局乃至整個聯邦政府當中可能出現的獨特挑戰、各機構在AI應用過程中面臨的數據難題、外加未來幾年內他最為期待的重要發現。

在本文中,我們將一同了解他對于將機器學習應用于政府業務場景,特別是文檔與人工流程中方面的寶貴見解。

問:勞工局在數據收集與處理方面面臨的特殊挑戰是什么?

Alex Measure: 勞工局需要面向眾多方向收集大量專題信息,具體涵蓋就業、人力成本、工作時間以及工作場所傷害風險等各個方面。在調查當中,各領域間唯一的共通點在于,調查結果往往以自然語言的形式存在。在信息收集過程中,無論是采取訪談、調查或者還是其他方式,收集到的大部分內容都是以語言形式傳達。為此,我們需要將語言轉換為統計數據,這就是我們常說的編碼過程。

在此過程中,我們需要分配標準化分類指標以指示值得關注的關鍵特征。例如,《職業傷害與疾病調查》每年收集數十萬份與工作相關的傷害與疾病調查資料。為了回答諸如“門衛人員在工作中最常見的傷害原因是什么?”這類問題,我們需要認真閱讀每一份描述,以編碼方式將對方的職業與造成傷害的因素關聯起來。接下來,我們匯總結果信息以回答實際問題。直到最近,整個流程仍然相當枯燥繁瑣,而且大部分工作需要以手動方式完成。

在職業傷害與疾病調查方面,我們每年大約需要25000個工作時。如果希望盡快完成任務,則意味著需要同時雇用更多人力、培訓更多新雇員,并保證他們能夠以統一的方式對內容做出解讀。這相當困難,實際上我們發現,即使是兩位同樣經驗豐富的專家,在編寫同一份傷害說明材料時也只有70%左右的幾率針對相同的素材給出完全相同的傷害編碼分類。這樣的挑戰不僅存在于勞工局之內,也廣泛存在于全球各類從事類似任務的組織當中。

問:那么勞工局是如何使用機器學習技術解決這些問題的?

Alex Measure: 七年之前,勞工局完成了《職業傷害與疾病調查》的全部編碼工作。過去一年中,我們使用有監督機器學習(特別是深度神經網絡)自動完成了超過85%的處理任務。隨后,勞工局開始逐步將這些技術用于處理其他相關任務,涵蓋從職業/生產分類,到醫療福利及工作要求的各個方面。

問:多年以來,勞工局對于AI技術的看法與應用方式經歷了哪些轉變?

Alex Measure: 我加入勞工局大概是12年前,那時候人們主要還是在用知識工程或者基于規則的方法進行素材編碼。其中的基本思路是,如果希望計算機執行某項操作,則需要明確告知它執行任務所需要的每條規則與信息。例如,如果要對職業進行分類,則可能需要創建一份清單,列出所有可能出現的職稱以及與職稱相對應的職業代碼。

這種方法在處理簡單及標準化任務時表現不錯,但遺憾的是,即使是在職位分類這種相當具體的應用領域當中,系統也幾乎無法直接處理人類語言。例如,在《職業傷害與疾病調查》中,我們發現每年收到的職位中約有2000種被系統直接對應為“管理員”。更糟糕的是,總會出現某些以往從未出現在數據中的新職位,而且部分職位與所在行業緊密相關,具體取決于特定企業的命名慣例或者行業中的傳統用語。結果就是,我們需要制定體量龐大且相當復雜的規則,而這一切最終也只能支持840多種職業分類。更要命的是,這套系統的構建與維護都極為困難。

有監督機器學習帶來了一種替代方案——相較于明確告知計算機其需要了解以及執行的任務內容,現在我們可以引導計算機通過數據進行學習,由其自主找到執行某些任務的最佳方法。只要大家擁有成規模的數據素材(多年以來,我們已經積累到可觀的數據資源),那么往往只需要很少的人工投入就能構建起一套效率極高的系統。在我們的案例中,勞工局在短短幾周之內就使用自由開源軟件構建起我們的第一套機器學習系統,并發現其性能遠遠超越我們以往長期使用的、基于規則的昂貴方案。更令人驚訝的是,其性能甚至比我們的編碼員還要高。

與傳統方案相比,機器學習方法也給自動化帶來了更多發展空間。如今,勞工局與全球各統計機構已經在類似的任務中迅速推廣此項技術。當然,機器學習在其他領域也擁有良好表現。我們正使用機器學習技術自動檢測數據錯誤,并自動匹配并標記數據集中的缺失記錄。這對我們可謂意義重大,能夠幫助勞工局通過更多不同來源收集到大量數據。

問:AI/ML技術的介入,給原本的編碼員們帶來了怎樣的影響?

Alex Measure: 在最初考慮引入自動化解決方案時,人們普遍感到擔心,不少員工抵制自動化并將其視為一種威脅。但實際情況并非如此,我認為這得益于我們采取的具體實施方式以及對整體狀況的綜合考量。首先,我們很早就做出決定,將自動化的重點放在提高數據質量方面。這非常重要,因為除了數據質量本身的意義之外,這也代表著一種非常新穎的處理方式,要求我們保證編碼流程的正確執行、并在出現問題時及時啟動預先制定的可靠備份計劃。我們的規劃基本如下:

第一,將計算機最擅長的工作交由自動化處理,將人類最擅長的工作留給雇員。

第二,逐步引入自動化機制,保證員工有時間適應工作量與工作方式的變化。

第三,由雇員負責監督自動分配的代碼,并在他們認為計算機存在錯誤時分配人員做出調整。

第四,將節約下的資源用于其他重要任務,例如數據收集與數據審查。

結果就是,在隨后的六年時間里,越來越多的常規編碼工作逐漸被速度更快、質量更好的數據審查與收集自動化方案所接管。這還帶來令人意外的結果,即我們對常規手動編碼的需求雖然大大減少,但模型無法處理的高難度情況仍然依賴于人類專家。因此,自動化程度越高,能夠處理的總數據量就越大,其中需要人為介入處理的數據同樣更多。結果就是,負責人為調整以及驗證機器學習系統是否正常運行的雇員反而有所增加。

問:您能否分享一些在勞工局的應用場景中,AI技術發現的有趣或者令人意外的洞見?

Alex Measure: 就個人來看,我認為這里有兩個令人印象深刻的驚喜。首先就是自由開源軟件的存在,居然讓機器學習系統的構建變得如此輕松,且實際表現遠優于我們以往使用的高成本、基于規則的方法。第二點在于,這類系統在編碼分配準確率方面比經過培訓的人類編碼員更高。這一切都是我們剛開始難以想象的,事實上整個勞工局都花了一段時間才適應如此出色的效果,而且其結果確實非常穩定。

平均來看,我們的機器學習系統自上線以來就一直在編碼準確率方面超越了人類雇員,而且二者的差距隨著大量數據的涌入以及隨之進行的后續訓練而越來越大,這也促使我們逐步轉向更強大的機器學習算法——例如深度神經網絡。

問:我們在數據使用方面面臨著哪些獨特挑戰?這些挑戰是否會成為政府機構在使用AI技術方面的障礙?

Alex Measure:最大的挑戰之一在于數據保密性。機器學習需要大量數據,政府機構則擁有著豐富的實用性數據,但卻不能任意公開加以使用——這無疑限制了各機構使用機器學習技術的具體途徑。例如,在我們第一次嘗試使用深度神經網絡時,我們無法直接使用云資源,因為現有政策對此明令禁止。這就構成了大問題,因為勞工局自身顯然沒有充足的硬件以訓練我們需要的各類神經網絡模型。最終,我們通過內部采購及安裝必要硬件解決了這個問題,但相當一部分其他機構恐怕難以跨過這道門檻。

另一大重要挑戰在于模型共享。當勞工局開發出能夠自動對職業或傷害進行標準化類別劃分的機器學習模型時,這一成果不僅能夠服務于勞工局自身,對于其他處理類似任務的聯邦機構也同樣意義深遠,甚至能夠給外部研究機構及研究人員帶來巨大幫助。由于我們掌握著大量相關數據,因此勞工局等政府機構在訓練這類模型方面擁有著特殊的優勢地位。但有研究表明,這類模型可能在無意之間透露出訓練過程中所使用的的數據信息,這就要求我們在模型共享方面小心再小心。近期其他研究表明某些技術有望緩解這些風險,勞工局已經開始進行探索,但這仍是一項極為艱難的挑戰。

問:從更廣泛的角度來看,聯邦政府中的哪些領域有望在AI技術的推動下實現顯著的效率提升?

Alex Measure: 我在政府機構工作的時間不短了,在我看來幾乎每個聯邦機構都有望利用有監督機器學習技術,實現相當一部分日常任務的自動化轉型。統計機構就是最典型的一例,他們的主要工作內容就是語言編碼與分類。目前,越來越多的統計機構已經在使用類似的技術自動檢測錯誤,并匹配來自不同數據集的記錄內容。

問:聯邦機構可以采取哪些措施以吸引那些具備技術創新能力的高水平勞動力?

Alex Measure: 我認為聯邦機構最好的人才吸引方法,就是強調使命感與榮譽感。聯邦機構關注的往往是那些最重要的任務,一旦成功將造福整個國家,這對于具有強烈公民意識的人才極具吸引力。畢竟有意義的項目可不是那么容易接觸到的。我還想強調的是,外部招聘并不是吸引熟練勞動力的唯一途徑。勞工局的不少編碼項目及后續機器學習嘗試依靠的并不是外部AI專家,而是經過培養、對于自動化技術抱有濃厚興趣的內部雇員。當然,在此期間Coursera等免費在線教育資源也發揮了重要作用。

勞工局之所以能夠走通這條道路,是因為員工已經在統計領域擁有豐富的經驗??梢钥隙ǖ氖?,成功的機器學習項目既需要強調技術的一面,也需要關注專業知識方面的積累。政府雇員對專業的認識已經非常深刻,互聯網上又有著大量能夠自由獲取的資源建立技術基礎,二者就這樣和諧統一了起來。

問:展望未來幾年,您最期待哪些AI技術成果?

Alex Measure: 我的工作主要依賴于有監督機器學習,但其中仍存在著一大局限。我們需要豐富的訓練數據才能獲得良好的性能,這里說的不是少量數據,而是體量龐大、遠超普通人學習所需的數據集合。在大多數情況下,我們需要為模型提供成百上千的訓練數據示例,才能讓其掌握一種相關概念。這是個巨大的障礙,因為大多數應用場景中并不能提供這么豐富的數據。

過去幾年當中,研究人員們已經在這方面取得了巨大的進展。這種進展主要來自兩個方面:

其一是遷移學習,即將一項任務中學習到的知識轉移到另一項任務上,有時候人們也將其稱為自我監督學習。這基本上就是將有監督學習技術應用于無明確標記的數據。最近,一種流行的自我監督語言任務開始被人們所重視,即首先收集大量文本、而后重復采樣其中的部分小規模子集、隱藏采樣中的某些單詞,訓練模型根據上下文預測缺失的片段。只要能夠正確完成這一操作,我們即可獲得一套對語言擁有深刻理解的模型,且不需要任何顯式標簽。接下來,我們就能通過遷移學習將該技術應用于指向不同語言處理任務的模型,例如預測傷害分類等。如果一切順利,那么其能夠顯著降低任務自動化所需要的訓練數據總量。這無疑為目前由于缺乏訓練數據而無法實現自動化的眾多應用場景,打開了通向機器學習的大門。

我們關注的另一個重要領域在于差異化隱私,其在AI內部與外部皆有應用。最新進展已經帶來一種全新機制,能夠在實現機器學習模型共享的同時,為基礎訓練數據提供嚴格的隱私保護。一領域的進展有望加快受信數據收集方之間的自動化成果流通(例如經過訓練的機器學習模型以及統計估計值),同時提升基礎數據的保密性水平。

 

官方微博/微信

每日頭條、業界資訊、熱點資訊、八卦爆料,全天跟蹤微博播報。各種爆料、內幕、花邊、資訊一網打盡。百萬互聯網粉絲互動參與,TechWeb官方微博期待您的關注。

↑掃描二維碼

想在手機上看科技資訊和科技八卦嗎?

想第一時間看獨家爆料和深度報道嗎?

請關注TechWeb官方微信公眾帳號:

1.用手機掃左側二維碼;

2.在添加朋友里,搜索關注TechWeb。

手機游戲更多

安微11选5开奖结果