人工智能中RPA、NLP、OCR介紹
1、NLP
自然語言處理( Natural Language Processing, NLP)是計算機科學領域與人工智能領域中的一個重要方向。主要研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機、于一體的。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯系,但又有重要的區(qū)別。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實現自然語言通信的計算機系統(tǒng),特別是其中的軟件系統(tǒng)。因而它是計算機科學的一部分。主要是在文本數據基礎之上做各種應用,比如文本挖掘、搜索推薦等,主要產品是文本智能化處理軟件系統(tǒng),能夠幫助客戶完成文檔智能審閱、推薦、搜索、客戶意見洞察等工作。
2、RPA
RPA(機器人流程自動化)是近兩年較為火熱的話題,它通過模仿最終用戶在電腦的手動操作方式,提供了另一種方式來使最終用戶手動操作流程自動化。簡單來說,這是一項橫向的、貼近業(yè)務流的技術,用于自動化處理重復、規(guī)則明確、并且需要人類切換不同系統(tǒng)來完成的工作。具體到產品形態(tài),則是自動化軟件,模擬人類的交互完成重復性事務。
舉個例子,如果一個分析師每天需要關注一家上市公司的數據,每天要在同一個網站扒數據,并填到表內,那么 RPA 機器人就可以自動完成獲取數據、填表、導出等工作。
傳統(tǒng) RPA 產品由開發(fā)平臺、控制中心、終端機器人組成。RPA 已推出銀行、財稅、政務、保險、證券基金等數十種不同崗位的機器人員工。在售后工單處理、商業(yè)案例報告生成、供應商準入核實、智慧政務行政審批、金融文檔的抽取驗查和填寫等場景中已開展工作。
3、OCR
OCR (Optical Character Recognition,光學字符識別)是指電子設備(例如掃描儀或數碼相機)檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計算機數據的過程。
針對印刷體字符,采用光學的方式將紙質文檔中的文字轉換成為黑白點陣的圖像文件,并通過識別軟件將圖像中的文字轉換成文本格式,供文字處理軟件進一步編輯加工的技術。衡量一個OCR系統(tǒng)性能好壞的主要指標有:拒識率、誤識率、識別速度、產品的穩(wěn)定性、易用性等。在多數組織的智能自動化流程業(yè)務中,OCR是應用最多的人工智能技術之一。OCR與RPA的結合可以將組織中超過70%的無紙化業(yè)務實現自動化,其效率將是人工的5倍以上。
4、RPA、NLP、OCR應用情況:
RPA目前被企業(yè)應用最多的還是實現業(yè)務流程自動化,在降低風險方面RPA同樣發(fā)揮了重要作用。許多世界頂級銀行已把RPA部署在運營部門,以幫助他們打擊那些涉及欺詐、洗錢等行為的用戶。金融機構利用RPA幫助識別這些進行非法活動的客戶,很好的為企業(yè)避免了重大損失。
RPA平臺通過收集并定期分析客戶數據,包括:媒體新聞、搜索引擎、征信系統(tǒng)等執(zhí)行定期數據調查,以查出該用戶是否有觸犯法規(guī)的行為。例如在一家加拿大銀行的案例中,該公司在部署RPA后的六個月內不僅節(jié)省了750,000美元的成本,還查處了120個非法客戶成功避免了那些潛在的危險行為。
NLP主要幫助企業(yè)分析客戶需求,研究表明,大多數致電企業(yè)售前客服咨詢業(yè)務時,都無法及時獲得所需要的幫助。當這種情況發(fā)生較多時,很多人都會產生厭倦感。NLP技術通過檢測語音通話,可以實時測量客戶的語調以及他們在對話中使用的單詞頻率等,有效的防止人們挫敗感的產生。一些呼叫中心使用NLP來提供實時的反饋信息。例如:如果一個人打電話給旅游公司并多次提到“度假”,那么NLP就會識別這一詞匯進行統(tǒng)計。當會話結束后,NLP會把會話中出現頻率最多的幾個詞統(tǒng)計出來,方便客服人員進行服務分析。
相對于NLP和RPA來說,目前OCR應該是應用層面最廣的技術。在具體的落地應用層面,目前卡證識別、票據識別等標準場景文字識別已經相對成熟,手寫文字識別在教育、物流等行業(yè)的應用也在不斷擴大。復雜動態(tài)場景下的OCR技術和應用成為近兩年的熱門研究方向,比如在無人駕駛、機器人等場景利用OCR對視場中出現的文字進行識別等。目前OCR識別技術,主要劃分為8項:
1)證件識別:主要識別證件信息,用于金融、銀行、保險、汽車等領域(互聯網),支持大陸二代身份證、臺灣身份證、香港身份證、澳門身份證、護照、行駛證、駕駛證、港澳臺通行證等20余種證件識別,支持Android/iOS、Windows/Linux 32/64位主流操作系統(tǒng),目前有證件采集儀、護照閱讀器、門禁考勤機、人行通道閘機、人證一體掃描儀、移動端證件識別SDK等產品中應用該項技術;
2)銀行卡識別:主要識別銀行卡卡號,用于移動支付綁卡,提升APP用戶體驗(互聯網)。支持國內各個銀行的信用卡、儲蓄卡,包括平面字體和凹凸字體銀行卡、橫版和豎版銀行卡、標準和異形銀行卡等識別,支持Android/iOS、Windows/Linux 32/64位主流操作系統(tǒng),目前有移動端銀行卡識別SDK、云端銀行卡識別API;
3)車牌識別:主要識別車牌號碼、車牌顏色、車牌類型、車標、車身顏色等車輛特征信息,用于移動警務,占道停車,停車場管理,車險等領域(互聯網)中,支持識別普通藍牌、黃牌(雙層)、軍牌(雙)、武警牌(雙)、警牌、農用車牌、大使館車牌等各種常見規(guī)格的汽車號牌,支持Android/iOS、Windows/Linux 32/64位主流操作系統(tǒng),目前有PC端車牌識別SDK、移動端車牌識別SDK、車牌識別抓拍相機、DSP嵌入式車牌識別、車型識別、車位檢測等產品應用了該項技術;
4)名片識別:主要識別名片內容,用于移動展業(yè)、CRM客戶管理系統(tǒng)等領域(互聯網),支持橫版、豎版名片識別,及其他板式的各種名片,還支持多語種名片識別,支持Android/iOS、Windows/Linux 32/64位主流操作系統(tǒng),目前有移動端名片識別、云端名片識別API;
5)營業(yè)執(zhí)照識別:主要識別營業(yè)執(zhí)照信息(統(tǒng)一社會信用代碼、公司名稱、二維碼等),用于需要代替人工提取營業(yè)執(zhí)照信息的領域(互聯網),支持Android/iOS、Windows/Linux 32/64位主流操作系統(tǒng),目前有移動端營業(yè)執(zhí)照識別SDK、文字識別SDK、掃描識別硬;
6)汽車VIN碼識別:主要識別車架號(汽車VIN碼),用于汽車管理、汽車服務、二手車交易、租車等領域(互聯網),支持Android/iOS、Windows/Linux 32/64位主流操作系統(tǒng),目前有移動端汽車VIN碼識別SDK;
7)票據類OCR識別:主要識別增值稅發(fā)票等不同格式的票據內容,用于財務管理、汽車、銀行、金融等領域(互聯網),基于模板機制,針對不同的票據,定制不同的識別要素,支持Android/iOS、Windows/Linux 32/64位主流操作系統(tǒng),目前有表票識別掃描儀、表票識別SDK;
8)文檔文字OCR識別:主要識別文檔文字,用于圖書館,報社等針對圖書、報紙、雜志等文本類,需要把這些紙質文檔進行電子化的領域(互聯網),需借助在掃描儀,目前有移動端的文檔OCR識別、文檔識別掃描儀,隨著掃描儀分辨率的提升,OCR軟件也在不斷升級,掃描儀廠商現在已經把專業(yè)的OCR軟件搭配自己生產的掃描儀出售。
5、RPA、NLP、OCR三者關系
目前,大部分的RPA工具都是基于微軟.NET Framework的WorkflowFoundation開發(fā),整合OCR、NLP等AI技術,能夠以弱耦合,即不改變現有軟件系統(tǒng)部署的形式跨系統(tǒng)執(zhí)行,且實現零出錯率。在技術上,RPA早已不是單個企業(yè)的定制化功能,事實上已經生長成融合AI技術、系統(tǒng)級的跨軟硬件、多賬戶的服務。
在NLP的產品體系中,OCR是關于文檔、文件處理的基礎步驟,是無法回避和繞開的。
對任何一個業(yè)務流程自動化而言,都需要串接許多技術模塊。RPA+OCR+NLP的融合,減少了業(yè)務流程中人機交互、人工復核的環(huán)節(jié),可以更全面的滿足企業(yè)自動化的需求。
下面這個實例主要幫助大家更好的理解RPA與OCR的工作原理:
1、用戶收到一封帶有圖片的電子郵件。
2、RPA自動閱讀電子郵件。
3、對圖片進行分類并選擇模板。
4、通過OCR對分類的圖片進行數據識別和提取。
5、RPA接收OCR轉化后的結構化數據。
6、進行數據校審確認。
7、自動將結構化數據放置或錄入到指定位置。
8、存儲所有結構化數據,并向用戶發(fā)送一封通知郵件,確認所有工作完畢。
目前全球的RPA廠商正在通過與不同的人工智能技術相結合,來提升競爭力贏得市場。而OCR在頻率、業(yè)務范圍、以及對業(yè)務影響上都領先于其他技術。通過OCR來處理那些非結構化業(yè)務,也使得RPA的自動化范圍可以擴展到更多的領域中。