表格是文檔中常見(jiàn)的對(duì)象。從學(xué)生經(jīng)常填寫(xiě)的報(bào)名表,到辦公場(chǎng)景中涉及的財(cái)務(wù)報(bào)表、票據(jù),表格識(shí)別的需求廣泛存在于個(gè)人生活、社會(huì)生產(chǎn)之中。尤其在進(jìn)入九月之后,隨著高校開(kāi)學(xué),企業(yè)開(kāi)始著手下一年度的發(fā)展規(guī)劃,表格處理的任務(wù)不斷加重。高精確度的表格識(shí)別技術(shù)能夠大幅節(jié)省文件處理時(shí)間,是合合信息智能文字識(shí)別技術(shù)中,圖像處理和復(fù)雜場(chǎng)景文字識(shí)別技術(shù)的重要應(yīng)用。
用深度學(xué)習(xí)技術(shù)解決表格識(shí)別難點(diǎn) 表格識(shí)別主要包括表格檢測(cè)和表格結(jié)構(gòu)識(shí)別兩大任務(wù)。表格檢測(cè)主要檢測(cè)表格主體,即從圖片中確認(rèn)表格區(qū)域;表格結(jié)構(gòu)識(shí)別是對(duì)表格區(qū)域進(jìn)行分析,提取表格中的數(shù)據(jù)與結(jié)構(gòu)信息,得到表格的行列邏輯結(jié)構(gòu)。
兩大任務(wù)均具有相當(dāng)?shù)膹?fù)雜性。首先,表格類(lèi)別多樣,根據(jù)有無(wú)邊框可以分為有線(xiàn)表、少線(xiàn)表、無(wú)線(xiàn)表等。從有線(xiàn)表、少線(xiàn)表到無(wú)線(xiàn)表,表格識(shí)別難度逐漸增加。同時(shí),表格文件中常見(jiàn)的背景填充、單元格行列合并等情況,會(huì)進(jìn)一步增加表格識(shí)別難度。其他外部因素,如圖片傾斜褶皺、背景干擾等問(wèn)題,都會(huì)對(duì)表格識(shí)別帶來(lái)挑戰(zhàn)。
合合信息通用智能文字識(shí)別引擎對(duì)合并單元格表格進(jìn)行識(shí)別
近年來(lái)人工智能技術(shù)飛速發(fā)展,計(jì)算機(jī)視覺(jué)(CV)、自然語(yǔ)言處理(NLP)和圖神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方法被廣泛引入表格識(shí)別任務(wù)中,例如語(yǔ)義分割、目標(biāo)檢測(cè)、序列預(yù)測(cè)等。在16年領(lǐng)域深耕中,合合信息智能文字識(shí)別技術(shù)覆蓋了圖片、PDF格式文檔中多種類(lèi)的表格識(shí)別需求,包括有線(xiàn)表,三線(xiàn)表,無(wú)線(xiàn)表等,并且支持合并單元格、多表格并存等復(fù)雜情況的識(shí)別。
基于分治思想,合合信息引入深度學(xué)習(xí)技術(shù),將表格識(shí)別分為有線(xiàn)表識(shí)別和無(wú)線(xiàn)表識(shí)別兩種方案。有線(xiàn)表識(shí)別中,合合信息利用語(yǔ)義分割、角點(diǎn)回歸等技術(shù)方案還原有線(xiàn)表,在財(cái)報(bào)相關(guān)表格識(shí)別測(cè)試中,有線(xiàn)表識(shí)別單元格結(jié)構(gòu)準(zhǔn)確率高于98%。
無(wú)線(xiàn)表識(shí)別是表格識(shí)別中的難點(diǎn),教科書(shū)上的部分統(tǒng)計(jì)表、藥品配方表,都存在框線(xiàn)不完整甚至無(wú)框線(xiàn)的情況。無(wú)線(xiàn)表缺少表格線(xiàn),直接套用有線(xiàn)表識(shí)別方案無(wú)法得到理想的表格結(jié)構(gòu)。合合信息無(wú)線(xiàn)表識(shí)別采用序列模型、規(guī)則匹配等方案,通過(guò)自研模型直接預(yù)測(cè)表格的邏輯結(jié)構(gòu),再得到表格的物理結(jié)構(gòu),在保證表格區(qū)域內(nèi)容的完整性的同時(shí),檢測(cè)準(zhǔn)確率較傳統(tǒng)方法顯著提升。
合合信息通用智能文字識(shí)別引擎對(duì)無(wú)線(xiàn)表格進(jìn)行識(shí)別
智能文字識(shí)別助力文件處理效率指數(shù)級(jí)提升 現(xiàn)階段,合合信息智能文字識(shí)別技術(shù)中的表格識(shí)別技術(shù)已被應(yīng)用于以“掃描全能王”為代表的C端APP中,通過(guò)“文件轉(zhuǎn)換excel”功能服務(wù)于大眾生活和辦公需求。生活中,用戶(hù)可以使用掃描全能王隨手拍下手邊的清單、個(gè)人合同、說(shuō)明書(shū)等,APP將提煉其中的表格內(nèi)容,起到備忘作用;辦公場(chǎng)景下,使用者可掃描、拍攝工作文件,提取圖片、PDF中的文字內(nèi)容,并將其轉(zhuǎn)化為可編輯文檔,便于二次編輯和分享。近半年來(lái),“文件轉(zhuǎn)換excel”相關(guān)功能累計(jì)被調(diào)用百萬(wàn)次。
B端領(lǐng)域中,作為合合信息智能文字識(shí)別引擎中的重要模塊,表格識(shí)別技術(shù)已落地在保險(xiǎn)、銀行、證券等行業(yè)中,應(yīng)用于合同、銀行流水、物流單據(jù)識(shí)別等多個(gè)場(chǎng)景。以財(cái)務(wù)場(chǎng)景為例,合合信息表格識(shí)別技術(shù)被應(yīng)用于企業(yè)發(fā)票與訂單的數(shù)字全流程管理中,曾助力全球知名汽車(chē)零配件供應(yīng)商偉巴斯特實(shí)現(xiàn)票據(jù)智能掃描、識(shí)別、驗(yàn)真、合規(guī)自動(dòng)檢查、發(fā)票與訂單數(shù)據(jù)匹配、數(shù)字化數(shù)據(jù)、影像留存等全流程財(cái)稅管理,作業(yè)效率提升500%~1000%。
據(jù)悉,合合信息曾在2019年國(guó)際文檔分析識(shí)別大會(huì)(ICDAR)中獲得表格識(shí)別競(jìng)賽的冠軍。公司智能文字識(shí)別相關(guān)技術(shù)還在國(guó)際頂會(huì)ICPR、ICFHR 等競(jìng)賽中獲得十余項(xiàng)冠軍,并于CVPR、AAAI、ACL、ACM MM等國(guó)際頂會(huì)上發(fā)表。