• <nav id="wygwo"></nav>
  • 智能文檔處理技術揭秘:如何低成本實現高準確率的文檔信息抽???

    時間:2021-12-18瀏覽次數:380

    導讀  


    智能文檔處理(Intelligent Document Processing ,簡稱 IDP )是來也科技智能自動化平臺的核心能力之一。IDP 基于光學字符識別(OCR)、計算機視覺(CV)、自然語言處理(NLP)、知識圖譜(KG)等前沿技術,對各類文檔進行識別、分類、抽取、校驗等處理,幫助企業實現文檔處理工作的智能化和自動化。


    IDP 最常見的應用場景之一是從各種類型的文檔中抽取關鍵信息,本文介紹機器學習在文檔信息抽取中的應用。

    背/景


    企業中存在大量需要從文檔中抽取信息并進行處理的業務場景,例如從發票、報銷單、發貨單等不同類型的文檔中抽取所需字段,進行錄入、校驗、比對等操作。因此,文檔信息抽取是智能文檔處理平臺的核心能力之一。通常情況下,文檔信息抽取需要用到機器學習技術。我們知道,訓練一個機器學習模型需要一定規模的標注數據,在文檔信息抽取任務下訓練機器學習模型面臨兩個挑戰。


    第一,文檔的類型繁多,即便是同一個類型的文檔,其版式也可能存在多種。下面是幾個中文完稅證明的例子,我們可以發現,它們雖然都是完稅證明,但版式差別很大,尤其體現在明細表格部分,表格的字段數量、字段順序都不太一樣。這意味著,如果使用傳統的方法,需要訓練多個機器學習模型才能滿足不同版式信息抽取的需求。

    圖片
    圖片

    *完稅證明示例(圖片來源于網絡)


    第二,很多文檔類型是企業特有的,也就是說我們很難提前收集到數據并訓練好模型,而是需要基于企業特有的文檔數據,在小樣本下訓練出可用的模型,否則模型的訓練成本太高。下面是幾個英文發票(Invoice)的例子,我們可以發現它們不僅版式不同,而且每一類的數量都不多。

    圖片
    圖片

    *英文發票示例(圖片來源于網絡)


    本文中,我們介紹來也科技 IDP 平臺中用到的文檔信息抽取方法,該方法充分利用文檔的視覺特征和語義特征,能夠在較少樣本的情況下訓練出效果很好的模型,且具備較強的泛化能力,從而快速滿足企業中多種文檔信息抽取的需求。


    技/術/方/案


    我們的技術方案以 OCR 識別的結果作為輸入,充分利用視覺和語義信息建模,在低成本(標注數據少、資源占用少)的情況下完成文檔信息抽取任務。該方案將 OCR 和信息抽取完全解耦合,這樣設計有兩個優點:

    OCR 和信息抽取相互不受影響,可以分別進行優化。

    同一個 OCR 引擎可以對接不同的信息抽取模型;同理,同一個信息抽取模型也可以對接不同的 OCR 引擎,以滿足不同場景下的需求。

    OCR 引擎完成識別和預處理后,由三個子任務構成完整的 pipeline ,如下圖所示。下面我們分別介紹。

    圖片

    文本塊序列化

    這個任務的目的是將 OCR 識別到的文本塊,按正常的閱讀順序重新進行排列,解決內容折行、數據分組的問題。


    如在下面的完稅證明示例中,稅收詳情中存在較多的內容折行, OCR 識別引擎通常會按從左到右、從上到下的順序返回。如圖中所示,OCR輸出的文本塊的順序為圖上標識的數字(1、2、3……11),顯然這個順序既不符合閱讀順序,也會打亂語義和排版信息。如果不進行調整,會導致模型無法準確的得到正確的語義信息和結構信息。

    圖片

    通過上述的例子可以發現,文本序列化任務和具體文檔類型基本無關,因此我們可以通過大量標注數據訓練一個通用的文本塊序列化模型,在其他項目中直接使用,降低項目啟動的代價。以下是經過文本塊序列化模型重排序后的順序,在這個排序基礎上進行一定的后處理,我們就可以還原出文檔中的字段。

    圖片


    文本塊分類

    對文本塊進行序列化之后,我們的下一個任務是利用文本分類的方法獲得每個文本塊對應的標簽,即每個文本塊屬于哪個待抽取的字段。在這個任務中,我們將每個 OCR 輸出的文本塊作為獨立的分類目標,利用多分類的方法獲得每個文本塊對應的信息標簽。通過文本塊的文本語義、空間位置、上下文關系、排版格式等視覺特征,使用統計模型進行建模并訓練文本塊分類模型。以下是文本塊分類模型用到的主要特征:


    語義特征:利用文本塊包含的文本信息生成的特征;

    空間位置:利用文本塊在文檔上的位置,以及和其他文本塊的相對位置關系;

    排版格式:利用文檔的各種排版信息,如表格、列表等。 


    抽取結果組裝

    通過使用以上兩個子任務的輸出結果,我們就可以進行最終的抽取結果組裝。以下面這個數據為例,抽取結果組裝主要解決兩類問題:

    圖片

    文本換行  

    如在上述完稅證明示例中,稅款所屬稅務機構這列內容中“國家稅務總局”和“xx市稅務局”因為換行的原因被切分為了兩個文本塊,我們可以依據他們有相同的分類標簽(文本塊分類結果)、緊鄰的順序(文本塊序列化結果)、上下的位置關系,將其判定為同一個字段進行合并,得到最終的信息抽取結果:


    field:稅款所屬稅務機構;

    value:國家稅務總局xx市稅務局。


    數據關聯

    在完稅證明的示例中,稅務具體信息的多個字段是存在關聯關系的,如果直接將這些字段的識別結果進行輸出,會丟失其中的關系,難以在下游任務中使用。通過文本塊序列化的輸出結合位置信息,自動將有關聯關系的字段進行組裝,為下游任務提供字段之間的關系信息。上述例子經過數據關聯后的最終輸出為(JSON格式):

    圖片


    效/果/評/估


    為了驗證上述文檔信息抽取方案的效果,我們選擇了“中文完稅證明”和“英文發票”兩個數據集進行測試。


    數據集介紹

    中文完稅證明  

    如第一節中樣本所示,全國各個省市的完稅證明版式存在較大差異,但待抽取的字段基本相同。我們從中文完稅證明中抽取 15 個字段:發票號碼、填發日期、稅務機關、納稅人識別號、納稅人名稱、稅款所屬時期、原憑證號、稅種、品目名稱、實繳(退)金額、大寫金額、總金額、填票人、備注信息、入(退)庫日期。我們共使用 12 個版式共 98 張完稅證明進行模型訓練,在 33 張樣本上進行評測。


    *以下為完稅證明信息抽取輸出的示例:

    圖片

    英文發票   

    如第一節中樣本所示,我們從英文發票中抽取 15 個字段:發票號碼、發行日期、買家姓名、買家地址、產品項目No.、產品明細、數量明細、產品單價、總額明細、稅額合計、含稅總額、付款方式、采購訂單號、到期日、折扣合計。共使用 34 個版式共 294 張進行模型訓練,在 90 張樣本上進行評測。


    *以下為英文發票信息抽取輸出的示例

    圖片


    模型整體效果

    首先,我們針對上述兩個數據集,分別測試模型的整體效果,即模型抽取的準確率、召回率和 F1 值??梢钥吹轿覀兊姆椒?span style="box-sizing: border-box; -webkit-tap-highlight-color: rgba(0, 0, 0, 0); color: rgb(0, 78, 162); margin: 0px; padding: 0px; outline: 0px; max-width: 100%; overflow-wrap: break-word !important;">在兩個數據集上都能取得約 0.95 的 F1 值。

    圖片

    *F1 值:準確率及召回率的綜合評價指標,越趨近于 1 則表明算法或模型越佳


    模型在小樣本下的效果

    最后,我們用模型從未見過的文檔來測試模型的泛化能力,并用極少量的該類文檔重新訓練模型,對比原模型和新模型的效果。我們在中文完稅證明模型上進行上述實驗,結果如下:

    圖片

    可以發現,在遇到全新版式的數據時,原模型的效果并不理想, F1 值在 0.5 以下。此時,我們只需要補充 5 張數據重新訓練模型,就可以迅速改善模型在新版式上的效果,將 F1 值提升到 0.93 以上。這充分說明,模型有一定的泛化能力,只需原模型的基礎上用極少量樣本即可適應新的版式。



    來也科技 IDP 平臺提供強大的文檔信息抽取能力,它通過使用視覺和語義信息進行建模,在處理類似發票、證件、發貨單、完稅證明等文檔信息抽取任務時,只需極低的標注成本,就能達到非常好的效果。在遇到新數據格式帶來的 badcase 時,通過少量的標注干預,即可有效的提升效果,讓文檔處理的自動化變得更加容易。



    來源:來也科技

    來源鏈接:智能文檔處理技術揭秘:如何低成本實現高準確率的文檔信息抽???-來也科技 (laiye.com)


    CopyRight ? 2020 福建中湃科技有限公司 All Right Reserved. | 閩ICP備2020019567號 | 技術支持: 會心科技
    精人妻无码一区二区三区_小寡妇一夜要了六次_区产品乱码芒果精品p站_女自慰喷水免费观看www久久
  • <nav id="wygwo"></nav>
  • | 女同| 澳门今期正版四不像图片| 日语三级| 婚前试爱| 白丝无内液液酱夹腿自慰| 日本无码人妻一区二区免费av| yy111111少妇影院理论片公交车| 日韩国产成人无码av毛片|