表格、表單、名片數據采集
時間:2009-8-11 16:27:13 人氣指數: 【 大 中 小 】
北京天潤智力采用先進的數據處理技術,對各類調查問卷、表格數據進行數字化處理,尤其擅長處理以下類型的調查數據:
·固定表格:稅務報表、保險單、調查問卷、試卷等。 ·半結構化文檔:發票、訂購單、支付票據、裝箱單、名片等。 ·非結構化文檔:合同、條款、信函、租借協議和其它純文本文檔等。根據客戶數據的具體格式和需求,對表格數據進行初步整理,設置好數據庫字段,并搭建數據采集局域網,實現網絡化數據采集。
(1)管理員端:用來控制整體表格處理過程, 通過文件模板編輯準備表格模板,并且對預期結果進行測試,統一表格模式。
(2)操作員端:錄入/掃描表格,文字識別,對識別結果進行檢驗和存儲。
1、對于手寫文字、非結構化表格,采用雙錄軟件進行兩遍錄入,人工核對數據;
2、對于結構化表格,采用“批量掃描 + OCR識別 + 文字校對”的模式進行處理。
技術人員采用OCR功能模塊成功的識別技術基礎上提供當前最高的精確度和穩定性。
·圖象增強處理,提高識別效果,如糾偏、去噪。 ·數據文字提取,借助OCR識別技術精確提取相應的數據和文字信息。 ·自動數據校驗,內置檢驗準則,在自動識別期間用來增加識別精確度。軟件提供校對界面,將識別結果和原始圖像進行對照,人工校對和錄入,包括縱向校對和橫向校對兩個模式。
圖像文件直接存放到對應目錄下,便于客戶存放;數據文件存放到Excel表格或Access數據庫中,可以進行查詢、統計等操作