Merge branch 'fix/report_ca' into feature/uat-tmp

周伟奇
Showing 14 changed files with 251 additions and 26 deletions
src/apps/doc/consts.py
src/apps/doc/management/commands/ocr_process.py
src/apps/doc/named_enum.py
src/apps/doc/ocr/wb.py
src/apps/doc/views.py
src/common/electronic_afc_contract/afc_contract_ocr.py
src/common/electronic_afc_contract/get_char_fsm.py
src/common/electronic_hil_contract/get_char_fsm.py
src/common/electronic_hil_contract/hil_contract_ocr.py
src/common/fsm_econtract/const.py
src/common/fsm_econtract/fsm_contract_ocr.py
src/common/fsm_econtract/hmh_ocr.py
src/common/fsm_econtract/retriever.py
src/common/fsm_econtract/tools.py
--- a/src/apps/doc/consts.py
View file @e0d31a2
+++ b/src/apps/doc/consts.py
View file @e0d31a2
@@ -11,7 +11,7 @@ PAGE_SIZE_DEFAULT = 10
 FIXED_APPLICATION_ID_PREFIX = 'CH-S'

 DOC_SCHEME_LIST = ['ACCEPTANCE', 'SETTLEMENT', 'CONTRACTMANAGEMENT']
-DATA_SOURCE_LIST = ['POS', 'EAPP', 'ECONTRACT']
+DATA_SOURCE_LIST = ['POS', 'EAPP', 'ECONTRACT', 'OVP']
 COMPARE_DOC_SCHEME_LIST = ['CA', 'SE']

 HIL_PREFIX = 'HIL'
@@ -1057,7 +1057,25 @@ HIL_CONTRACT_2_CLASSIFY = 44
 HIL_CONTRACT_3_CN_NAME = '车辆处置协议'
 HIL_CONTRACT_3_CLASSIFY = 45

-CONTRACT_SET = {CONTRACT_QRS_CLASSIFY, CONTRACT_CLASSIFY, HIL_CONTRACT_1_CLASSIFY, HIL_CONTRACT_2_CLASSIFY, HIL_CONTRACT_3_CLASSIFY}
+FSM_CONTRACT_WEP_CN_NAME = '延长保修合同'
+FSM_CONTRACT_WEP_CLASSIFY = 51
+
+FSM_CONTRACT_MSI_CN_NAME = '长悦保养合同'
+FSM_CONTRACT_MSI_CLASSIFY = 52
+
+FSM_CONTRACT_SC_CN_NAME = '汽车销售合同'
+FSM_CONTRACT_SC_CLASSIFY = 53
+
+CONTRACT_SET = {
+    CONTRACT_QRS_CLASSIFY, 
+    CONTRACT_CLASSIFY, 
+    HIL_CONTRACT_1_CLASSIFY, 
+    HIL_CONTRACT_2_CLASSIFY, 
+    HIL_CONTRACT_3_CLASSIFY,
+    FSM_CONTRACT_WEP_CLASSIFY,
+    FSM_CONTRACT_MSI_CLASSIFY,
+    FSM_CONTRACT_SC_CLASSIFY, 
+}

 CONTRACT_MAP = {
    HIL_CONTRACT_1_CLASSIFY: HIL_CONTRACT_1_CN_NAME,
@@ -1065,8 +1083,13 @@ CONTRACT_MAP = {
    HIL_CONTRACT_3_CLASSIFY: HIL_CONTRACT_3_CN_NAME,
    CONTRACT_CLASSIFY: CONTRACT_CN_NAME,
    CONTRACT_QRS_CLASSIFY: CONTRACT_QRS_CN_NAME,
+    FSM_CONTRACT_WEP_CLASSIFY: FSM_CONTRACT_WEP_CN_NAME,
+    FSM_CONTRACT_MSI_CLASSIFY: FSM_CONTRACT_MSI_CN_NAME,
+    FSM_CONTRACT_SC_CLASSIFY: FSM_CONTRACT_SC_CN_NAME, 
 }

+FSM_CONTRACT_CLASSIFY_SET = {FSM_CONTRACT_WEP_CLASSIFY, FSM_CONTRACT_MSI_CLASSIFY, FSM_CONTRACT_SC_CLASSIFY}
+
 # 保单
 INSURANCE_CN_NAME = '保单'
 INSURANCE_CLASSIFY = 42
@@ -1214,6 +1237,11 @@ BS_FIELD = 'bss_ocr'
 HIL_CONTRACT_1_FIELD = 'hil_contract_1_ocr'
 HIL_CONTRACT_2_FIELD = 'hil_contract_2_ocr'
 HIL_CONTRACT_3_FIELD = 'hil_contract_3_ocr'
+FSM_CONTRACT_WEP_FIELD = 'fsm_wep_ocr'
+FSM_CONTRACT_MSI_FIELD = 'fsm_msi_ocr'
+FSM_CONTRACT_SC_FIELD = 'fsm_sc_ocr' 
+
+
 BS_CLASSIFY = 10089

 RESULT_MAPPING = {
@@ -1238,6 +1266,9 @@ RESULT_MAPPING = {
    HIL_CONTRACT_1_CLASSIFY: HIL_CONTRACT_1_FIELD,
    HIL_CONTRACT_2_CLASSIFY: HIL_CONTRACT_2_FIELD,
    HIL_CONTRACT_3_CLASSIFY: HIL_CONTRACT_3_FIELD,
+    FSM_CONTRACT_WEP_CLASSIFY: FSM_CONTRACT_WEP_FIELD,
+    FSM_CONTRACT_MSI_CLASSIFY: FSM_CONTRACT_MSI_FIELD,
+    FSM_CONTRACT_SC_CLASSIFY: FSM_CONTRACT_SC_FIELD, 
 }

 CA_ADD_COMPARE_FIELDS = (IC_OCR_FIELD, BL_OCR_FIELD, BS_FIELD)
@@ -2313,29 +2344,42 @@ APPLICANT_TYPE_MAP = {

 APPLICANT_TYPE_ORDER = ['Borrower', 'Co-Borrower', 'Guarantor', 'Mortgager']

-FILE_NAME_PREFIX_MAP = {
-    AFC_PREFIX: [
-        ((CONTRACT_CLASSIFY, 0), '{0}_电子签署-汽车抵押贷款合同'),
-        ((HMH_CLASSIFY, 0), '{0}_电子签署-抵押登记豁免函'),
-    ],
-    HIL_PREFIX: [
-        ((HIL_CONTRACT_1_CLASSIFY, HIL_CONTRACT_3_CLASSIFY), '{0}_电子签署-售后回租合同'),
-        ((HIL_CONTRACT_2_CLASSIFY, 0), '{0}_电子签署-汽车租赁抵押合同'),
-        ((HMH_CLASSIFY, 0), '{0}_电子签署-抵押登记豁免函'),
-    ]
-}
+# FILE_NAME_PREFIX_MAP = {
+#     AFC_PREFIX: [
+#         ((CONTRACT_CLASSIFY, 0), '{0}_电子签署-汽车抵押贷款合同'),
+#         ((HMH_CLASSIFY, 0), '{0}_电子签署-抵押登记豁免函'),
+#     ],
+#     HIL_PREFIX: [
+#         ((HIL_CONTRACT_1_CLASSIFY, HIL_CONTRACT_3_CLASSIFY), '{0}_电子签署-售后回租合同'),
+#         ((HIL_CONTRACT_2_CLASSIFY, 0), '{0}_电子签署-汽车租赁抵押合同'),
+#         ((HMH_CLASSIFY, 0), '{0}_电子签署-抵押登记豁免函'),
+#     ]
+# }

 ECONTRACT_KEYWORDS_MAP = {
    AFC_PREFIX: [
        ('抵押贷款合同', CONTRACT_CLASSIFY),
        ('送达地址确认书', CONTRACT_QRS_CLASSIFY),
-        # ('电子签署-抵押登记豁免函', HMH_CLASSIFY, 0),
+        ('抵押登记豁免函', HMH_CLASSIFY),
    ],
    HIL_PREFIX: [
        ('售后回租合同', HIL_CONTRACT_1_CLASSIFY),
        ('租赁抵押合同', HIL_CONTRACT_2_CLASSIFY),
        ('车辆处置协议', HIL_CONTRACT_3_CLASSIFY),
-        # ('电子签署-抵押登记豁免函', HMH_CLASSIFY, 0),
+        ('抵押登记豁免函', HMH_CLASSIFY),
+    ]
+}
+
+FSM_ECONTRACT_KEYWORDS_MAP = {
+    AFC_PREFIX: [
+        ('延长保修条款与条件', FSM_CONTRACT_WEP_CLASSIFY),
+        ('长悦保养套餐服务合约', FSM_CONTRACT_MSI_CLASSIFY),
+        ('汽车销售合同', FSM_CONTRACT_SC_CLASSIFY),
+    ],
+    HIL_PREFIX: [
+        ('延长保修条款与条件', FSM_CONTRACT_WEP_CLASSIFY),
+        ('长悦保养套餐服务合同', FSM_CONTRACT_MSI_CLASSIFY),
+        ('汽车销售合同', FSM_CONTRACT_SC_CLASSIFY),
    ]
 }

@@ -2345,6 +2389,12 @@ HIL_CONTRACT_TYPE_MAP = {
    str(HIL_CONTRACT_3_CLASSIFY): 1,
 }

+FSM_CONTRACT_TYPE_MAP = {
+    str(FSM_CONTRACT_WEP_CLASSIFY): 0,
+    str(FSM_CONTRACT_MSI_CLASSIFY): 1,
+    str(FSM_CONTRACT_SC_CLASSIFY): 2,
+}
+
 RESULT_MAP = {
    0: None,
    1: True,
--- a/src/apps/doc/management/commands/ocr_process.py
View file @e0d31a2
+++ b/src/apps/doc/management/commands/ocr_process.py
View file @e0d31a2
@@ -20,6 +20,8 @@ from common.tools.file_tools import get_pwd_list_from_str, extract_zip_or_rar, g
 from common.tools.pdf_to_img import PDFHandler
 from common.electronic_afc_contract.afc_contract_ocr import predict as afc_predict
 from common.electronic_hil_contract.hil_contract_ocr import predict as hil_predict
+from common.fsm_econtract.fsm_contract_ocr import predict as fsm_predict
+from common.fsm_econtract.hmh_ocr import predict as hmh_predict
 from apps.doc import consts
 # from apps.doc.ocr.edms import EDMS, rh
 from apps.doc.ocr.ecm import ECM, rh
@@ -996,7 +998,7 @@ class Command(BaseCommand, LoggerMixin):
                    res.setdefault(consts.ALL_POSITION_KEY, dict())[key] = page_info_dict.get(str(pno), {}).get(
                        consts.ALL_POSITION_KEY, {}).get(key1, [])
                license_summary[classify] = [res]
-            else:
+            elif classify in consts.SE_HIL_CON_MAP:  # TODO FSM新合同写入数据库用于比对
                res = {}
                for key, (pno1, pno2, end_idx, key1, key2) in consts.SE_HIL_CON_MAP[classify].items():
                    if pno1 is None:
@@ -1442,7 +1444,7 @@ class Command(BaseCommand, LoggerMixin):
                                self.log_base, traceback.format_exc()))
                            error_list.append(1)
                            return
-                else:  # e-contract
+                else:  # e-contract or or e-fsm-contract or e-hmh
                    try:
                        # pdf下载 处理 图片存储 识别
                        for times in range(consts.RETRY_TIMES):
@@ -1472,8 +1474,10 @@ class Command(BaseCommand, LoggerMixin):
                            self.online_log.error('{0} [process error (db save)] [error={1}]'.format(
                                self.log_base, traceback.format_exc()))

+                        # AFC合同
                        if classify_1_str == str(consts.CONTRACT_CLASSIFY):
-                            ocr_result = afc_predict(pdf_handler.pdf_info)
+                            is_fsm = doc.data_source == consts.DATA_SOURCE_LIST[3]
+                            ocr_result = afc_predict(pdf_handler.pdf_info, is_fsm=is_fsm)
                            page_res = {}
                            for page_num, page_info in ocr_result.get('page_info', {}).items():
                                if isinstance(page_num, str) and page_num.startswith('page_'):
@@ -1483,6 +1487,7 @@ class Command(BaseCommand, LoggerMixin):
                                        'page_num': page_num,
                                        'page_info': page_info
                                    }
+                        # 送达地址确认书
                        elif classify_1_str == str(consts.CONTRACT_QRS_CLASSIFY):
                            ocr_result = afc_predict(pdf_handler.pdf_info, is_qrs=True)
                            page_num = 'page_1'
@@ -1493,9 +1498,11 @@ class Command(BaseCommand, LoggerMixin):
                                    'page_info': ocr_result.pop(page_num, {}) 
                                }
                            }
-                        else:
+                        # HIL合同
+                        elif classify_1_str in consts.HIL_CONTRACT_TYPE_MAP:
+                            is_fsm = doc.data_source == consts.DATA_SOURCE_LIST[3]
                            file_type_1 = consts.HIL_CONTRACT_TYPE_MAP.get(classify_1_str)
-                            ocr_result_1 = hil_predict(pdf_handler.pdf_info, file_type_1)
+                            ocr_result_1 = hil_predict(pdf_handler.pdf_info, file_type_1, is_fsm=is_fsm)
                            rebuild_res_1 = {}
                            page_res = {}
                            for field_name, field_info in ocr_result_1.items():
@@ -1508,9 +1515,36 @@ class Command(BaseCommand, LoggerMixin):
                                        'page_num': page_num,
                                        'page_info': page_info
                                    }
+                        # FSM合同 WEP MSI SC
+                        elif classify_1_str in consts.FSM_CONTRACT_TYPE_MAP:
+                            file_type = consts.FSM_CONTRACT_TYPE_MAP.get(classify_1_str)
+                            ocr_result = fsm_predict(pdf_handler.pdf_info, file_type) 
+                            page_res = {}
+                            for page_num, page_info in ocr_result.items():
+                                if isinstance(page_num, str) and page_num.startswith('page_'):
+                                    page_res[page_num] = {
+                                        'classify': int(classify_1_str),
+                                        'page_num': page_num,
+                                        'page_info': page_info
+                                    }
+                        # hmh
+                        # else:
+                        #     pass
+

                        contract_res = {}
                        for img_path_tmp, page_key in pdf_handler.img_path_pno_list:
+                            if classify_1_str == str(consts.HMH_CLASSIFY):
+                                img_contract_res = {
+                                        'code': 1,
+                                        'data': [
+                                            {
+                                                'classify': consts.HMH_CLASSIFY,
+                                                'data': hmh_predict(pdf_handler.pdf_info)
+                                            }
+                                        ]
+                                    }
+                            else:
                                if page_key in page_res:
                                    img_contract_res = {
                                        'code': 1,
--- a/src/apps/doc/named_enum.py
View file @e0d31a2
+++ b/src/apps/doc/named_enum.py
View file @e0d31a2
@@ -36,6 +36,7 @@ class RequestTrigger(NamedEnum):
    DOCUPLOAD = (3, 'Document Upload')
    SUBMITING = (4, 'Submiting')
    UPLOADING = (5, 'Uploading')
+    OVP = (6, 'OVP')


 class FailureReason(NamedEnum):
--- a/src/apps/doc/ocr/wb.py
View file @e0d31a2
+++ b/src/apps/doc/ocr/wb.py
View file @e0d31a2
@@ -780,10 +780,12 @@ class BSWorkbook(Workbook):
            if field_str is not None:
                count_list.append((field_str, count))

-    def contract_rebuild(self, contract_result_dict):
+    def contract_rebuild(self, contract_result_dict, is_ca=False):
        for classify, contract_result in contract_result_dict.items():
            if len(contract_result) == 0:
                continue
+            if is_ca and classify not in consts.FSM_CONTRACT_CLASSIFY_SET:
+                continue
            ws = self.create_sheet(consts.CONTRACT_MAP.get(classify))
            for i in range(30):
                if str(i) in contract_result:
@@ -906,6 +908,7 @@ class BSWorkbook(Workbook):
        else:
            self.bs_rebuild(bs_summary, res_count_tuple, metadata)
            self.license_rebuild(license_summary, document_scheme, count_list)
+            self.contract_rebuild(contract_result, True)
        self.move_res_sheet()
        self.remove_base_sheet()
        return count_list
--- a/src/apps/doc/views.py
View file @e0d31a2
+++ b/src/apps/doc/views.py
View file @e0d31a2
@@ -602,13 +602,22 @@ class UploadDocView(GenericView, DocHandler):
        is_zip = False

        classify_1 = 0
-        # 电子合同
-        if data_source == consts.DATA_SOURCE_LIST[-1] and document_scheme == consts.DOC_SCHEME_LIST[1]:
+        # 电子合同 Econtract or OVP(FSM)
+        if data_source == consts.DATA_SOURCE_LIST[2] or data_source == consts.DATA_SOURCE_LIST[3]:  
+            if document_scheme == consts.DOC_SCHEME_LIST[1]:
                for keyword, classify_1_tmp in consts.ECONTRACT_KEYWORDS_MAP.get(prefix):
                    if keyword in document_name:
                        classify_1 = classify_1_tmp
                        break
-        elif document_name.endswith('.zip') or document_name.endswith('.rar') or document_name.endswith('.ZIP') \
+        # FSM合同：WEP/MSI/SC
+        elif data_source == consts.DATA_SOURCE_LIST[0] and document_scheme == consts.DOC_SCHEME_LIST[0]:
+            for keyword, classify_1_tmp in consts.FSM_ECONTRACT_KEYWORDS_MAP.get(prefix):
+                if keyword in document_name:
+                    classify_1 = classify_1_tmp
+                    break 
+
+
+        if document_name.endswith('.zip') or document_name.endswith('.rar') or document_name.endswith('.ZIP') \
                or document_name.endswith('.RAR'):
            is_zip = True

--- a/src/common/electronic_afc_contract/afc_contract_ocr.py
View file @e0d31a2
+++ b/src/common/electronic_afc_contract/afc_contract_ocr.py
View file @e0d31a2
@@ -6,6 +6,7 @@
 # @Description   :

 from .get_char import Finder
+from .get_char_fsm import Finder as FSMFinder
 import numpy as np


@@ -23,7 +24,7 @@ def extract_info(ocr_results):
    return {'page_1': {'合同编号': contract_no}}


-def predict(pdf_info, is_qrs=False):
+def predict(pdf_info, is_qrs=False, is_fsm=False):
    ocr_results = {}
    for pno in pdf_info:
        ocr_results[pno] = {}
@@ -50,6 +51,9 @@ def predict(pdf_info, is_qrs=False):
        results = extract_info(ocr_results)
    else:
        # 输入是整个 PDF 中的信息
+        if is_fsm:
+            f = FSMFinder(pdf_info, ocr_results=ocr_results) 
+        else:
            f = Finder(pdf_info, ocr_results=ocr_results)
        results = f.get_info()
    return results
--- a/src/common/electronic_afc_contract/get_char_fsm.py 0 → 100644
View file @e0d31a2
+++ b/src/common/electronic_afc_contract/get_char_fsm.py 0 → 100644
View file @e0d31a2
--- a/src/common/electronic_hil_contract/get_char_fsm.py 0 → 100644
View file @e0d31a2
+++ b/src/common/electronic_hil_contract/get_char_fsm.py 0 → 100644
View file @e0d31a2
--- a/src/common/electronic_hil_contract/hil_contract_ocr.py
View file @e0d31a2
+++ b/src/common/electronic_hil_contract/hil_contract_ocr.py
View file @e0d31a2
@@ -6,9 +6,10 @@
 # @Description   :

 from .get_char import Finder
+from .get_char_fsm import Finder as FSMFinder


-def predict(pdf_info, file_cls):
+def predict(pdf_info, file_cls, is_fsm=False):
    """Summary

    Args:
@@ -58,6 +59,10 @@ def predict(pdf_info, file_cls):
        pdf_info = dict()
        for pno, page_info in enumerate(pdf_info_1):
            pdf_info[str(pno)] = page_info
+
+    if is_fsm:
+        f = FSMFinder(pdf_info) 
+    else:
        f = Finder(pdf_info)
    if file_cls == 0:
        results = f.get_info()
--- a/src/common/fsm_econtract/const.py 0 → 100644
View file @e0d31a2
+++ b/src/common/fsm_econtract/const.py 0 → 100644
View file @e0d31a2
+WEP_FIELD = {
+    "0": {
+        'keys': {
+            '客户姓名': [('客户姓名', (r'^客户姓名.?$', r'^企业名称.?$'), 'top1', {})],
+            '证件类型': [('证件类型', (r'^证件类型.?$', ), 'top1', {})],
+            '证件号码': [('证件号码', (r'^证件号码.?$', r'^统一社会信用代码.?$'), 'top1', {})],
+            '合同价格（小写）': [('人民币', (r'^人民币￥.?$', ), 'top1', {})],
+            '客户签名': [('客户签名／盖章', (r'^客户签名／盖章.*$', ), 'top1', {})],
+            '签单日期': [('签单日期', (r'^签单日期.*签单日期.?$', ), 'top1', {})],
+        },
+        'value': {
+            '客户姓名': ('text', 'right', {'offset_tuple': (-1.1, 1, 0.3, 0)}, ''),
+            '证件类型': ('text', 'right', {'offset_tuple': (-1, 1, 0, 0)}, ''),
+            '证件号码': ('text', 'right', {'offset_tuple': (-1, 2, 0.3, 0)}, ''),
+            '合同价格（小写）': ('text', 'right', {'offset_tuple': (-1, 1, 0.3, 0)}, ''),
+            '客户签名': ('img', 'under', {'offset_tuple': (0, 0, 0, 4), 'rigorous': True}, '无'),
+            '签单日期': ('img', 'right', {'offset_tuple': (0, 0, 1.1, 0), 'rigorous': True}, '无'),
+        },
+    }
+    
+}
+
+MSI_FIELD = {
+    "0": {
+        'keys': {
+            '客户姓名': [('客户姓名', (r'^客户姓名.?$', r'^企业名称.?$'), 'top1', {})],
+            '证件类型': [('证件类型', (r'^证件类型.?$', ), 'top1', {})],
+            '证件号码': [('证件号码', (r'^证件号码.?$', r'^统一社会信用代码.?$'), 'top1', {})],
+            '合同价格（小写）': [('人民币', (r'^人民币￥.?$', ), 'top1', {})],
+        },
+        'value': {
+            '客户姓名': ('text', 'right', {'offset_tuple': (-1.2, 1, 0.3, 0)}, ''),
+            '证件类型': ('text', 'right', {'offset_tuple': (-1, 1, 0, 0)}, ''),
+            '证件号码': ('text', 'right', {'offset_tuple': (-1, 2, 0.3, 0)}, ''),
+            '合同价格（小写）': ('text', 'right', {'offset_tuple': (-1, 1, 0.3, 0)}, ''),
+        },
+    },
+    "1": {
+        'keys': {
+            '客户签名': [('客户签名／盖章', (r'^客户签名／盖章.*$', ), 'top1', {})],
+            '签单日期': [('签单日期', (r'^签单日期.*签单日期.?$', ), 'top1', {})],
+        },
+        'value': {
+            '客户签名': ('img', 'under', {'offset_tuple': (0, 0, 0, 4), 'rigorous': True}, '无'),
+            '签单日期': ('img', 'right', {'offset_tuple': (0, 0, 1.1, 0), 'rigorous': True}, '无'),
+        },
+    }
+}
+
+SC_FIELD = {
+    "0": {
+        'keys': {
+            '姓名': [('姓名', (r'^姓名.?$', r'^企业名称.?$'), 'top1', {})],
+            '证件类型': [('证件类型', (r'^证件类型.?$', ), 'top1', {})],
+            '证件号码': [('证件号码', (r'^证件号码.?$', r'^统一社会信用代码.?$'), 'top1', {})],
+            '总价': [('总价', (r'^总价.?$', ), 'top1', {})],
+        },
+        'value': {
+            '姓名': ('text', 'right', {'offset_tuple': (-2, 8, 0.5, 0)}, ''),
+            '证件类型': ('text', 'right', {'offset_tuple': (-2, 6, 0.5, 0)}, ''),
+            '证件号码': ('text', 'right', {'offset_tuple': (-2, 6, 0.5, 0)}, ''),
+            '总价': ('text', 'right', {'offset_tuple': (-2, 12, 0.5, 0)}, ''),
+        },
+    },
+    "-1": {
+        'keys': {
+            '客户签名': [('客户签名/盖章', (r'^客户签名/盖章.*$', r'^客户签名／盖章.*$'), 'top1', {})],
+            '签单日期': [('签单日期', (r'^签单日期.*签单日期.?$', ), 'top1', {})],
+        },
+        'value': {
+            '客户签名': ('img', 'under', {'offset_tuple': (1.5, 1, 0, 4), 'rigorous': True}, '无'),
+            '签单日期': ('img', 'right', {'offset_tuple': (0, 0, 1.1, 0), 'rigorous': True}, '无'),
+        },
+    }
+}
--- a/src/common/fsm_econtract/fsm_contract_ocr.py 0 → 100644
View file @e0d31a2
+++ b/src/common/fsm_econtract/fsm_contract_ocr.py 0 → 100644
View file @e0d31a2
+from .retriever import Retriever
+from .const import WEP_FIELD, MSI_FIELD, SC_FIELD
+from .tools import pdf_info_rebuild
+
+retriever_list = [Retriever(WEP_FIELD), Retriever(MSI_FIELD), Retriever(SC_FIELD)]
+
+def predict(pdf_info, file_type=0):
+    retriever =  retriever_list[file_type]
+    pdf_text_list, pdf_img_list = pdf_info_rebuild(pdf_info) 
+    return retriever.get_target_fields(pdf_text_list, pdf_img_list)
+
+
--- a/src/common/fsm_econtract/hmh_ocr.py 0 → 100644
View file @e0d31a2
+++ b/src/common/fsm_econtract/hmh_ocr.py 0 → 100644
View file @e0d31a2
+from .retriever import HMHRetriever
+from .tools import pdf_info_rebuild
+
+hmh_retriever = HMHRetriever() 
+
+def predict(pdf_info):
+    pdf_text_list, _ = pdf_info_rebuild(pdf_info, fix_bbox=False) 
+    return hmh_retriever.get_target_fields(pdf_text_list)
+
+
--- a/src/common/fsm_econtract/retriever.py 0 → 100644
View file @e0d31a2
+++ b/src/common/fsm_econtract/retriever.py 0 → 100644
View file @e0d31a2
--- a/src/common/fsm_econtract/tools.py 0 → 100644
View file @e0d31a2
+++ b/src/common/fsm_econtract/tools.py 0 → 100644
View file @e0d31a2
+def pdf_info_rebuild(pdf_info, fix_bbox=True):
+    pdf_text_info = dict()
+    pdf_img_info = dict()
+    for pno_str, page_info in pdf_info.items():
+        text_set = set()
+        for block in page_info['blocks']:
+            if block['type'] == 0:
+                # text有重复的现象
+                text_set.clear()
+                for line in block['lines']:
+                    for span in line['spans']:
+                        bbox, text = span['bbox'], span['text'].strip()
+                        if len(text) != 0 and text not in text_set:
+                            text_set.add(text)
+                            # bbox的高，不准
+                            if fix_bbox and bbox[-1] - bbox[1] < span['size']:
+                                bbox[-1] = bbox[-1] + span['size']
+                            pdf_text_info.setdefault(pno_str, list()).append([bbox, text])
+            elif block['type'] == 1:
+                pdf_img_info.setdefault(pno_str, list()).append((block['bbox'], '有'))
+
+    return pdf_text_info, pdf_img_info
\ No newline at end of file