Původní úmysl (kdysi dávno) byl ten, že naskenované přílohy se proženou nějakým OCR a následně se to bude moci použít pro získání informací. S tou přílohou to dělalo spoustu věcí a dokázalo to vytěžovat intenzivně celý server a trvalo to minimálně několik sekund, takže to nešlo dělat hned při přidání přílohy uživatelem.
Celé OCR se nakonec ukázalo jako slepá cesta, protože to nefunguje dostatečně kvalitně.
Dneska (od včerejška) už to funguje tak, že okamžitě po přidání přílohy:
Dojde k její analýze v technickém slova smyslu (např. u PDF se zjistí počet stran, uloží se textová podoba atd.).
U formátů, kde může být příloha (pdf, isdocx) dojde k rozbalení.
Dojde k obsahové analýze a pokud je to datová zpráva (třeba ten isdoc), tak se nachystá rovnou nějaká úvodní datová struktura.
Takže to nastavení už nemá žádný smysl, musí se odstranit a upravit to v dokumentaci.
A to OCR i externí třeba WFLOW, které ma API a může vrátit ten ISDOC zpět přes API by byla cesta? Údajně DIGITOO už se chlubí, že zvládají i účtenky.
Pro mne by i v tomto kole, kdy ve zprávě nemáme sloupce na:
všechny datumy
Akci na vytěžení IČ a založení nového osoby
Celkovou částku
způsob platby třeba podle použié karty
To jsou atributy, které si dnes i doplněním ručně do zprávy, dělám časovou řadu dokladů ke zpracování abych měl aspoň jakous takous časově seřazenou frontu
V tom by mi už hodně pomohlo třeba jen vytěžení datumu učetního většinou = DUZP aby se vytvořila ta fronta