Які формати підтримує Tesseract?

Тессеракт

тессерокр інтегрується безпосередньо з C++ API Tesseract за допомогою Cython, що дозволяє створити простий і легкий для читання вихідний код Pythonic. Він забезпечує реальне одночасне виконання при використанні з модулем потоків Python, звільняючи GIL під час обробки зображення в tesseract.

https://github.com › sirfz › tesserocr

sirfz/tesserocr: оболонка Python для API tesseract-ocr – GitHub

має підтримку Unicode (UTF-8) і може розпізнавати понад 100 мов «з коробки». Tesseract підтримує різні формати зображень, включаючи PNG, JPEG і TIFF. Tesseract підтримує різні вихідні формати: звичайний текст, hOCR (HTML), PDF, PDF із невидимим текстом, TSV, ALTO та PAGE.

Підтримувані формати введення

PNG – вимагає libpng, libz.
JPEG – вимагає libjpeg / libjpeg-turbo.
TIFF – вимагає libtiff, libz.
JPEG 2000 – потрібен libopenjp2.
GIF – потрібен libgif (giflib)
WebP потребує libwebp.
BMP – бібліотека не потрібна*
PNM – бібліотека не потрібна*

Формати введення файлів

TIFF (бажано)
JPG.
PNG.

Тессеракт вимагає високоякісні фотографії з помітним текстом. Перетворення файлу на TIFF уже подбає про деякі покращення зображення, але якщо ваше зображення перекошене або його важко побачити, краще відредагувати зображення заздалегідь.

Друга причина, чому TIFF рекомендується Формати JPEG або PNG обумовлено властивістю DPI. Зображення TIFF зберігають вихідну DPI зображення. Якщо зображення було відскановано з роздільною здатністю 300 DPI, ця інформація зберігається разом із зображенням.

docTR доступний без налаштування як безкоштовна надбудова DocumentCloud, яку ви можете використовувати, якщо у вас є підтверджений обліковий запис DocumentCloud для OCR ваших документів. docTR працює краще, ніж Tesseract, для багатьох типів документів йому важко: відскановані документи, скріншоти, документи з дивними шрифтами тощо.