OCR — извлечение текста из отсканированных PDF
Запустите OCR на PDF-файлах с изображениями, чтобы сделать их доступными для поиска и копирования. Поддерживается 13 языков.
Перетащите отсканированный PDF для OCR
или нажмите для выбора · до 100 МБ
Выберите язык текста в PDF. Комбинированные варианты позволяют смешивать языки (например, китайский + английский).
Примечание: OCR выполняется полностью в вашем браузере (Tesseract.js через WebAssembly). При первом использовании загружаются движок OCR и языковые данные — после этого они кэшируются. Сканы высокого разрешения дают гораздо лучшую точность.
Другие инструменты для PDF
Часто задаваемые вопросы
Насколько точен OCR?
Очень точен на чистых сканах (90%+). Ниже на сканах с низким разрешением, перекошенных или зашумлённых. Для лучших результатов сканируйте с 300 DPI и держите страницы прямо.
Можно ли использовать несколько языков?
Да — выберите комбинированный вариант, например «繁中 + English», из списка языков. Это полезно для двуязычных документов.
Почему первый запуск медленный?
Движок OCR (~5 МБ) и языковые данные (~2-10 МБ на язык) загружаются при первом использовании. Последующие запуски используют кэш браузера и работают гораздо быстрее.