Как извлечь данные pdf с помощью python3

Как читать данные с pdf через python 3 (PyPDF2)

Мониторил недавно запросы заказчиков на бирже и наткнулся на интересную задачу. Нужно было из сотни .pdf-файлов извлечь емейлы. И мне стало интересно как это сделать с python 3. Нашел для этого модуль PyPDF2. С его помощью и будем читать данные с пдф-файлов.

Как установить PyPDF2

Модуль ставится без проблем через pip. И на виндовс в том числе. Через командную строку выполните код:

Спустя несколько секунд модуль установится.

Как открыть pdf-файл на питоне

Импортируем модуль PyPDF2, открываем файл через open в байтовом режиме.

Обратите внимание — PyPDF2 нужно писать именно так: большие буквы, кроме ‘y’, иначе будет ошибка импорта библиотеки. И файл открывать в режиме ‘rb‘, не ‘r’.

Как прочитать pdf-файл на python 3

Для чтения содержимого файла pdf используется класс PdfFileReader. Код будет выглядеть вот так:

Сначала импорт модуля, потом открываем файл. После этого читаем файл через PyPDF2.PdfFileReader.

Чтобы вывести количество страниц pdf-файла используйте такой код:

Как извлечь текст с pdf-файла с python 3

Сразу код, обьясню позже:

Первые три строки мы уже знаем: импорт, открыть файл, прочитать его. Дальше мы берем 37 страниц (getPage(37)). И извлекаем оттуда текст — extractText().
Если нужно использовать кодировку, то при выводе (или записи в файл) используйте .encode:

или

Этот код записывает данные в файл bdseoru_pdf.txt.

Как извлечь данные с pdf-файла (емейл, телефоны и т.п.)

Как прочитать данные с pdf я уже написал. Емейлы и телефоны можно извлекать как с обычного текста — например, с помощью стандартного модуля RE, и масок регулярных выражений. Если кому интересно — спрашивайте.

  • Сделал как вы посоветовали плюс еще исправил одну ошибкую. Код работает вроде бы, колво строк в документе считает, но файл не открывается и ошибок не выдает:

    Так должно быть? Логично что должен открыться редактор «пидиэф» и сам файл!?

    Далее добавляю следующий кусок вашего кода:

    и получаю ошибку:

    Видимо где то что то я пропустил? Подскажите пожалуйста, где.

    • начну с конца. по поводу ошибки — он не видит 228 страницу, их меньше получается. Кроме того, Вы пишите getpage228, а в след.строке хотите вытянуть текст — с *365.
      вначале открываться ничего не должно, т.к. Вы написали только «вывести кол-во страниц» (print). :)

  • Пытаюсь воспроизвести ваш код указав свой путь для файла.пидиэф

    pl = open(‘/home/prog/pyProject/devops.pdf’, ‘rb’)
    plread = PyPDF2.PdfFileReader(pl)

    Выдает ошибку:

    Traceback (most recent call last):
    File «search_pdf.py», line 48, in <module>
    plread = PyPDF2.PdfFileReader(pl)
    File «/usr/lib/python3.7/site-packages/PyPDF2/pdf.py», line 1084, in __init__
    self.read(stream)
    File «/usr/lib/python3.7/site-packages/PyPDF2/pdf.py», line 1689, in read
    stream.seek(-1, 2)
    OSError: [Errno 22] Invalid argument

    Не подскажете, в чем может быть причина?

     

     

     

    • Точно не подскажу, в сети пишут что есть такая проблема в некоторых пдф файлах. Попробуйте на другом, проверьте кавычки в пути, заэкранируйте слэши (r»/home/prog.pdf»).
      Может почитайте о PdfFileMerger (сам не пользовался, в сети нашел).

  • А если мне надо найти информацию по контексту в нескольких сот пдф файлов архив. И чтоб на выходе он мне выдавал что мол в таких и таких журналах есть ваша инфа. Я могу использовать ваш код в этом случае?

    • Часть кода. Как я вижу решение задачи:
      1) в цикле for проходимся по файлам
      2) открываем пдф и ищем нет ли там подходящего текста
      3) если есть — выводим название файла

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *