Программное чтение PDF файлов в С#

Я вижу много вопросов и ответов об использовании С# для создания PDF файлов.
У меня есть связанная, но другая задача.

У меня есть большое количество файлов PDF, которые уже созданы, и я хотел бы проверить некоторые части содержимого с помощью регулярных выражений (RegExs). Я хочу открыть PDF файлы на С# и уметь читать текст в чем-то приближенном линейном виде.

Если заголовки, нижние колонтитулы, любые боковые панели и т.д. пропускаются или считываются из строя, это не имеет значения. Я просто получаю столько текста основного текста, сколько могу получить.

Можете ли вы указать мне инструменты, библиотеки, API и т.д., которые позволят мне программно читать текст в файлах PDF?

Ответы

Ответ 1

Я использовал PDFSharp не позднее последнего automn и нашел, что он очень прост в использовании по сравнению с другими. Домашняя страница для PDFSharp.

Ответ 2

Я успешно использовал две разные библиотеки для этой цели. Один из них - PDF Box (часть проекта Apache), а также один из Информационная информатика снежного покрова.

Обе библиотеки Java, но вы можете использовать их с .NET в сочетании с IKVM.

Ответ 3

Существует библиотека для .NET, называемая PDF Clown

Существует также хорошая статья в статье codeProject статьи что подробно описывает несколько других библиотек и подходов к чтению PDF-документы.

Ответ 4

Вот еще один:

http://csharp-source.net/open-source/pdf-libraries

Ответ 5

Похоже, iTextSharp был популярным ответом Чтение PDF-документов в .NET
Также ознакомьтесь с Чтение/запись PDF файлов в Visual С# Windows Forms