Программное чтение PDF файлов в С#

Я вижу много вопросов и ответов об использовании С# для создания PDF файлов.
У меня есть связанная, но другая задача.

У меня есть большое количество файлов PDF, которые уже созданы, и я хотел бы проверить некоторые части содержимого с помощью регулярных выражений (RegExs). Я хочу открыть PDF файлы на С# и уметь читать текст в чем-то приближенном линейном виде.

Если заголовки, нижние колонтитулы, любые боковые панели и т.д. пропускаются или считываются из строя, это не имеет значения. Я просто получаю столько текста основного текста, сколько могу получить.

Можете ли вы указать мне инструменты, библиотеки, API и т.д., которые позволят мне программно читать текст в файлах PDF?

Ответы

Ответ 1

Я использовал PDFSharp не позднее последнего automn и нашел, что он очень прост в использовании по сравнению с другими. Домашняя страница для PDFSharp.

Ответ 3

Существует библиотека для .NET, называемая PDF Clown

Существует также хорошая статья в статье codeProject статьи что подробно описывает несколько других библиотек и подходов к чтению PDF-документы.