Ответ 1
Я использовал PDFSharp не позднее последнего automn и нашел, что он очень прост в использовании по сравнению с другими. Домашняя страница для PDFSharp.
Я вижу много вопросов и ответов об использовании С# для создания PDF файлов.
У меня есть связанная, но другая задача.
У меня есть большое количество файлов PDF, которые уже созданы, и я хотел бы проверить некоторые части содержимого с помощью регулярных выражений (RegExs). Я хочу открыть PDF файлы на С# и уметь читать текст в чем-то приближенном линейном виде.
Если заголовки, нижние колонтитулы, любые боковые панели и т.д. пропускаются или считываются из строя, это не имеет значения. Я просто получаю столько текста основного текста, сколько могу получить.
Можете ли вы указать мне инструменты, библиотеки, API и т.д., которые позволят мне программно читать текст в файлах PDF?
Я использовал PDFSharp не позднее последнего automn и нашел, что он очень прост в использовании по сравнению с другими. Домашняя страница для PDFSharp.
Я успешно использовал две разные библиотеки для этой цели. Один из них - PDF Box (часть проекта Apache), а также один из Информационная информатика снежного покрова.
Обе библиотеки Java, но вы можете использовать их с .NET в сочетании с IKVM.
Существует библиотека для .NET, называемая PDF Clown
Существует также хорошая статья в статье codeProject статьи что подробно описывает несколько других библиотек и подходов к чтению PDF-документы.
Вот еще один:
Похоже, iTextSharp был популярным ответом Чтение PDF-документов в .NET
Также ознакомьтесь с Чтение/запись PDF файлов в Visual С# Windows Forms