Ответ 1
Python имеет собственный парсер HTML, однако предлагаемая оболочка Tidy, предложенная Nick, вероятно, была бы твердым выбором. Tidy - очень распространенная библиотека, (написана на C это?)
Какой мой лучший выбор для разбора HTML, если я не могу использовать BeautifulSoup или lxml? У меня есть код, который использует SGMLlib, но он немного низкоуровневый, и теперь он устарел.
Я бы предпочел, если бы он мог немного похудеть, хотя я уверен, что большая часть ввода будет довольно чистой.
Python имеет собственный парсер HTML, однако предлагаемая оболочка Tidy, предложенная Nick, вероятно, была бы твердым выбором. Tidy - очень распространенная библиотека, (написана на C это?)
Возможно, μTidylib будет отвечать вашим потребностям?
Вы можете легко и легко установить lxml и многие другие модули python на Mac (OS X) с помощью Pallet, который является официальным графическим интерфейсом MacPorts
Имя модуля - py27-lxml. Легко, как 1,2,3.
http://www.xmlhack.com/read.php?item=1392 http://sourceforge.net/projects/pirxx/
http://pyxml.sourceforge.net/topics/
У меня нет большого опыта работы с python, но в прошлом я использовал Xerces (от основания Apache) и нашел, что это очень полезно. Кривая обучения тоже неплохая, хотя я не исхожу из перспективы python. Я предлагаю вам подумать об этом. (Первые две ссылки, которые я включил, обсуждают интерфейсы python для Xerces, а последний - первый хит google на "python xml" ).
html5lib хорошо:
http://code.google.com/p/html5lib/
Обновление: Неправильная ссылка. Внешнее зеркало выше, можно получить из https://github.com/html5lib/gcode-import
htql хорошо справляется с неправильным html: