Как вы архивируете весь сайт для просмотра в автономном режиме?

На самом деле мы много раз сжигали статические/архивные копии наших сайтов asp.net для клиентов. Мы использовали WebZip до сих пор, но у нас были бесконечные проблемы со сбоями, загруженными страницами, которые не были повторно связаны правильно, и т.д.

Нам в основном нужно приложение, которое сканирует и загружает статические копии всего на нашем сайте asp.net (страницы, изображения, документы, CSS и т.д.), А затем обрабатывает загруженные страницы, чтобы их можно было просматривать локально без подключения к Интернету (избавиться от абсолютных URL в ссылках и т.д.). Чем больше идиотских доказательств, тем лучше. Это кажется довольно распространенным и (относительно) простым процессом, но я пробовал несколько других приложений и был действительно не впечатлен

У кого-нибудь есть программное обеспечение для архивирования, которое они бы порекомендовали? У кого-нибудь есть действительно простой процесс, которым они поделятся?

Ответы

Ответ 1

В Windows вы можете посмотреть HTTrack. Он очень настраивается, позволяя вам устанавливать скорость загрузки. Но вы можете просто указать его на веб-сайт и запустить его тоже без какой-либо конфигурации.

По моему опыту это был действительно хороший инструмент и хорошо работает. Некоторые из вещей, которые мне нравятся в HTTrack:

Лицензия с открытым исходным кодом
Резюме остановленных загрузок
Может обновлять существующий архив
Вы можете настроить его на неагрессивный, когда он загружается, чтобы он не терял пропускную способность и пропускную способность сайта.

Ответ 2

Вы можете использовать wget:

wget -m -k -K -E http://url/of/web/site

Ответ 3

Wayback Machine Downloader от Hartator прост и быстр.

Установите через Ruby, затем запустите с нужным доменом и дополнительной отметкой времени из интернет-архива.

sudo gem install wayback_machine_downloader
mkdir example
cd example
wayback_machine_downloader http://example.com --timestamp 19700101000000

Ответ 4

Я использую Blue Crab на OSX и WebCopier в Windows.

Ответ 5

wget -r -k

... и изучите остальные варианты. Надеюсь, вы следовали этим рекомендациям: http://www.w3.org/Protocols/rfc2616/rfc2616-sec9.html, чтобы все ваши ресурсы были безопасны с запросами GET.

Ответ 6

Я просто использую: wget -m <url>.

Ответ 7

Для пользователей OS X я обнаружил, что найденное здесь приложение sitesucker работает без каких-либо настроек, кроме как по ссылкам.

Ответ 8

Если ваши клиенты архивируют проблемы соответствия, вы хотите убедиться, что контент может быть аутентифицирован. Перечисленные опции подходят для простого просмотра, но они не являются допустимыми законом. В этом случае вы ищете временные метки и цифровые подписи. Гораздо сложнее, если вы делаете это самостоятельно. Я бы предложил такую услугу, как PageFreezer.

Ответ 9

Я использую HTTrack уже несколько лет. Он обрабатывает все межстраничные ссылки и т.д. Просто отлично. Моя единственная жалоба заключается в том, что я не нашел хорошего способа сохранить его ограниченным подсайтом очень хорошо. Например, если есть сайт www.foo.com/steve, который я хочу архивировать, он, скорее всего, будет следовать ссылкам на www.foo.com/rowe и архивировать это тоже. В противном случае это здорово. Высокая конфигурация и надежность.

Ответ 10

Также проверьте ArchiveBox (ранее Bookmark Archiver).

Это локальная веб-программа для архивирования с открытым исходным кодом, которая может загружать закладки, историю браузера, RSS-каналы и т.д.