Как вы архивируете весь сайт для просмотра в автономном режиме?
На самом деле мы много раз сжигали статические/архивные копии наших сайтов asp.net для клиентов. Мы использовали WebZip до сих пор, но у нас были бесконечные проблемы со сбоями, загруженными страницами, которые не были повторно связаны правильно, и т.д.
Нам в основном нужно приложение, которое сканирует и загружает статические копии всего на нашем сайте asp.net (страницы, изображения, документы, CSS и т.д.), А затем обрабатывает загруженные страницы, чтобы их можно было просматривать локально без подключения к Интернету (избавиться от абсолютных URL в ссылках и т.д.). Чем больше идиотских доказательств, тем лучше. Это кажется довольно распространенным и (относительно) простым процессом, но я пробовал несколько других приложений и был действительно не впечатлен
У кого-нибудь есть программное обеспечение для архивирования, которое они бы порекомендовали? У кого-нибудь есть действительно простой процесс, которым они поделятся?
Ответы
Ответ 1
В Windows вы можете посмотреть HTTrack. Он очень настраивается, позволяя вам устанавливать скорость загрузки. Но вы можете просто указать его на веб-сайт и запустить его тоже без какой-либо конфигурации.
По моему опыту это был действительно хороший инструмент и хорошо работает. Некоторые из вещей, которые мне нравятся в HTTrack:
- Лицензия с открытым исходным кодом
- Резюме остановленных загрузок
- Может обновлять существующий архив
- Вы можете настроить его на неагрессивный, когда он загружается, чтобы он не терял пропускную способность и пропускную способность сайта.
Ответ 2
Вы можете использовать wget:
wget -m -k -K -E http://url/of/web/site
Ответ 3
Wayback Machine Downloader от Hartator прост и быстр.
Установите через Ruby, затем запустите с нужным доменом и дополнительной отметкой времени из интернет-архива.
sudo gem install wayback_machine_downloader
mkdir example
cd example
wayback_machine_downloader http://example.com --timestamp 19700101000000
Ответ 4
Я использую Blue Crab на OSX и WebCopier в Windows.
Ответ 5
wget -r -k
... и изучите остальные варианты. Надеюсь, вы следовали этим рекомендациям: http://www.w3.org/Protocols/rfc2616/rfc2616-sec9.html, чтобы все ваши ресурсы были безопасны с запросами GET.
Ответ 6
Я просто использую: wget -m <url>
.
Ответ 7
Для пользователей OS X я обнаружил, что найденное здесь приложение sitesucker работает без каких-либо настроек, кроме как по ссылкам.
Ответ 8
Если ваши клиенты архивируют проблемы соответствия, вы хотите убедиться, что контент может быть аутентифицирован. Перечисленные опции подходят для простого просмотра, но они не являются допустимыми законом. В этом случае вы ищете временные метки и цифровые подписи. Гораздо сложнее, если вы делаете это самостоятельно. Я бы предложил такую услугу, как PageFreezer.
Ответ 9
Я использую HTTrack уже несколько лет. Он обрабатывает все межстраничные ссылки и т.д. Просто отлично. Моя единственная жалоба заключается в том, что я не нашел хорошего способа сохранить его ограниченным подсайтом очень хорошо. Например, если есть сайт www.foo.com/steve, который я хочу архивировать, он, скорее всего, будет следовать ссылкам на www.foo.com/rowe и архивировать это тоже. В противном случае это здорово. Высокая конфигурация и надежность.
Ответ 10
Также проверьте ArchiveBox (ранее Bookmark Archiver).
Это локальная веб-программа для архивирования с открытым исходным кодом, которая может загружать закладки, историю браузера, RSS-каналы и т.д.