Абзац URI для веб-страниц Google

Как я могу получить список абсолютных кодировок URI или base64 для URL-адреса страницы в результатах поиска Google?

Цель:

Итерация через массив URL:

pages["pinelakedesign.com"];
pages["pinelakedesign.com/about"];
pages["pinelakedesign.com/contact"];

Вывод:

  • Миниатюра Google 1
  • Миниатюра Google 2
  • Эскиз Google N

Google использует строчную кодировку миниатюрных JPG-изображений для своих визуальных результатов поиска. В 2011 году эта миниатюра изменилась с предыдущей системы с помощью увеличительного стекла и абсолютной конструкции URI, описанной в этом вопросе: https://stackoverflow.com/info/6881319/google-web-thumbnails

Я просто хочу вычеркнуть список страниц на веб-сайте в виде миниатюр Google, чтобы я знал, какие страницы были проиндексированы и эскизны с первого взгляда и как выглядят эти большие пальцы.

Google search results thumbnail preview

Изменить 5 ноября 2011

Я определил, что вызов этого URL-адреса возвращает JSONP с кодировкой base64, заголовком, описанием и URL-адресом в результатах поиска Google.

https://clients1.google.com/webpagethumbnail?r=4&f=3&s=400:585&query=pine+lake+design&hl=en&gl=us&c=29&d=http%3A%2F%2Fwww.pinelakedesign.com%2F&b=1&j=google.nyc.c.j_pVK1Tu_gAbODsAKH0ZTuAw_3787232970_3&expi=17291,27615,28936,30049,30316,31215,32035,32271,32410,32940,33104,33194,33627,33788,33854,33907,33975,34103&a=2NT

Параметр query = - это поиск в Google. d = является местом назначения ссылки и, возможно, источником миниатюры. s = 400: 585 - высота и ширина. Я не уверен, что делают r = 4 и f = 3. Изменение любой из этих переменных приводит к ошибке 404. Моя догадка заключается в том, что expi = - это своего рода алгоритм истечения контрольной суммы, основанный на разных значениях параметров, но я не знаю.

Возвращенный JSONP:

google.nyc.c.j_pVK1Tu_gAbODsAKH0ZTuAw_3787232970_3({"s":"b","b":1,"quality":100,"shards":[{"heights":[300,131],"imgs":["data:image/jpeg;base64,/9j/4AAQSkZ ...THIS IS THE LONG BASE64 ENCONDING ...pa5r61f/9k="],"tbts":[{"box":{"h":15,"l":0,"t":39,"w":224},"txt":"<em>Pine Lake</em> specializes in small business website <em>design</em>, redesign and hosting. We have developed the Sungem content management system which allows our <b>...</b>","txtBox":{"h":57,"l":0,"t":58,"w":400}}]}],"url":"http://www.pinelakedesign.com/"}
)

Обновление 8 ноября 2011 г.

Я ищу какое-то решение, например emedly Preview для просмотра миниатюр Google.

Обновление 9 февраля 2012 г.

Использование Phantom JS выглядит как хороший способ получить удаленные снимки на стороне сервера, но это не помогает определить, как добраться до изображений Google.

Обновление 26 марта 2012 г.

Я считаю, что поисковый паук Google - это безголовая версия настольного Chrome с разрешением 1024 пикселя. Паук Chrome позволял пауку запускать Javascript, использовать селектора @font-face, CSS3, просматривать Flash (даже дождаться, когда preloader достигнет 100%) и получить точные снимки отображаемых страниц после загрузки всех активов и манипуляций с DOM. Кто-нибудь из Google, пожалуйста, взвесит, чтобы подтвердить или опровергнуть что-нибудь?

Ответы

Ответ 1

В основном, они сначала делают запрос на завивку для URL запроса, а затем получают отсутствующий параметр "a" из ответа html. Затем они используют его для построения правильного URL-адреса и делают api-вызов API google для получения изображения. После этого существует более сложная работа, например, слияние результирующих изображений с ImageMagick для получения полного предварительного просмотра, но это плюс...