Ответ 1
Существует новая поисковая система под названием NerdyData, которая позволяет вам искать источник HTML/CSS/JS код
Они индексируют более 160 миллионов общедоступных доменов, и я нашел полезные данные.
У меня есть несколько веб-сайтов, и я не могу вспомнить, где я написал несколько строк кода. Поскольку мои страницы индексируются Google, я хотел бы знать, предлагает ли Google средство поиска в исходном коде HTML/самой разметке вместо того, чтобы просто разрешать поиск на визуальной, визуализированной части страницы?
Спасибо
Существует новая поисковая система под названием NerdyData, которая позволяет вам искать источник HTML/CSS/JS код
Они индексируют более 160 миллионов общедоступных доменов, и я нашел полезные данные.
Я нашел в своих путешествиях следующие ресурсы (некоторые уже упомянутые выше):
HTML-поисковые системы с маркировкой
Я также хотел бы добавить следующее:
Огромные архивы данных обхода веб-сайта
Ссылка "115m" Средство сканирования URL-адреса Среднего пути описывает использование Общий индекс URL обхода сканирования (наряду с другими данными URL).
Как мы можем анализировать данные обхода контента?
Для того, чтобы начать анализировать некоторые из этих массивных данных, взгляните на Структуры для больших данных/Map-сокращения.
Google перечисляет некоторые идеи по использованию проекта Apache Spark для анализа Общий свал (-ы) сканирования. Чтобы понять формат файла, используемый Common Crawl, обратитесь к следующему:
В статье Accessing-Common-Crawl-Dataset-on-S3 описывается доступ к Common Crawl 250TB + дамп с низкой стоимостью без, переносящий эту нагрузку за пределы сети Amazon AWS/S3. Конечно, предполагается, что вы собираетесь использовать некоторую комбинацию AWS/EC2/S3 и т.д., Чтобы проанализировать данные обхода.
Наконец, Патрик Дуруау поддерживает несколько интересных Common-Crawl- связанных с использованием блога.
Лично я нахожу этот предмет интригующим, я предлагаю получить данные обхода, пока он HOT!; -)
Вы можете попробовать PublicWWW для поиска в источнике/разметке. Он позволяет находить любые HTML, JavaScript, CSS и обычный текст в исходном коде веб-страницы на 167 миллионах веб-сайтов.
С PublicWWW вы можете:
Найдите соответствующие веб-сайты через уникальные коды HTML, которыми они делят, т.е. виджеты и идентификаторы издателей.
Определите сайты с использованием определенных изображений или значков.
Конечно, вы можете найти не только ваши веб-сайты, которые используют фрагмент кода/надписи.
Google не может выполнять поиск по вашему коду с сайта. Yoy может использовать http://nerdydata.com/ Это лучшая система поиска кода, которую я использовал! Я думаю, вы получите свой точный код с этого сайта.
Вы также можете попробовать meanpath для поиска в исходном HTML-коде. Хотя это коммерческий инструмент, он позволяет оценить их обслуживание. По состоянию на ноябрь 2014 года он утверждает, что проиндексировал страницы на 141 670 458 живых доменах.
Некоторая строка кода на вашем веб-сайте (если не на стороне клиента script) не отображается в Google при обходе вашего сайта. Как Google найдет что-то в вашем php-коде, когда доступ к сайту приведет к результатам работы с кодом?
http://google.com/codesearch будет искать общедоступные источники, поэтому, если вы храните свои источники в github, например, он найдет его.