Поиск в html-источнике с помощью GOOGLE?

У меня есть несколько веб-сайтов, и я не могу вспомнить, где я написал несколько строк кода. Поскольку мои страницы индексируются Google, я хотел бы знать, предлагает ли Google средство поиска в исходном коде HTML/самой разметке вместо того, чтобы просто разрешать поиск на визуальной, визуализированной части страницы?

Спасибо

Ответы

Ответ 1

Существует новая поисковая система под названием NerdyData, которая позволяет вам искать источник HTML/CSS/JS код

Они индексируют более 160 миллионов общедоступных доменов, и я нашел полезные данные.

Ответ 2

Я нашел в своих путешествиях следующие ресурсы (некоторые уже упомянутые выше):

HTML-поисковые системы с маркировкой

Я также хотел бы добавить следующее:

Огромные архивы данных обхода веб-сайта

Common Crawl - "годы бесплатных данных веб-страницы, чтобы помочь изменить мир" (более 250 ТБ +)
1.6TB данных обхода с веб-сайтов 115m @4 января 2014 г. (щедро пожертвовано сообществу средним путем)

Ссылка "115m" Средство сканирования URL-адреса Среднего пути описывает использование Общий индекс URL обхода сканирования (наряду с другими данными URL).

Как мы можем анализировать данные обхода контента?

Для того, чтобы начать анализировать некоторые из этих массивных данных, взгляните на Структуры для больших данных/Map-сокращения.

Google перечисляет некоторые идеи по использованию проекта Apache Spark для анализа Общий свал (-ы) сканирования. Чтобы понять формат файла, используемый Common Crawl, обратитесь к следующему:

В статье Accessing-Common-Crawl-Dataset-on-S3 описывается доступ к Common Crawl 250TB + дамп с низкой стоимостью без, переносящий эту нагрузку за пределы сети Amazon AWS/S3. Конечно, предполагается, что вы собираетесь использовать некоторую комбинацию AWS/EC2/S3 и т.д., Чтобы проанализировать данные обхода.

Наконец, Патрик Дуруау поддерживает несколько интересных Common-Crawl- связанных с использованием блога.

Лично я нахожу этот предмет интригующим, я предлагаю получить данные обхода, пока он HOT!; -)

Ответ 3

Вы можете попробовать PublicWWW для поиска в источнике/разметке. Он позволяет находить любые HTML, JavaScript, CSS и обычный текст в исходном коде веб-страницы на 167 миллионах веб-сайтов.

С PublicWWW вы можете:

Найдите соответствующие веб-сайты через уникальные коды HTML, которыми они делят, т.е. виджеты и идентификаторы издателей.
Определите сайты с использованием определенных изображений или значков.
Узнайте, кто еще использует вашу тему.
Определите сайты, в которых вы упоминаете.
Найдите своих партнеров-конкурентов.
Определите сайты, на которых ваши конкуренты лично сотрудничают или взаимодействуют.
Ссылки на использование библиотеки или платформы.
Найти примеры кода в сети.
Выясните, кто использует какие-то виджеты JS на своих сайтах.
...

Конечно, вы можете найти не только ваши веб-сайты, которые используют фрагмент кода/надписи.

Ответ 4

Google не может выполнять поиск по вашему коду с сайта. Yoy может использовать http://nerdydata.com/ Это лучшая система поиска кода, которую я использовал! Я думаю, вы получите свой точный код с этого сайта.

Ответ 5

Вы также можете попробовать meanpath для поиска в исходном HTML-коде. Хотя это коммерческий инструмент, он позволяет оценить их обслуживание. По состоянию на ноябрь 2014 года он утверждает, что проиндексировал страницы на 141 670 458 живых доменах.

Ответ 6

Некоторая строка кода на вашем веб-сайте (если не на стороне клиента script) не отображается в Google при обходе вашего сайта. Как Google найдет что-то в вашем php-коде, когда доступ к сайту приведет к результатам работы с кодом?

http://google.com/codesearch будет искать общедоступные источники, поэтому, если вы храните свои источники в github, например, он найдет его.