Ответ 1
Есть несколько вещей, которые вам понадобятся, если вы хотите создать простую поисковую систему.
Прежде всего, вы должны прочитать и понять, где поле поиска информации начиналось с G. Salton paper или, по крайней мере, прочитать wiki-страницу в модели векторного пространства. Это потребует от вас изучения, по крайней мере, некоторой линейной алгебры. Я предлагаю видеоролики MIT для Gilbert Strang для этого.
Затем вы можете перейти к статье Brin/Page Pagerank, которая обходится в оригинальной концепции за гиперссылкой и быстро вычисляет собственные векторы для ранжирования или читать страницу wiki.
Вам также может быть интересно посмотреть код Apache Lucene
Чтобы найти современные методы алгоритма поиска, вам необходим анализ исчисления и регрессии, чтобы изучить компьютерное обучение и глубокое обучение, поскольку текущий поиск Google отошел от Pagerank и использует их. Частично это объясняется тем, как ферма ссылок позволила людям искусственно обрабатывать результаты поиска и огромное количество метаданных, которые позволяют собирать современные браузеры и веб-серверы.
EDIT:
Только для части webcrawler я рекомендую WebSPHINX. Я использовал это в своем старшем исследовании в колледже совместно с Lucene.