Ответ 1
Блок будет храниться как непрерывный фрагмент информации на диске, а это означает, что общее время его полного считывания - это время, чтобы найти его (время поиска) + время, чтобы прочитать его содержимое, не делая больше запросов, т.е. sizeOfTheBlock / transferRate = transferTime
.
Если мы сохраняем отношение seekTime / transferTime
маленьким (близко к 0,01 в тексте), это означает, что мы читаем данные с диска почти так же быстро, как физический предел, наложенный на диск, с минимальным временем, затраченным на поиск информации,
Это важно, так как на картах сокращения заданий мы обычно просматриваем (считываем) весь набор данных (представленный файлом HDFS или папкой или набором папок) и выполняем на нем логику, так как нам приходится тратить полный transferTime
в любом случае, чтобы вывести все данные с диска, попытайтесь свести к минимуму время, затрачиваемое на поиск и чтение большими кусками, следовательно, большой размер блоков данных.
В более традиционном программном обеспечении для доступа к диску мы, как правило, не читаем весь набор данных каждый раз, поэтому мы скорее потратим больше времени на выполнение большого количества запросов на меньших блоках, вместо того, чтобы потерять время, передавая слишком много данных, которые мы не будем необходимость.