Каков самый быстрый способ суммирования коллекции в Scala
Я пробовал разные коллекции в Scala, чтобы суммировать его элементы, и они намного медленнее, чем суммы Java, массивы (с циклом for
). Есть ли способ для Scala быть таким же быстрым, как Java-массивы?
Я слышал, что в Scala 2.8 массивы будут такими же, как в java, но на практике они намного медленнее
Ответы
Ответ 1
Индексирование в массивы в цикле while так же быстро выполняется в Scala, как и в Java. (Scala "for" loop не является низкоуровневой конструкцией Java, поэтому она не будет работать так, как вы хотите.)
Таким образом, если в Java вы видите
for (int i=0 ; i < array.length ; i++) sum += array(i)
в Scala вам следует написать
var i=0
while (i < array.length) {
sum += array(i)
i += 1
}
и если вы выполните свои тесты соответствующим образом, вы не найдете никакой разницы в скорости.
Если у вас есть итераторы, то Scala так же быстро, как Java, в большинстве случаев. Например, если у вас есть ArrayList двойников и в Java вы добавляете их с помощью
for (double d : arraylist) { sum += d }
тогда в Scala вы будете примерно такими же быстрыми - если используете эквивалентную структуру данных, например ArrayBuffer - с
arraybuffer.foreach( sum += _ )
и не слишком далеко от знака с помощью
sum = (0 /: arraybuffer)(_ + _)
sum = arraybuffer.sum // 2.8 only
Имейте в виду, что существует штраф за смешение конструкций высокого уровня и низкого уровня. Например, если вы решили начать с массива, но затем используйте вместо него "foreach" вместо индексации, Scala должен обернуть его в коллекцию (ArrayOps
в 2.8), чтобы заставить ее работать, и часто также нужно будет прикрепить примитивы.
В любом случае, для тестового тестирования эти две функции - ваши друзья:
def time[F](f: => F) = {
val t0 = System.nanoTime
val ans = f
printf("Elapsed: %.3f\n",1e-9*(System.nanoTime-t0))
ans
}
def lots[F](n: Int, f: => F): F = if (n <= 1) f else { f; lots(n-1,f) }
Например:
val a = Array.tabulate(1000000)(_.toDouble)
val ab = new collection.mutable.ArrayBuffer[Double] ++ a
def adSum(ad: Array[Double]) = {
var sum = 0.0
var i = 0
while (i<ad.length) { sum += ad(i); i += 1 }
sum
}
// Mixed array + high-level; convenient, not so fast
scala> lots(3, time( lots(100,(0.0 /: a)(_ + _)) ) )
Elapsed: 2.434
Elapsed: 2.085
Elapsed: 2.081
res4: Double = 4.999995E11
// High-level container and operations, somewhat better
scala> lots(3, time( lots(100,(0.0 /: ab)(_ + _)) ) )
Elapsed: 1.694
Elapsed: 1.679
Elapsed: 1.635
res5: Double = 4.999995E11
// High-level collection with simpler operation
scala> lots(3, time( lots(100,{var s=0.0;ab.foreach(s += _);s}) ) )
Elapsed: 1.171
Elapsed: 1.166
Elapsed: 1.162
res7: Double = 4.999995E11
// All low level operations with primitives, no boxing, fast!
scala> lots(3, time( lots(100,adSum(a)) ) )
Elapsed: 0.185
Elapsed: 0.183
Elapsed: 0.186
res6: Double = 4.999995E11
Ответ 2
Теперь вы можете просто использовать сумму.
val values = Array.fill[Double](numValues)(0)
val sumOfValues = values.sum
Ответ 3
Очень сложно объяснить, почему какой-то код, который вы не показывали, хуже, чем какой-либо другой код, который вы не показывали в каком-то контрольном показателе, который вы не показывали.
Возможно, вас интересует этот вопрос и его принятый ответ, во-первых. Но сравнение JVM-кода сложно, потому что JIT будет оптимизировать код способами, которые трудно предсказать (вот почему JIT превосходит традиционную оптимизацию во время компиляции).
Ответ 4
Scala 2.8 Array
являются массивами JVM/Java и, как таковые, имеют одинаковые характеристики производительности. Но это означает, что они не могут напрямую иметь дополнительные методы, которые объединяют их с остальными коллекциями Scala. Чтобы представить иллюзию, что массивы имеют эти методы, существуют неявные преобразования в классы-оболочки, которые добавляют эти возможности. Если вы не будете осторожны, вы будете нести чрезмерные издержки, используя эти функции.
В тех случаях, когда чрезмерные издержки итерации имеют решающее значение, вы можете явно получить итератор (или поддерживать индекс integer для индексированных последовательных структур, таких как Array
или другой IndexedSeq
), и использовать цикл while
, который является языковой уровень, который не должен функционировать для функций (литералов или иначе), но может компилировать встроенные кодовые блоки.
val l1 = List(...) // or any Iteralbe
val i1 = l1.iterator
while (i1.hasNext) {
val e = i1.next
// Do stuff with e
}
Такой код будет выполняться практически так же быстро, как Java-копия.
Ответ 5
Правильный scala или функционал должен был сделать это:
val numbers = Array(1, 2, 3, 4, 5)
val sum = numbers.reduceLeft[Int](_+_)
Ознакомьтесь с этой ссылкой для полного объяснения синтаксиса:
http://www.codecommit.com/blog/scala/quick-explanation-of-scalas-syntax
Я сомневаюсь, что это будет быстрее, чем делать это способами, описанными в других ответах, но я не проверял его, поэтому не уверен. На мой взгляд, это правильный способ сделать это, хотя scala является функциональным языком.
Ответ 6
Сроки - это не единственная проблема.
С sum
может возникнуть проблема с переполнением:
scala> Array(2147483647,2147483647).sum
res0: Int = -2
в этом случае предпочтительнее посев foldLeft
с помощью Long
scala> Array(2147483647,2147483647).foldLeft(0L)(_+_)
res1: Long = 4294967294