Какой тип использовать для хранения измененной таблицы данных в памяти в Scala?
Каждый раз, когда вызывается функция, если результат для данного набора значений аргументов еще не сохранен, я хотел бы поместить результат в таблицу с памятью. Один столбец предназначен для хранения результата, другие - для хранения значений аргументов.
Как лучше всего реализовать это? Аргументы имеют разные типы, включая некоторые перечисления.
В С# я обычно использовал DataTable. Существует ли эквивалент в Scala?
Ответы
Ответ 1
Вы можете использовать mutable.Map[TupleN[A1, A2, ..., AN], R]
, или если память вызывает беспокойство, WeakHashMap [1]. Нижеприведенные определения (построенные на код memoization из michid blog) позволяют легко запоминать функции с несколькими аргументами. Например:
import Memoize._
def reallySlowFn(i: Int, s: String): Int = {
Thread.sleep(3000)
i + s.length
}
val memoizedSlowFn = memoize(reallySlowFn _)
memoizedSlowFn(1, "abc") // returns 4 after about 3 seconds
memoizedSlowFn(1, "abc") // returns 4 almost instantly
Определения:
/**
* A memoized unary function.
*
* @param f A unary function to memoize
* @param [T] the argument type
* @param [R] the return type
*/
class Memoize1[-T, +R](f: T => R) extends (T => R) {
import scala.collection.mutable
// map that stores (argument, result) pairs
private[this] val vals = mutable.Map.empty[T, R]
// Given an argument x,
// If vals contains x return vals(x).
// Otherwise, update vals so that vals(x) == f(x) and return f(x).
def apply(x: T): R = vals getOrElseUpdate (x, f(x))
}
object Memoize {
/**
* Memoize a unary (single-argument) function.
*
* @param f the unary function to memoize
*/
def memoize[T, R](f: T => R): (T => R) = new Memoize1(f)
/**
* Memoize a binary (two-argument) function.
*
* @param f the binary function to memoize
*
* This works by turning a function that takes two arguments of type
* T1 and T2 into a function that takes a single argument of type
* (T1, T2), memoizing that "tupled" function, then "untupling" the
* memoized function.
*/
def memoize[T1, T2, R](f: (T1, T2) => R): ((T1, T2) => R) =
Function.untupled(memoize(f.tupled))
/**
* Memoize a ternary (three-argument) function.
*
* @param f the ternary function to memoize
*/
def memoize[T1, T2, T3, R](f: (T1, T2, T3) => R): ((T1, T2, T3) => R) =
Function.untupled(memoize(f.tupled))
// ... more memoize methods for higher-arity functions ...
/**
* Fixed-point combinator (for memoizing recursive functions).
*/
def Y[T, R](f: (T => R) => T => R): (T => R) = {
lazy val yf: (T => R) = memoize(f(yf)(_))
yf
}
}
Комбинатор с фиксированной запятой (Memoize.Y
) позволяет memoize рекурсивные функции:
val fib: BigInt => BigInt = {
def fibRec(f: BigInt => BigInt)(n: BigInt): BigInt = {
if (n == 0) 1
else if (n == 1) 1
else (f(n-1) + f(n-2))
}
Memoize.Y(fibRec)
}
[1] WeakHashMap не работает как кеш. См. http://www.codeinstructions.com/2008/09/weakhashmap-is-not-cache-understanding.html и этот связанный вопрос.
Ответ 2
Версия, предложенная anovstrup с использованием измененной карты, в основном такая же, как и в С#, и поэтому проста в использовании.
Но если вы хотите, вы также можете использовать более функциональный стиль. Он использует неизменные карты, которые действуют как своего рода накопитель. Наличие Tuples (вместо Int в примере) в качестве ключей работает точно так же, как в изменяемом случае.
def fib(n:Int) = fibM(n, Map(0->1, 1->1))._1
def fibM(n:Int, m:Map[Int,Int]):(Int,Map[Int,Int]) = m.get(n) match {
case Some(f) => (f, m)
case None => val (f_1,m1) = fibM(n-1,m)
val (f_2,m2) = fibM(n-2,m1)
val f = f_1+f_2
(f, m2 + (n -> f))
}
Конечно, это немного сложнее, но полезный метод знать (обратите внимание, что вышеприведенный код направлен на ясность, а не на скорость).
Ответ 3
Будучи новичком в этом вопросе, я не мог полностью понять ни один из приведенных примеров (но хотел бы поблагодарить в любом случае). С уважением, я представляю свое собственное решение для случая, когда кто-то приходит сюда с одинаковым уровнем и той же проблемой. Я думаю, что мой код может быть кристально чистым для тех, у кого есть только очень-очень базовое знание Scala.
def MyFunction(dt : DateTime, param : Int) : Double
{
val argsTuple = (dt, param)
if(Memo.contains(argsTuple)) Memo(argsTuple) else Memoize(dt, param, MyRawFunction(dt, param))
}
def MyRawFunction(dt : DateTime, param : Int) : Double
{
1.0 // A heavy calculation/querying here
}
def Memoize(dt : DateTime, param : Int, result : Double) : Double
{
Memo += (dt, param) -> result
result
}
val Memo = new scala.collection.mutable.HashMap[(DateTime, Int), Double]
Работает отлично. Я был бы признателен за критику. Если я что-то пропустил.
Ответ 4
При использовании измененной карты для memoization следует иметь в виду, что это вызовет типичные проблемы concurrency, например. делать, когда запись еще не завершена. Тем не менее, потокобезопасная проверка memoization предлагает сделать это с небольшим значением, если нет.
Следующий потокобезопасный код создает memoized функцию fibonacci
, инициирует пару потоков (от "a" до "d" ), которые совершают вызовы. Попробуйте код пару раз (в REPL), можно легко увидеть, что f(2) set
печатается несколько раз. Это означает, что поток A инициировал вычисление f(2)
, но Thread B полностью не знает об этом и запускает собственную копию расчета. Такое незнание настолько распространено на фазе построения кэша, потому что все потоки не видят никакого дополнительного решения и будут входить в предложение else
.
object ScalaMemoizationMultithread {
// do not use case class as there is a mutable member here
class Memo[-T, +R](f: T => R) extends (T => R) {
// don't even know what would happen if immutable.Map used in a multithreading context
private[this] val cache = new java.util.concurrent.ConcurrentHashMap[T, R]
def apply(x: T): R =
// no synchronized needed as there is no removal during memoization
if (cache containsKey x) {
Console.println(Thread.currentThread().getName() + ": f(" + x + ") get")
cache.get(x)
} else {
val res = f(x)
Console.println(Thread.currentThread().getName() + ": f(" + x + ") set")
cache.putIfAbsent(x, res) // atomic
res
}
}
object Memo {
def apply[T, R](f: T => R): T => R = new Memo(f)
def Y[T, R](F: (T => R) => T => R): T => R = {
lazy val yf: T => R = Memo(F(yf)(_))
yf
}
}
val fibonacci: Int => BigInt = {
def fiboF(f: Int => BigInt)(n: Int): BigInt = {
if (n <= 0) 1
else if (n == 1) 1
else f(n - 1) + f(n - 2)
}
Memo.Y(fiboF)
}
def main(args: Array[String]) = {
('a' to 'd').foreach(ch =>
new Thread(new Runnable() {
def run() {
import scala.util.Random
val rand = new Random
(1 to 2).foreach(_ => {
Thread.currentThread().setName("Thread " + ch)
fibonacci(5)
})
}
}).start)
}
}
Ответ 5
В дополнение к ответам Landei, я также хочу предположить, что возможен снимок (не memoization) для DP в Scala, а основной идеей является использование foldLeft
(s).
Пример вычисления чисел Фибоначчи
def fibo(n: Int) = (1 to n).foldLeft((0, 1)) {
(acc, i) => (acc._2, acc._1 + acc._2)
}._1
Пример для самой длинной возрастающей подпоследовательности
def longestIncrSubseq[T](xs: List[T])(implicit ord: Ordering[T]) = {
xs.foldLeft(List[(Int, List[T])]()) {
(memo, x) =>
if (memo.isEmpty) List((1, List(x)))
else {
val resultIfEndsAtCurr = (memo, xs).zipped map {
(tp, y) =>
val len = tp._1
val seq = tp._2
if (ord.lteq(y, x)) { // current is greater than the previous end
(len + 1, x :: seq) // reversely recorded to avoid O(n)
} else {
(1, List(x)) // start over
}
}
memo :+ resultIfEndsAtCurr.maxBy(_._1)
}
}.maxBy(_._1)._2.reverse
}