Каковы некоторые очевидные оптимизации для виртуальной машины, реализующей функциональный язык?

Я работаю над промежуточным языком и виртуальной машиной для запуска функционального языка с несколькими "проблемными" свойствами:

Промежуточный язык основан на стеке, с простой хэш-таблицей для текущего пространства имен. Просто чтобы вы поняли, как это выглядит, здесь McCarthy91:

Наряду с sto, rcl и намного больше, есть три инструкции для вызовов функций:

Реализация действительно проста. Чтобы дать вам лучшую идею, вот только случайный фрагмент из середины "большой петли" (обновленный, см. Ниже)

Проблема заключается в следующем: вызов McCarthy91 16 раз со значением -10000 занимает почти не изменится, 3 секунды (после оптимизации глубокой копии, которая добавляет почти секунду).

Мой вопрос: каковы некоторые общие методы оптимизации интерпретации этого языка? Есть ли плохие фрукты?

Я использовал срезы для своих списков (аргументы, различные стеки, срез карт для пространств имен,...), поэтому я делаю такие вещи повсюду: call_stack[:len(call_stack) - 1]. Прямо сейчас, я действительно не знаю, какие фрагменты кода делают эту программу медленной. Любые советы будут оценены, хотя я в основном ищу общие стратегии оптимизации.

Я могу немного сократить время выполнения, обойдя мои соглашения о вызовах. Команда list <n> извлекает n аргументов стека и вытаскивает их список в стек, команда args выкидывает этот список и отталкивает каждый элемент обратно в стек. Это, во-первых, проверка того, что функции вызываются с правильным количеством аргументов, а во-вторых, чтобы иметь возможность вызывать функции с переменными аргументами-списками (т.е. (defun f x:xs)). Удалив это, а также добавив команду sto* <x>, которая заменяет sto <x>; rcl <x>, я могу получить ее до 2 секунд. Все еще не блестящий, и я должен иметь этот бизнес list/args в любом случае.:)

Другой в стороне (это длинный вопрос, который я знаю, извините):

Профилирование программы с помощью pprof мне очень мало (я новичок в Go, если это не очевидно):-). Это верхние 3 элемента, о которых сообщает pprof:

После внедрения компилятора lexer, parser и bytecode скорость немного снизилась, но не так уж и страшно. Вычисление MC (-10000) 16 раз позволяет оценить 4,2 миллиона инструкций байт-кода за 1,2 секунды. Здесь образец кода, который он генерирует (из this).

Ответы

Ответ 1

Есть исследования, посвященные десятилетиям, которые вы можете оптимизировать:

Реализация функциональных языков: учебник, Саймон Пейтон Джонс и Дэвид Лестер. Опубликовано Prentice Hall, 1992.
Практические основы для языков программирования, Роберт Харпер

Ответ 2

У вас должны быть эффективные алгоритмические представления для различных понятий вашего переводчика. Выполнение глубоких копий на хэш-таблице выглядит ужасной идеей, но я вижу, что вы уже удалили это.

(Да, ваша операция стека с использованием массивов массивов выглядит подозрительно. Вы должны убедиться, что они действительно имеют ожидаемую алгоритмическую сложность, или же использовать выделенную структуру данных (... стек). Я вообще опасаюсь используя структуру данных всех целей, такую как списки Python или хеш-таблицы PHP для этого использования, потому что они не обязательно предназначены для эффективного использования этого конкретного случая использования, но может быть, что срезы гарантируют O (1) толкание и всплывающие затраты при всех обстоятельства.)

Лучший способ обрабатывать среды, если они не нуждаются в переопределении, заключается в использовании числовых индексов вместо переменных (индексы де Брейна (0 для последней переменной) или уровни Bruijn (0 для сначала связанная с переменной). Таким образом, вы можете сохранить только динамически измененный массив для среды и получить доступ к нему очень быстро. Если у вас есть первоклассные закрытия, вам также потребуется захватить среду, которая будет более дорогостоящей: у вас есть скопировать часть ее в выделенную структуру или использовать не изменяемую структуру для всей среды. Только эксперимент скажет, но мой опыт заключается в том, что переход на быструю изменчивую структуру среды и более высокую стоимость строительства закрытия лучше чем иметь неизменную структуру с большим количеством бухгалтерии все время, конечно, вы должны сделать анализ использования, чтобы фиксировать только необходимые переменные в ваших закрытиях.

Наконец, как только вы искорените источники неэффективности, связанные с вашими алгоритмическими выборами, горячая область будет:

сбор мусора (определенно сложная тема, если вы не хотите стать экспертом по GC, вам следует серьезно подумать о повторном использовании существующей среды исполнения); вы можете использовать GC вашего языка хоста (выделение кучи в вашем интерпретируемом языке переведено в распределение кучи на вашем языке реализации с одинаковым сроком службы), это неясно в приведенном фрагменте кода; эта стратегия превосходна, чтобы получить что-то разумно эффективное простым способом.
реализация численных показателей; есть все виды хаков, чтобы быть эффективными, когда целые числа, которыми вы управляете, на самом деле малы. Лучше всего повторить работу людей, которые вложили массу усилий в это, поэтому я настоятельно рекомендую вам повторно использовать библиотеку GMP. Кроме того, вы также можете повторно использовать поддержку хост-языка для bignum, если у него есть некоторые, в вашем случае Go math/big.
низкоуровневый дизайн вашего цикла интерпретатора. На языке с "простым байткодом", таким как ваш (каждая инструкция байткода переведена в небольшое количество нативных инструкций, в отличие от сложных байт-кодов, имеющих высокоуровневую семантику, таких как байт-код Parrot), фактический "цикл и отправка на байт-коды" "код может быть узким местом. Было проведено довольно много исследований о том, как лучше всего писать такие циклы отправки байт-кода, чтобы избежать каскада if/then/else (таблицы перехода), извлечь выгоду из предсказания ветвления процессора хоста, упростить поток управления и т.д. Это называется threaded code и существует много (довольно простых) разных методов: прямая резьба, непрямая резьба... Если вы хотите посмотреть в некоторых исследованиях, например, работа Антона Эртля, Структура и эффективность эффективных интерпретаторов в 2003 году, а затем Контекстная резьба: гибкий и эффективный метод отправки для интерпретаторов виртуальных машин. Преимущества этих методов, как правило, достаточно чувствительны к процессору, поэтому вы должны сами тестировать различные возможности.

В то время как работа STG интересна (и книга Пейтона-Джонса по внедрению языка программирования превосходна), она несколько ориентирована на ленивую оценку. Что касается дизайна эффективного байт-кода для строгих функциональных языков, то я имею в виду работу Xavier Leroy 1990 на машине ZINC: Эксперимент ZINC: экономичная реализация языка ML, которая была новаторской работой для реализации языков ML и по-прежнему используется в реализации языка OCaml: есть как байт-код, так и собственный компилятор, но байт-код по-прежнему использует прославленную машину ZINC.