Профилирование выделений памяти
ClickHouse использует jemalloc в качестве глобального аллокатора. Jemalloc предоставляет инструменты для сэмплирования и профилирования выделений памяти.
Чтобы сделать профилирование выделений более удобным, ClickHouse и Keeper позволяют управлять сэмплированием с помощью конфигурационных файлов, настроек запроса, команд SYSTEM и четырёхбуквенных (4LW) команд в Keeper.
Кроме того, сэмплы могут записываться в таблицу system.trace_log с типом JemallocSample.
Это руководство применимо к версиям 25.9 и новее. Для более старых версий см. раздел профилирование выделений для версий до 25.9.
Сэмплирование выделений памяти
Если вы хотите выполнять сэмплирование и профилирование выделений памяти в jemalloc, необходимо запускать ClickHouse/Keeper с включённой настройкой конфигурации jemalloc_enable_global_profiler.
jemalloc будет выборочно отслеживать выделения памяти и сохранять эту информацию во внутренних структурах.
Вы также можете включить профилирование выделений памяти по каждому запросу с помощью настройки jemalloc_enable_profiler.
Поскольку ClickHouse — приложение с интенсивным использованием выделения памяти, выборочное отслеживание jemalloc может привести к дополнительным накладным расходам и снижению производительности.
Хранение выборок jemalloc в system.trace_log
Вы можете хранить все выборки jemalloc в system.trace_log с типом записи JemallocSample.
Чтобы включить это глобально, используйте параметр конфигурации jemalloc_collect_global_profile_samples_in_trace_log.
Поскольку ClickHouse — приложение с большим количеством операций выделения памяти, сбор всех сэмплов в system.trace_log может привести к значительной нагрузке.
Вы также можете включить это для отдельного запроса, используя настройку jemalloc_collect_profile_samples_in_trace_log.
Пример анализа использования памяти запросом с помощью system.trace_log
Сначала нам нужно выполнить запрос с включённым профилировщиком памяти jemalloc и собрать для него сэмплы в system.trace_log:
Если ClickHouse был запущен с jemalloc_enable_global_profiler, вам не нужно включать jemalloc_enable_profiler.
То же самое относится к jemalloc_collect_global_profile_samples_in_trace_log и jemalloc_collect_profile_samples_in_trace_log.
Очистим system.trace_log:
и выполним к нему запрос, чтобы получить использование памяти нашим запросом в каждый момент времени:
Мы также можем найти момент времени, когда использование памяти было максимальным:
Мы можем использовать этот результат, чтобы увидеть, откуда происходило больше всего активных выделений памяти в тот момент времени:
Сброс профилей кучи
По умолчанию файл профиля кучи создаётся в /tmp/jemalloc_clickhouse._pid_._seqnum_.heap, где _pid_ — это PID ClickHouse, а _seqnum_ — глобальный порядковый номер для текущего профиля кучи.
Для Keeper файл по умолчанию — /tmp/jemalloc_keeper._pid_._seqnum_.heap и подчиняется тем же правилам.
Вы можете попросить jemalloc сбросить текущий профиль, выполнив:
- ClickHouse
- Keeper
Команда вернёт путь к сброшенному профилю.
Другое местоположение можно задать, дополнив переменную окружения MALLOC_CONF опцией prof_prefix.
Например, если вы хотите генерировать профили в каталоге /data, где префиксом имени файла будет my_current_profile, вы можете запустить ClickHouse/Keeper со следующей переменной окружения:
К префиксу имени сгенерированного файла будут добавлены PID и порядковый номер.
Анализ профилей кучи
После того как профили кучи были сгенерированы, их необходимо проанализировать.
Для этого можно использовать инструмент jemalloc под названием jeprof. Его можно установить несколькими способами:
- С помощью системного менеджера пакетов
- Клонировать репозиторий jemalloc и запустить
autogen.shиз корневого каталога. В результате в каталогеbinпоявится скриптjeprof.
Существует множество различных форматов, которые можно получить из профиля кучи с помощью jeprof.
Вы можете запустить jeprof --help, чтобы получить информацию об использовании и о различных опциях, которые предоставляет этот инструмент.
Символизированные профили кучи
Начиная с версии 26.1+ ClickHouse автоматически генерирует символизированные профили кучи при выполнении команды SYSTEM JEMALLOC FLUSH PROFILE.
Символизированный профиль (с расширением .symbolized) содержит встроенные символы функций и может анализироваться с помощью jeprof без необходимости в исполняемом файле ClickHouse.
Например, при выполнении:
ClickHouse вернёт путь к символизированному профилю (например, /tmp/jemalloc_clickhouse.12345.0.heap.symbolized).
Затем вы можете напрямую проанализировать его с помощью jeprof:
Бинарный файл не требуется: При использовании символизированных профилей (файлы .symbolized) вам не нужно указывать путь к бинарнику ClickHouse для jeprof. Это значительно упрощает анализ профилей на разных машинах или после обновления бинарного файла.
Если у вас есть старый несимволизированный профиль кучи и по-прежнему есть доступ к бинарному файлу ClickHouse, вы можете использовать традиционный подход:
Для несимволизированных профилей jeprof использует addr2line для генерации стек-трейсов, что может работать очень медленно.
В таком случае рекомендуется установить альтернативную реализацию этого инструмента.
В качестве альтернативы можно использовать llvm-addr2line — он работает не хуже (но обратите внимание, что llvm-objdump не совместим с jeprof).
После этого используйте его следующим образом: jeprof --tools addr2line:/usr/bin/llvm-addr2line,nm:/usr/bin/llvm-nm,objdump:/usr/bin/objdump,c++filt:/usr/bin/llvm-cxxfilt
При сравнении двух профилей вы можете использовать аргумент --base:
Примеры
Использование символизированных профилей (рекомендуется):
- Создайте текстовый файл, в котором каждая процедура указана в отдельной строке:
- Сгенерируйте PDF-файл с графом вызовов:
Использование несиволизированных профилей (требуется бинарник):
- Сгенерируйте текстовый файл, в котором каждая процедура указана в отдельной строке:
- Создайте PDF-файл с графом вызовов:
Построение flame-графа
jeprof позволяет получать свернутые стеки вызовов для построения flame-графов.
Для этого следует использовать аргумент --collapsed:
Или с профилем без символов:
После этого вы можете использовать различные инструменты для визуализации свернутых стеков.
Самый популярный из них — FlameGraph, который содержит скрипт flamegraph.pl:
Еще один полезный инструмент — speedscope, который позволяет более интерактивно анализировать собранные стеки.
Дополнительные параметры профилировщика
У jemalloc есть множество параметров, относящихся к профилировщику. Ими можно управлять, изменяя переменную окружения MALLOC_CONF.
Например, интервал между выборками операций выделения памяти можно контролировать с помощью lg_prof_sample.
Если вы хотите создавать дамп профиля кучи каждые N байт, вы можете включить это с помощью lg_prof_interval.
Рекомендуется ознакомиться со справочной страницей jemalloc для получения полного перечня параметров.
Другие ресурсы
ClickHouse/Keeper предоставляют метрики, связанные с jemalloc, множеством разных способов.
Важно понимать, что ни одна из этих метрик не синхронизирована с другими, и значения со временем могут расходиться.
Системная таблица asynchronous_metrics
Системная таблица jemalloc_bins
Содержит информацию о выделении памяти, выполненном через аллокатор jemalloc в разных классах размеров (bins), агрегированную по всем аренам.
Prometheus
Все метрики, связанные с jemalloc из asynchronous_metrics, также доступны через конечную точку Prometheus как в ClickHouse, так и в Keeper.
Команда jmst 4LW в Keeper
Keeper поддерживает команду jmst 4LW, которая возвращает базовую статистику аллокатора: