Bog BOS: Файловая система btrfs

Последние изменения:
2025.01.24: sysadmin: rsyslog (статья и пример центрального коллектора переработаны)
2024.11.22: sysadmin: systemd-journald (централизованное хранение)

Последнее изменение файла: 2019.04.29
Скопировано с www.bog.pp.ru: 2025.11.07

Bog BOS: Файловая система btrfs

Файловая система btrfs типа CoW (Copy on Write, новая версия данных записывается в свободное место) была инициирована Oracle под GPL (после покупки Sun Microsystems у Oracle есть ZFS под CDDL). Дано обещание не ломать (обеспечивать совместимость снизу вверх) формат хранения после ядра 2.6.31. Основные цели - устойчивость к сбоям, выявление ошибок на диске и восстановление данных. Максимальный размер файловой системы - 16 EiB, файла - 8 EiB (ограничивается ядром Linux), максимальное количество файлов - 2^64, максимальная длина имени файла - 255 байт. Времена с точностью до наносекунды. Расширенные атрибуты POSIX и ACL.

Основные понятия

Основан на B-деревьях, адаптированных к CoW и снимкам, которые используются для хранения объектов всех типов. Идентификатор объекта - 64 бита, ключ - 136 бит (идентификатор, тип - 8 бит, дополнительные данные - 64 бита). Корневое дерево (идентификатор 1) указывает на корни всех остальных деревьев (идентификаторы менее 256): дерево файловой системы (идентификатор 5) указывает на каждый подтом (идентификаторы от 256), дерево журналов (для ускорения fsync), дерево экстентов, дерево контрольных сумм, дерево устройств (отображение физических адресов в логические), дерево кусков (chunk, отображение логических адресов в физические). Для каждого файла (каталога) хранится inode (ACL и расширенные атрибуты хранятся отдельно). Файловая система, устройства и куски имеют уникальные UUID. Системные данные (корневое дерево, дерево устройств, дерево кусков, дерево экстентов) всегда дублируются. Суперблок содержит физические адреса кусков, содержащих системные данные, хранятся 4 копии суперблока со смещениями 64KiB, 64MiB, 256GiB, 1PiB (при изменениях записывается номер поколения).

CoW - новые и изменённые данные записываются в свободное место, не затирая старых данных. Каждые 30 секунд (commit) автоматически формируется новый корень файловой системы в качестве точки отката при сбоях или ошибках, так что потеря данных не должна превышать 30 секунд (см. nobarrier ниже). При этом текущий номер поколения (generation) увеличивается на 1. CoW обеспечивает журналирование данных (а не только метаданных) без удвоения объёма записи (точнее говоря атомарность транзакций по изменению данных). Может быть отключено (рекомендуется для БД и образов виртуальных дисков - иначе они фрагментируются на миллионы кусочков) при монтировании (nodatacow) или пофайлово ("chattr +C имя-файла").

btrfs может быть создана над несколькими блочными устройствами с отдельным заданием типа распределения метаданных и данных: single (большие куски (chunk) файла на одном устройстве, использовать в случае устройств разного размера), raid0 (экстенты распределяются между устройствами), raid1 (экстенты копируются на 2 устройства; если устройство только одно, то на нём создаются 2 копии - DUP), raid10 (сначала заполняется первое устройство), raid5 и raid6 (с ядра 3.9, недоделано в 3.19); по умолчанию, метаданные копируются на 2 устройства (raid1), данные распределяются между устройстваи (raid0). Копий делается не более 2. Копирование и распределение делается на уровне больших кусков (chunk), не файлов и не экстентов, остальные программы видят только одну логическую копию. Блочные устройства можно добавлять и удалять без размонтирования (расширение btrfs из 10 дисков ST1000528AS в raid10 до 12 raid10, FC 4Gb в режиме ptp ("badblocks -n" даёт 4.4 Gbps в обе стороны против 4 Gbps в режиме кольца), занято 1ТБ - 2 часа; удаление 1 диска, освободилась сразу пара - 6 часов), имеется возможность преобразования типа RAID и балансировки используемого места. Маленькие файлы хранятся среди метаданных (в листьях, по умолчанию 8192 байта). Обещается выделенное устройство для метаданных.

Свободное место выделяется для данных и метаданных большими кусками (chunk) из общего пула. Размер свободного места в btrfs - сложный вопрос: из пула свободного места при необходимости выделяются сегменты дисковых секторов (все указатели на экстенты работают с сегментными адресами вместо физических дисковых, что позволяет эффективно перемещать сегменты между дисками) для метаданных (по 256MB) и для данных (по 1GB) с учётом уровня RAID. Команда du показывает размер файла до сжатия без учёта метаданных (снимки учитываются дважды); команда df показывает общее доступное место и занятое место с учётом метаданных, свободное место для этой точки монтирования без учёта сжатия и уровня RAID; команда "btrfs filesystem df точка-монтирования" показывает с учётом уровня RAID выделенное место и использованное в выделенном для данных и метаданных и системы; команда "btrfs filesystem show устройство" показывает общее занятое место, имеющееся и занятое место на каждом блочном устройстве; команда "btrfs filesystem usage точка-монтирования" показывает более подробную информацию.

Команда cp имеет ключ "--reflink[=always]", который позволяет копировать файлы без увеличения используемого дискового пространства до изменения копии.

Имеется утилита дефрагментирования в фоновом режиме (ядро 3.0). Дефрагментирование файловой системы со снимками и reflink может умножить занятое место (до 3.9).

Нет подсчёта количества файлов (не работает "df -i") и резервирования места под inode.

Хранение данных экстентами (грануляция по умолчанию 4КиБ, максимальный размер - 128 КиБ).

Встроенная возможность делать снимки (слепки, snapshot), в режиме только для чтения (используйте noatime!) и без ограничений (альтернативная версия), до ? снимков. Режим может быть изменён "на ходу". Снимки не замедляют работу. Также имеются подтома (поддеревья) с возможностью их отдельного монтирования. Тома (снимки) образуют иерархию. Подтом или снимок тома (или подтома) выглядит как обычный каталог в томе верхнего уровня (нельзя удалить пока не удалишь подтом или снимок). Можно объявить корень подтома или снимка точкой монтирования по умолчанию. При монтировании можно указать явно корень подтома или снимка корнем монтируемой файловой системы. Перемещение с одного подтома на другой - это реальное перемещение с диска на диск, но пространство выделяется из общего пула (chunk). Снимки разделяют используемое место для одинаковых файлов с исходным томом и другими его снимками. Для свободной работы со снимками рекомендуется не иметь на верхнем уровне ничего, кроме каталогов подтомов и снимков, и монтировать подтом, а не корень. Это позволит при необходимости смонтировать вместо подтома снимок, а том удалить.

Создание, хранение и проверка контрольных сумм для данных (отключаемо, для экстента и блока) и метаданных (crc32c, зарезервировано 256 бит для метаданных и 4КиБ для данных). Правильное значение может браться из второй копии; неправильное значение исправляется, начиная с версии ?, ранее можно было лишь скопировать и удалить файл.

Сжатие данных с помощью алгоритмов lzo и zlib (level 3), грануляция поэкстентная (ключи монтирования или "chattr +c" перед записью), с учётом сжимаемости и без. Обещаны snappy и LZ4. Отключается для прямого ввода/вывода (DirectIO, DIO) и NOCOW. Сжатие производится не постранично(4 КиБ), целым экстентом (128 КиБ), чтобы прочитать байт необходимо декомпрессировать весь экстент, а чтобы поменять байт в середине экстента, его надо переписать целиком. zlib в режиме потока с общим словарём на экстент, lzo сжимает каждую страницу (?) отдельно. Тестирование уровня сжатия на всём корпусе данных (16.2 TB):

btrfs zlib-force - 2.69
gzip -1 - 2.81
gzip -9 - 2.92
xz -1 - 3.35
xz --lzma2=preset=9,dict=200MiB,nice=273 - 3.97

Фоновый процесс поблочного сканирования (только занятые блоки) и исправления ошибок (ядро 3.1).

Проверка структуры (fsck) пока в размонтированнолм состоянии (обещают в фоновом режиме).

Квотирование места, занимаемого подтомом (снимком) - не пользователем или группой пользователей. Иерархия квот.

Поддержка синхронизации с удалённым зеркалом (send, receive).

Обещана дедупликация во время записи, сейчас имеется дедупликация после записи

duperemove: поэкстентно, ядро 3.13 (btrfs-extent-same ioctl), попробовал в RHEL 7.0: не знаю экономится ли место, но время модификации файлов покорёжено несмотря на режим "только чтение", как сочетать со снимками непонятно, собрал немного статистики
bedup: пофайлово, ядро 3.3 или 3.6 для дедупликации между томами, python 2.7 и "ещё одна" система пакетирования - не стал пробовать

/sys/fs/btrfs (ядро 3.14).

Пользоваться с осторожностью - падает под большой нагрузкой (до RHEL 6.4 - совсем неживая), вывел из экспплуатации в 2015:

До ядра 3.4 при обнаружении малейшей ошибки ядро уходило в kernel panic, теперь файловая система перемонтируется в режим только чтения.
Основной проблемой является необоснованное сообщение о нехватке места ("__btrfs_free_extent ... No space left") и аварийном завершении транзакции, при этом иногда следующий файл спокойно записывается, а иногда файловая система переводится в read-only; подобрал параметры для уменьшения вероятности явления - сборка с "skinny-metadata,^extref" и монтирование с "noatime,nodiratime,compress-force=zlib,clear_cache,nospace_cache,enospc_debug,nossd,flushoncommit,commit=15" (или наоборот 60?); не помогает при интенсивной записи во время перестроения массива или выполнении scrub (CentOS 7.2)
btrfsck фактически является заглушкой (до утилит 3.18 ещё и вредной).
Проблемы с multipath. btrfs путает блочные устройства с их составными частями (multipath, LVM).
Проблемы с bcache.
Проблемы с монтированием по метке (рекомендуют "mknod /dev/btrfs-control c 10 234; btrfs device scan" в initrd).
Не может хранить swap файлы (даже с nodatacow).
При обычном завершении буфера на iSCSI не успели сброситься до остановки сети (CentOS65).
При удалении устройства (использовал remove-single-device) журнал заполняется сообщениями о неверных
mkfs.btrfs не проверяет перед созданием, что на разделе что-то уже есть (в новых версиях проверяет наличие btrfs).
Лечение raid1 также в светлом будущем, сейчас надо вывести диск из эксплуатации, починить (заменить) диск, добавить новый (чиненный) диск в файловую систему.
Временами (CentOS6) btrfs переход в однопоточный режим (особенно заметно, если монтировать с ключом thread_pool), после чего скорость ограничивается возможностями одного ядра по сжатию или декомпрессии, для возвращения в нормальный режим требуется размонтировать файловую систему и выгрузить модуль btrfs.
Нельзя создавать снапшоты на уже существующий каталог (CentOS6), т.е. создаёт, но внутри каталога, а система падает при удалении.
Обнаружились файлы различного содержания с одинаковыми inode (результат создания снимков). В частности, гарантированно создаются при попытке "rsync --inplace". При этом сервер временами перезагружается с сообщением "kernel BUG at fs/btrfs/ctree.c:2774" (CentOS 65). При экспорте такой файловой системы по NFS получается несколько разных файлов с одинаковыми fsid/inode.
Куда-то пропал (CentOS64) /dev/btrfs-control ("mknod /dev/btrfs-control c 10 234")
забывает блокировку? при обращении к файлам программа зависает в ожидании в/в, но никакого в/в к устройству нет

mount -o remount во время rsync

cat /proc/27619/stack
[] call_rwsem_down_write_failed+0x13/0x20
[] do_mount+0x2fc/0xa40
[] SyS_mount+0x96/0xf0
[] system_call_fastpath+0x16/0x1b
[] 0xffffffffffffffff

cat /proc/18025/stack
[] btrfs_async_run_delayed_refs+0x11f/0x150 [btrfs]
[] __btrfs_end_transaction+0x1ff/0x380 [btrfs]
[] btrfs_end_transaction+0x10/0x20 [btrfs]
[] btrfs_unlink+0x6f/0xa0 [btrfs]
[] vfs_unlink+0xe1/0x150
[] do_unlinkat+0x26e/0x2b0
[] SyS_unlink+0x16/0x20
[] system_call_fastpath+0x16/0x1b
[] 0xffffffffffffffff

Создание файловой системы

Ключи mkfs.btrfs (создаётся мгновенно, до RHEL 7 не проверяет, что место занято):

--data {single | raid0 | raid1 | raid10 | raid5 | raid6}
--metadata {single | raid0 | raid1 | raid10 | raid5 | raid6 | dup}
--byte-count размер-файловой-системы # всё место на блочном устройстве
--alloc-start смещение-начала-файловой-системы # 0
--force # не обращать внимания, что место занято
--nodesize байт # размер блока метаданных; до ядра 3.4 не мог отличаться от размера страницы, с ядра 3.4 - до 64КиБ; по умолчанию был равен размеру страницы памяти, с версии утилит 3.12 и ядра 3.4 - 16384 (при этом btrfs-show-super выдаёт BIG_METADATA в списке несовместимых флагов, ядро 3.10); должен быть кратен размеру сектора, не более 65536; если размер файла менее leafsize-148, то данные поместятся среди метаданных
--leafsize # устарело, используйте --nodesize
--sectorsize байт # по умолчанию - размер страницы (4КиБ); не должен быть меньше физического блока; единица выделения свободного пространства для области данных
--mixed # смешивать куски (chunk) данных и метаданных, для маленьких файловых систем
--label метка # до 256 байт
--nodiscard # не использовать TRIM и Discard
--features опция # могут быть проблемы со старыми ядрами, полный список можно получить "mkfs.btrfs -O list-all"
- mixed-bg # --mixed ?
- extref # по умолчанию с версии утилиты 3.12, до 65536 ссылок на inode внутри каталога (было менее 350 при листьях в 4КиБ), ядро 3.7
- raid56
- skinny-metadata # ядро 3.9, по умолчанию для утилиты 3.18; сокращённый размер метаданных (другой формат на диске) - 30% от размера дерева экстентов
- no-holes # ядро 3.14, утилиты 3.18.1; другой формат на диске
- big_metadata # ядро 3.4, nodesize больше размера страниц памяти

Монтирование файловой системы

Опции монтирования (в качестве устройства указать одно из блочных устройств, парные опции с/без no- в ядре 3.14):

degraded (позволяет монтировать файловую систему при отказе одного из блочных устройств)
recovery (ядро 3.2; автоматическое восстановление со сканированием подходящих предыдущих корней)
rescan_uuid_tree (ядро 3.12)
subvol=имя-подтома (монтирование поддерева; до ядра 3.2 подтом д.б. в корне)
subvolid=идентификатор-подтома (монтирование поддерева; корень имеет идентификатор 5)
device=устройство (сканировать устройство в поисках томов btrfs; только сканировать! перечислить все устройства в /etc/fstab, если initrd не выполняет "btrfs device scan")
nodatasum (для новых файлов; не обрабатывать контрольные суммы для данных)
nodatacow (для новых файлов; ускорение - 5% на последовательных операциях, значительное ускорение при работе с базами данных, также отключается сжатие и подсчёт контрольных сумм)
nobarrier (возможно разрушение всей файловой системы, а fsck примитивен; многодисковость учитывается с ядра 3.2)
max_inline=байт (максимальный размер данных, встраиваемых непосредственно в метаданные; по умолчанию 8192; для 4К страниц = 3900)
alloc_start= (начало выделения места на диске?)
thread_pool=число-параллельных-потоков (по умолчанию - min(количество-ядер+2,8), при использовании сжатия обязательно увеличить)
compress[=zlib|=lzo|=no] (lzo с ядра 2.6.39; no с ядра 3.6)
compress-force[=zlib|=lzo] (сжимать даже плохосжимаемые файлы)
zlib
ssd (оптимизация выделения блоков для SSD - сразу для всех устройств? автоматически проверяет /sys/block/*/queue/rotational; TRIM надо включать отдельно)
nossd
ssd_spread (попытка выделять большими кусками; приводит к усиленной фрагментации)
discard (выдавать команды TRIM/discard при освобождении блоков; замедлит работу для SATA до 3.1; вместо этого можно переодически использовать fstrim)
noacl
notreelog (в теории дерево журналов уменьшает количество операций записи метаданных при fsync, но на практике без него случайная запись больших файлов ускоряется в 5 раз для ядер до 3.0.2; если программа полагалась на fsync, то возможны проблемы)
flushoncommit (при завершении транзакции осуществлять все отложенные выделения блоков; в новых ядрах включено по умолчанию)
metadata_ratio=8 (распределение места на данные и метаданные было (?) фиксированно и если место под метаданные заканчивалось, а под данные - нет, то надо было поставить число поменьше; необходимо учитывать степень сжатия)
space_cache (хранение битовой карты свободного места на диске (без CoW и контрольной суммы), размонтирование больше времени, с 2.6.37, неустойчиво работает в RHEL7, ядро 3.10)
clear_cache (если ранее использовался space_cache и хотим от него избавиться, с 2.6.37)
nospace_cache (с ядра 3.2; вычислять битовую карту свободного места при монтировании - 10 минут)
enospc_debug (выдать отладочную печать при возникновении события "недостаток места на устройстве"; рекомендуется, не замедляет работу)
user_subvol_rm_allowed (позволять пользователям удалять подтома, с ядра 2.6.37)
autodefrag (запуск фоновой дефрагментации, несовместим с большими БД и образами виртуальных машин, с 3.0)
inode_cache (кешировать свободные inode, с 3.0; не рекомендуется, пока число inode не достигнет 2^64; обычное поведение - добавлять 1 для каждого нового файла, использованный inode повторно не использовать
check_int, check_int_data, check_int_print_mask=маска (ядро 3.3; проверка метаданных на ходу; замедляет работу, использовать только для отладки)
commit=секунд (30; с ядра 3.12; интервал сброса кеша записи на диск и формирования "точки отката" на случай сбоев и ошибок)
fatal_errors={bug|panic} (с ядра 3.4; хрен редьки не слаще)
skip_balance (с ядра 3.3; не возобновлять балансировку)

Не надо провоцировать запуск fsck в /etc/fstab, поставьте в конце строки "0 0".

Утилита управления btrfs

Утилита btrfs позволяет манипулировать файловыми системами ("btrfs help --full")

btrfs version
btrfs help [--full]
btrfs device scan [--all-devices] [устройство...]# кеширование информации о файловых системах btrfs, выполнять перед монтированием многодисковых файловых систем; рекомендуется запускать в initrd
btrfs device add [--nodiscard] [--force] блочное-устройство ... точка-монтирования # добавить устройство (устройства) к файловой системе
btrfs device delete блочное-устройство ... точка-монтирования # отнять устройство (устройства) у файловой системы, используемые блоки перемещаются на оставшиеся устройства
btrfs device delete missing точка-монтирования # вывести сбоящее устройство из файловой системы; возможно, что придётся монтировать с опцией degraded и добавлять новой устройство
btrfs device ready устройство # проверить, что все составлющие файловую систему устройства в наличии
btrfs device stats [-z] устройство-или-путь # вывести или сбросить счётчики ошибок (ядро 3.5)
btrfs device usage [--iec|--si|--raw| [-k|-m|-g|-t] устройство # более подробная информация об используемом месте, утилита 3.18
btrfs filesystem show [--mounted | --all-devices | блочное-устройство | UUID | метка | путь] # информация о файловых системах btrfs: метка, UUID, занятое место, имеющееся и занятое место на каждом блочном устройстве
btrfs filesystem df [--iec|--si|--raw| [-k|-m|-g|-t] точка-монтирования (выводит тип дублирования данных, имеющееся и занятое место для данных, метаданных и системы (?))
btrfs filesystem usage [--iec|--si|--raw| [-k|-m|-g|-t] точка-монтирования (более подробная информация об используемом месте, утилита 3.18)
btrfs filesystem sync точка-монтирования # синхронизировать копии данных и метаданных, судя по скорости - заглушка
btrfs filesystem defragment [ключи] имя-файла ... (дефрагментирование [и сжатие]; не прерывается? лучше не запускать на устройстве, близком к заполнению); ключи:
- -v # болтливость
- -r # рекурсивно, иначе только файлы в каталоге, но не каталоги
- -c[zlib|lzo] # безусловное сжатие, указание типа в следующей версии
- -f # не откладывать запись на диск и синхронизацию копий
- -s начало-дефрагментируемого-участка
- -l длина-дефрагментируемого-участка
- -t байт # если все сегменты больше указанного числа, то файл считается дефрагментированным
btrfs filesystem resize [устройство:][+|-]размер{k|m|g}|max путь # изменение размера смонтированной фаловой системы
btrfs filesystem label раздел-или-путь [новая-метка] # ядро 3.9
btrfs scrub {start раздел-или-путь | status | cancel раздел-или-путь | resume раздел-или-путь} # чтение всех данных с проверкой контрольных сумм смонтированной файловой системы, ядро 3.0, приоритет idle с ядра 3.5; 2.3 GB/sec (stripe (raid0) над двумя RAID-6 по 18 SAS LFF дисков 4TB 7200rpm на LSI MegaRAID SAS 9266-8i + SSD cache; два одновременно запускать не надо (вымывание кеша)); ключи запуска:
- -c класс-ввода/вывода -n параметр # см. ionice; по умолчанию - класс idle
- -B # не уходить в фоновый режим и вывести статистику по завершению
- -d # отдельная статистика для каждого устройства
- -q # без статистики
- -r # без попыток исправить
- -R # много информации
- -f # запускать даже если имеется запись об уже запущенной задаче
btrfs balance {start | cancel | pause | resume | status} точка-монтирования # перераспределение экстентов по кускам и устройствам после добавления или удаления устройств или смена профиля RAID (ядро 3.3); без размонтирования; не имеет отношения к балансировке дерева, сжатию и пр.; выглядит странно - только запись (100 МБ/сек, убийца SSD), полчаса (2 часа при следующем запуске) на гигабайтный чанк метаданных; resume - не с теми параметрами, с которыми запускал; ключи:
- -v # вывод в syslog
- -d[фильтры] # только блоки данных в соответствии с фильтрами
- -m[фильтры] # только блоки метаданных в соответствии с фильтрами
- -s[фильтры] # только системные блоки в соответствии с фильтрами
- -f # разрешить уменьшить количество копий метаданных
фильтры (через запятую):
- raid0 | raid1 | raid10 | raid5 | raid6 | dup | single
- usage=проценты # участвуют только группы, заполненные менее чем
- devid=идентификатор-устройства
- drange=начало..конец
- convert={raid0 | raid1 | raid10 | raid5 | raid6 | dup | single}
- soft # не конвертировать блоки, которые уже в нужном состоянии
- limit # ?
btrfs replace {start исходное-устройство-или-номер заменяющее-устройство точка-монтирования | status [-1] точка-монтирования | cancel точка-монтирования} # ядро 3.8, замена устройства без размонтирования, если исходное устройство недоступно, то использовать резервные копии, ключи:
- -r # по возможности не обращаться к исходному устройству
- -f # затирать заменяющее устройство даже если там что-то обнаружено
- -B # не уходить в фоновый режим
btrfs subvolume create [-i идентификатор-группы-квотирования] [каталог/]имя-подтома # по умолчанию в текущем каталоге
btrfs subvolume delete {--commit-after | --commit-each} подтом ... # команда без ключей ожидания завершается очень быстро, но место освобождается очень постепенно (при указании ключей ожидания всё равно не дожидается освобождения места), при этом размонтировать файловую систему (т.е. корректно перезагрузиться) невозможно
btrfs subvolume sync путь [идентификатор-подтома] # ждать завершения удаления
btrfs subvolume snapshot [-i идентификатор-группы-квотирования] [-r] точка-монтирования-подтома точка-монтирования-подтома/[каталог/]имя-снимка # -r: только чтение
btrfs subvolume list [опции] [--sort=[+|-]{rootid|gen|ogen|path}] путь-файловой-системы # вывести список подтомов и снимков (идентификатор тома для монтирования, номер поколения, идентификатора тома верхнего уровня, относительный путь), опции:
- -p # выводить идентификатора тома верхнего уровня
- -a # выводить все подтома (?)
- -c # выводить номер поколения в момент создания (нет в RHEL 6)
- -C [+|-]поколение # фильтровать выводимый список по поколению в момент создания (в RHEL 6: -c)
- -g # выводить номер поколениия (нет в RHEL 6)
- -G [+|-]поколение # фильтровать выводимый список по поколению (в RHEL 6: -g)
- -t # выводить в табличном формате
- -s # выводить только снимки
- -r # выводить только тома, закрытые для записи
- -u # выводить UUID
- -q # выводить UUID тома верхнего уровня
btrfs subvolume show путь # вывести информацию о томе или снимке: имя, uuid, uuid тома верхнего уровня, время создания, идентификатор, поколение создания, поколение последнего изменения, идентификатор тома верхнего уровня, флаги, снимки
btrfs subvolume set-default идентификатор точка-монтирования-подтома-или-снимка # монтировать этот подтом или снимок по умолчанию
btrfs subvolume get-default путь-к-файловой-системе # вывести точку монтирования по умолчанию
btrfs subvolume find-new под-том поколение # вывод списка экстентов файлов, изменённых после указанного поколения (inode, смещение, длина, адрес на диске, пколение, флаги (COMPRESS,INLINE), имя файла); например, получение разницы между снимками (без удалений, переименований и прочих мелочей)
```
OLD_TRANSID=`btrfs subvolume find-new "$SNAPSHOT_OLD" 9999999`
OLD_TRANSID=${OLD_TRANSID#transid marker was }
btrfs subvolume find-new "$SNAPSHOT_NEW" $OLD_TRANSID | sed '$d' | cut -f17- -d' ' | sort | uniq
```
btrfs send подтом | ssh хост btrfs receive точка-монтирования # пересылка подтома, ядро 3.6, подтом должен быть только для чтения, подтом должен отсутствовать на приёмном конце, нельзя вносить локальных изменений на приёмном конце, подтом на прииёмном конце закрывается от изменений после пересылки; данные пересылаются в несжатом виде (разжимаются - пересылаются - сжимаются); пересылаются не только данные, но и команды создания, удаления, переименования, изменения атрибутов и т.д., ключи:
- -v[v]
- -e # новый формат (ядро 3.10)
- -p том-верхнего-уровня # посылаются только изменения между томом верхнего уровня и подтомом, можно опустить, если возможно определить по опорному снимку
- -c снимок # опорный снимок, если одинаковы на обоих концах, то вместо пересылки и записи будут использованы данные из опорных снимков; может быть опущен и определён автоматически
- -f имя-файла-хранения
- --max-errors 1
btrfs qgroup # настройки групп квотирования, ядро 3.6:
- create идентификатор-группы-квотирования путь
- destroy идентификатор-группы-квотирования путь
- assign подгруппа группа путь
- remove подгруппа группа путь
- show путь
- limit {размер|none} [идентификатор-группы-квотирования] путь
btrfs quota {enable подтом|disable подтом|rescan подтом} # запуск/останов квотирования; размер уже имевшихся данных не учитывается без rescan; rescan в ядре 3.10
btrfs rescue {chunk-recover | super-recover} [-y] [-v] [-h] устройство # восстановить дерево кусков или суперблок
btrfs inspect-internal inode-resolve [-v] номер путь # определить имя файла по inode
btrfs inspect-internal logical-resolve [-v] [-P] [-s размер-результата] логический-адрес путь # определить имя файла или inode (-P) по логическому адресу
btrfs inspect-internal subvolid-resolve идентификатор путь # определить имя каталога по идентификатору подтома
btrfs inspect-internal rootid путь # определить идентификатор подтома по пути
btrfs restore устройство каталог # восстановить файлы из размонтированной файловой системы в указанный каталог, ключи
- -s # восстанавливать снимки
- -x # восстанавливать расширенные атрибуты
- -v
- -i # игнорировать ошибки
- -o # затирать файлы в указанном каталоге
- -t байт # явное указание корня дерева
- -f байт # явное указание начала файловой системы
- -u номер-суперблока # 0, 1, 2
- -r идентификатор-корня
- -d # ?
- -l # вывести список корней
- --dry-run
- --path-regex регулярное-выражение [-c] # восстанавливать файлы, подпадающие под шаблон
btrfs check [ключи] устройство # вызов btrfsck при размонтированной файловой системе; предварительно рекомендуется испробовать scrub, монтирование с ro,recovery, btrfs-zero-log, btrfs restore; ключи
- --super номер-копии
- --backup # использовать резервную копию корня
- --tree-root байт # явное указание смещения корня
- --init-csum-tree
- --init-extent-tree
- --check-data-csum # долго
- --qgroup-report
- --repair # попытаться восстановить, каталог lost+found; (попытка починить файловую систему (из 26ТБ занято 13ТБ данных и 110 ГБ метаданных): в версии утилиты 3.12 насосал 75GB ОП, показал миллион ошибок и был убит после 30 часов ЦП; версия утилиты 3.18.1 поправила только кеш оставшегося места, потребовала 30 ГБ ОП; в версии утилиты 3.19.1 насосал 180GB ОП (раздел 58ТБ) и был убит oom-killer (быстро за счёт lvmcache)
```
/usr/local/bin/btrfsck  --repair --check-data-csum /dev/mapper/good-x136full
enabling repair mode
Checking filesystem on /dev/mapper/good-x136full
UUID: e984c6f1-431d-47cf-9da2-9c4d36335837
checking extents # читая по 7 МБ/сек до 10 ГБ, затем чтение пошло по 70 МБ/сек
Fixed 0 roots.
checking free space cache
cache and super generation don't match, space cache will be invalidated
checking fs roots # полчаса без чтения, ЦП - 100%, чтение 7 МБ/сек  до 30 ГБ ОП
checking csums # чтение 300 ГБ/сек, молча 12 часов
checking root refs
found 1380129128119 bytes used err is 0
total csum bytes: 13207991564
total tree bytes: 116377309184
total fs tree bytes: 79296180224
total extent tree bytes: 22198173696
btree space waste bytes: 13680619315
file data blocks allocated: 13633639153664
 referenced 33725318455296
Btrfs v3.18.1 
```
btrfs property get [-t subvol|filesystem|inode|device] объект [имя-свойства] # в качестве объекта можно указать файловую систему (ro, label, compression), подтом или снимок(ro, compression), inode (compression, указать имя файла), устройство (не получается указать); свойство compression в RHEL 7.0 не выдаётся
btrfs property list [-t subvol|filesystem|inode|device] объект
btrfs property set [-t subvol|filesystem|inode|device] объект имя-свойства значение # файловая система действительно переводится в режим только чтение и обратно

Сборка и установка утилит btrfs 3.18.1 из исходных пакетов в CentOS 7.0:

установить пакеты kernel-devel, libblkid-devel, libuuid-devel
wget ftp://ftp.pbone.net/mirror/download.fedora.redhat.com/pub/fedora/linux/updates/20/SRPMS/btrfs-progs-3.18.1-1.fc20.src.rpm
rpm -iv /tmp/btrfs-progs-3.18.1-1.fc20.src.rpm
yum install asciidoc
tar -xvf /root/rpmbuild/SOURCES/btrfs-progs-v3.18.1.tar.xz
cd btrfs-progs-v3.18.1
vim utils.c # /root/rpmbuild/SOURCES/btrfs-init-dev-list.patch

make install

install -m755 -d /usr/local/bin
install mkfs.btrfs btrfs-debug-tree btrfsck btrfs btrfs-map-logical btrfs-image btrfs-zero-log btrfs-convert btrfs-find-root btrfstune btrfs-show-super /usr/local/bin
install fsck.btrfs /usr/local/bin
# btrfsck is a link to btrfs in the src tree, make it so for installed file as well
ln -f /usr/local/bin/btrfs /usr/local/bin/btrfsck
install -m755 -d /usr/local/lib
install libbtrfs.so.0.1 libbtrfs.a /usr/local/lib
cp -a libbtrfs.so.0 libbtrfs.so /usr/local/lib
install -m755 -d /usr/local/include/btrfs
install -m644 send-stream.h send-utils.h send.h rbtree.h btrfs-list.h crc32c.h list.h kerncompat.h radix-tree.h extent-cache.h extent_io.h ioctl.h ctree.h btrfsck.h version.h /usr/local/include/btrfs

/usr/local/bin/btrfs --version
```
Btrfs v3.18.1 
```

Сборка утилит btrfs из git:

установить пакеты kernel-devel, libblkid-devel, libuuid-devel
git clone git://git.kernel.org/pub/scm/linux/kernel/git/mason/btrfs-progs.git
cd btrfs-progs
make
make btrfs-select-super
make btrfs-zero-log

btrfs-convert - преобразоватие файловой системы ext2/ext3/ext4 в btrfs на месте.

btrfs-debug-tree - вывод дерева метаданных на stdout ("-r" выдаёт список подтомов, снимков и т.д.).

btrfs-find-root - поиск (медленно) и вывод корней деревьев (фильтр по уровню, поколению).

btrfs-image - сделать образ файловой системы с обнулёнными данными (сжать и отправить разработчикам для отладки).

btrfs-map-logical - физический адрес по логическому (для отладки).

btrfs-show-super - вывести информацию из суперблока (метка, поколение, корень, флаги, размеры блоков и т.д.).

btrfstune - поменять некоторые параметры файловой системы, опрометчиво заданные при создании.

btrfs-zero-log - очистить попорченное дерево журналов, если не получается смонтировать файловую систему (актуальность утеряна).

Тестирование производительности

Тестирование btrfs с помощью bonnie++ (настольная машина, 2 диска ST1000528AS):

bonnie++ 1.03             Sequential Output         Sequential Input    Random 
                    -Per Chr-  -Block-  -Rewrite- -Per Chr-  -Block-   -Seeks- 
Machine        Size K/sec %CP K/sec %CP K/sec %CP K/sec %CP K/sec %CP  /sec %CP
             20000M           107510   7 52049   6           127602  10 410.9   1 ext4 над md RAID1
             20000M           107218   6 51888   6           131864  11 403.7   1 ext4 над md RAID1 без битовой карты
             20000M           120283   7 51758   8           125788  11 384.4   1 btrfs -d/m single над md RAID1
             20000M           227244  13 83197  11           215481  12 383.0   1 btrfs -d/m raid0 над дисками
             20000M           117174   7 46594   6           121916   7 374.8   1 btrfs -d/m raid1 над дисками
             20000M           846256  78 222862  33          325088  19 539.8   3 btrfs -d/m raid1 над дисками, compress=lzo,space_cache

Тестирование на резервное копирование и восстановление (на настольный комптьютер с 2 дисками ST1000528AS и сервер Intel SR2625URLX, дисковая полка из 12 дисков ST31000340NS через FC 4Gb, большой корпус данных местного производства)

сжатие lzo в 1.9 раза при скорости записи 227 MB/s на 2 диска ST1000528AS в raid0, Intel Core i3 540 @ 3.07GHz, 3 потока
сжатие lzo (force) в 2.05 раза при скорости записи 219 MB/s на 2 диска ST1000528AS, Intel Core i3 540 @ 3.07GHz, 3 потока, raid0
сжатие zlib в 1.25 раза при скорости записи 135 MB/s на 2 диска ST1000528AS, Intel Core i3 540 @ 3.07GHz, 3 потока, raid0, слишком многие файлы считаются несжимаемыми
сжатие zlib (force) в 2.56 раза при скорости записи 87 MB/s на 2 диска ST1000528AS, Intel Core i3 540 @ 3.07GHz, 3 потока, raid0, процессор не справляется
сжатие lzo в 2.02 раза при скорости записи 354 MB/s на 12 дисков в raid0, Intel 2625UR, 3 потока, не справляется FC
сжатие lzo в 2.04 раза при скорости записи 214 MB/s на 10 дисков в raid10, Intel 2625UR, 4 потока
"tar -cf - .|dd of=/dev/null bs=1024k" чтение со скоростью 516 MB/s на 12 дисков в raid0, Intel 2625UR
"tar -cf - .|dd of=/dev/null bs=1024k" чтение со скоростью 660 MB/s на 12 дисков в raid0, Intel 2625UR, 2 потока
"tar -cf - .|dd of=/dev/null bs=1024k" чтение со скоростью 653 MB/s на 12 дисков в raid0, Intel 2625UR, 3 потока
"tar -cf - .|dd of=/dev/null bs=1024k" чтение со скоростью 650 MB/s на 10 дисков в raid10, Intel 2625UR, 3 потока, чтение идёт только с 5 дисков
чтение аккуратно уложенных (по очереди) 6 каталогов (по 220GB и 90 тысяч файлов) - 900 MB/s: монтирование - "nodiratime,relatime,nobarrier,compress-force=zlib,notreelog,space_cache,thread_pool=8"; используемое оборудование - двухсокетный сервер на Intel Xeon X5670 (загрузка CPU - 80%); дисковая полка HP MSA 2000g2 (ограничение пропускной способности шины - 5 Gbps); 12 SATA дисков по 2 ТБ; инициализация массива в фоне

Чтение полной фаловой системы (noatime,nobarrier,compress-force=zlib,space_cache; дисковая полка MSA 2000g2 с RAID6 из 12 дисков ST32000640NS через FC 4Gb; 16.3TB, 30 миллионов файлов):

tar при неконтролируемом количестве потоков (при 25 потоках система захлёбывается) - 6 часов, 754 MB/s
tar при 4 потоках (echo *|xargs --max-args=1 --max-procs=4 tardevnull.sh) - 6ч15м (727MB/s)
tar при 6 потоках - 5ч35м (814MB/s)
tar при 10 потоках - 5ч32м (821MB/s)
tar при 12 потоках - 5ч58м (762MB/s)
tracemini (подсчёт контрольных сумм md5 и сбор метаданных) при 12 потоках и буфере 1 МБ - 5ч37м (809MB/s)
tracemini при 12 потоках и буфере 8 МБ - 5ч44м (792MB/s)
перепроверка коллизий md5 (26% объёма) - 3ч50м

Создание архива с помощью btrfs

Сервер архива должен содержать данные разработчиков за значительный срок с возможностью самостоятельного извлечения файлов по состоянию на произвольный день в прошлом. Данные разработчиков хранятся на файловых серверах с доступом по NFS. Общий объём - 50 ТБ (более 100 миллионов файлов), ежедневные изменения - до 2ТБ.

установка CentOS 7.1 (первая версия работает на CentOS 6.4 - при попытке перехода на CentOS 6.5 возникла проблема)

сборка 2 массивов RAID6 по 18 дисков с помощью LSI Logic MegaRAID SAS 9266-8i с CacheVault (контроллер не умеет делать массив из 36 дисков)

# обновить прошивку контроллера и CV
/opt/MegaRAID/storcli/storcli64 /c0 download file=/tmp/mr2208fw.rom
/opt/MegaRAID/storcli/storcli64 /c0 download file=/tmp/TFM_70-25849-04.rom fwtype=2
# параметры контроллера
/opt/MegaRAID/storcli/storcli64 /c0 set coercion=0
/opt/MegaRAID/storcli/storcli64 /c0 set patrolread=off
/opt/MegaRAID/storcli/storcli64 /c0 set perfmode=1
# настройка smartd для извещения о проблемах с диском и zabbix о проблемах с массивами
/opt/MegaRAID/storcli/storcli64 /c0 add vd type=raid6 size=all name=first drives=8:0-17 pdcache=off wb nora direct Strip=64
/opt/MegaRAID/storcli/storcli64 /c0 add vd type=raid6 size=all name=second drives=8:18-23,9:0-11 pdcache=off wb nora direct Strip=64

сборка логического тома поверх 2 массивов

pvcreate /dev/sdc
pvcreate /dev/sdd
vgcreate x134all36 /dev/sdc /dev/sdd
lvcreate --stripes 2 --stripesize 64K --name full --extents +100%FREE x134all36

mkfs.btrfs --data single --metadata single --label time_machine --features ^extref,skinny-metadata /dev/mapper/x134all36-full
mount -o noatime,nodiratime,compress-force=zlib,clear_cache,nospace_cache,enospc_debug /dev/mapper/x134all36-full /time_machine
btrfs subvolume create /time_machine/current
mkdir /time_machine/old
/sbin/btrfs subvolume snapshot /time_machine/current /time_machine/old/`date +%Y%m%d` # по cron ежедневно в 23:59
/time_machine/current обновляется ежедневно с помощью rsync или непрерывно с помощью lsync

Параллельное копирование с зеркала по rsync (ssh), каждый каталог второго уровня - отдельный поток:

обеспечение доступа ssh по ключу

mkdir .ssh
chmod 700 .ssh
vim .ssh/id_rsa # и сконфигурировать на той стороне /root/.ssh/id_rsa.pub
chmod 600 .ssh/id_rsa

настройка ssh-agent в .bash_profile

if [ -z "$SSH_CLIENT" -a -z "$SSH_AUTH_SOCK" ]
then
  eval `ssh-agent`
# ssh-add ~/.ssh/id_rsa # лучше добавлять вручную только тогда когда надо
fi

mkdir rsync # каталог для журналов

bin/getdir_snapshot.sh # один каталог второго уровня

#!/bin/bash

if [ -z "$1" ]
then
  echo empty
  exit
else
DATE=`echo $1|awk -F/ '{print $1}'`
DIR=`echo $1|awk -F/ '{print $2 "/" $3}'`

rsync -e ssh -vas [--compress --compress-level=1] --whole-file --numeric-ids --ignore-errors --delete зеркало:/time_machine/old/$DATE/$DIR/ /time_machine/current/$DIR/ >> /root/rsync/rsync.$DATE.log 2>&1
fi

chmod u+x bin/getdir_snapshot.sh

bin/getall_snapshot.sh # все каталоги за день

#!/bin/bash

DATE=$1
ssh зеркало ls -d /time_machine/old/$DATE/*/*|awk -F/ '{print $4 "/" $5 "/" $6}' | xargs --verbose --max-args=1 --max-procs=40 getdir_snapshot.sh 2>&1 | tee -a /root/rsync/rsync.$DATE.log
/sbin/btrfs subvolume snapshot /time_machine/current /time_machine/old/$DATE
chmod go+rx /time_machine/old/$DATE

chmod u+x bin/getall_snapshot.sh
создание каталогов первого уровня (отдельный каталог на каждый файловый сервер)
```
mkdir /time_machine/current/...
...
```
запуск (под screen): getall_snapshot.sh первая-дата
запуск в цикле копирования изменений

Копирование очередного дня с зеркала по send/receive (вдвое быстрее, данные пересылаются по сети несжатые):

btrfs property set /time_machine/old/20140801 ro true
btrfs property set /time_machine/old/20140802 ro true
btrfs send -v -p /time_machine/old/20140801 /time_machine/old/20140802|...

Итоги с 1 августа 2014 по 16 января 2017 + current (rsync в режиме --whole-file, иначе btrfs разваливается очень быстро):

первый день - 11.5 TB
всего - 104.4 TB
в день - 103 ГБ

Тестирование чтения привычным tarnull_all_common.sh самого старого снимка (20150121) после 2.5 лет эксплуатации архива (с диска читается до 450 МБ/сек, т.е. после декомпрессии ожидается более 1 ГБ/сек; манипуляции с настройкой контроллера и read_ahead_kb не помогают; в начале всплеск в 1.3 GB/s; встроенный readahead насыщает систему хранения?):

1 поток - 23131760623616 bytes (23 TB) copied, 220811 s, 105 MB/s (screen завис)
6 потоков - 36682198941696 bytes (37 TB) copied, 269317 s, 136 MB/s
12 потоков - 36682198941696 bytes (37 TB) copied, 270545 s, 136 MB/s
16 потоков - 23711099912192 bytes (24 TB) copied, 164559 s, 144 MB/s
24 потока - 36682198941696 bytes (37 TB) copied, 269458 s, 136 MB/s
32 потока - 31144909209600 bytes (31 TB) copied, 220555 s, 141 MB/s

Тестирование чтения привычным tarnull_all_common.sh лизкого к текущему состоянию снимка (20170318) после 2.5 лет эксплуатации архива (с диска читается 350 МБ/сек, т.е. после декомпрессии ожидается более 1 ГБ/сек; манипуляции с настройкой контроллера и read_ahead_kb не помогают):

32 потока - 44740035739648 bytes (45 TB) copied, 360604 s, 124 MB/s (из 50ТБ)

Ссылки

Домашняя страница btrfs
заплатка, увеличивающая GlobalReserve (extent-tree.c, update_global_block_rsv, block_rsv->size)
как файл размером 1GB может занять 128TB на диске

Карта сайта

News

Автора!

Bog BOS: Файловая система btrfs