forum.opennet.ru - "Раздел полезных советов: Полезные пакеты, которые следует установить на сервер для диагностики сбоев" (18)

"Раздел полезных советов: Полезные пакеты, которые следует установить на сервер для диагностики сбоев"

Форум Разговоры, обсуждение новостей
Вариант для распечатки		Пред. тема \| След. тема
Изначальное сообщение		[ Отслеживать ]

"Раздел полезных советов: Полезные пакеты, которые следует установить на сервер для диагностики сбоев"	+/–
Сообщение от auto_tips (ok), 28-Мрт-24, 13:47
Минимальный набор пакетов для диагностики проблем, которые желательно заранее установить на серверы, чтобы не тратить время на установку дополнительных пакетов или поиск специализированных live-дистрибутивов. Установка диагностических утилит во время сбоя может превратиться в решение отдельной проблемы или потребовать много времени, учитывая то, что во время сбоя может пропадать сетевое соединение, возникнуть проблемы с DNS, наблюдаться большие потери пакетов или снижение полосы пропускания, возникать большие задержки ввода команд из-за высокой нагрузки на CPU или исчерпания памяти, дисковый раздел может быть переведён в режим только для чтения и т.п. Список пакетов для предустановки (названия для Ubuntu) и поставляемые в них диагностические утилиты: procps - утилиты ps, vmstat, uptime, top util-linux - dmesg, lsblk, lscpu (общая статистика, информация о блочных устройствах и CPU) sysstat - iostat, mpstat, pidstat, sar (оценка производительности) iproute2 - ip, ss, nstat, tc (настройка сети и управление трафиком) numactl - numastat (статистика по NUMA) tcpdump - tcpdump (анализ трафика) linux-tools-common и linux-tools-$(uname -r) - perf, turbostat (профилировние и мониторинг производительности) bpfcc-tools (bcc) - opensnoop, execsnoop, runqlat, softirqs, hardirqs, ext4slower, ext4dist, biotop, biosnoop, biolatency, tcptop, tcplife, trace, argdist, funccount, profile (диагностика на базе eBPF) bpftrace - bpftrace, opensnoop, execsnoop, runqlat, biosnoop (диагностика на базе eBPF) trace-cmd - trace-cmd (CLI-интерфейс для ftrace) nicstat - nicstat (информация о сетевых устройствах) ethtool - ethtool (информация о сетевых устройствах) tiptop - tiptop (PMU/PMC top) cpuid - cpuid (информация о CPU) ** msr-tools - rdmsr, wrmsr (информация о CPU) sudo apt install procps util-linux sysstat iproute2 numactl tcpdump linux-tools-common linux-tools-$(uname -r) bpfcc-tools bpftrace trace-cmd nicstat ethtool tiptop cpuid msr-tools URL: https://www.brendangregg.com/blog/2024-03-24/linux-crisis-to... Обсуждается: https://www.opennet.ru/tips/info/3246.shtml
Ответить \| Правка \| Cообщить модератору

Оглавление

Набор пакетов, которые следует установить автору этого топика,и не более того Ну, Нормальный (ok), 13:47 , 28-Мрт-24, (1) +2

Возможно у ТС все сервера на ubuntu , Николай (??), 11:39 , 04-Апр-24, (4)

Кто помнит Финогенова Похожая книжка могла бы иметь успех для юзера обзор всех, Аноним (2), 20:07 , 28-Мрт-24, (2) +2

Главнее всего, чтоб не персональными модулями на поверх шелл , остальное можно , Мимосисадмин (?), 19:25 , 11-Апр-24, (9)

iproute2 Как вообще сервер без этого обходится , Аноним (3), 12:01 , 02-Апр-24, (3)

Легко если обработка идет вне сетевой подсистемы LinuxТолько время терять на все, Аноним (15), 02:29 , 28-Апр-24, (15) –1

установить на серверы, чтобы не тратить время на установку дополнительныхпакетов, Аноним (6), 14:50 , 07-Апр-24, (6)
Что-ж вы все такие злые Молодой админ открыл для себя мощные утилиты линукса и с, Аноним (7), 00:44 , 10-Апр-24, (7) +5

Нет, это админ старой закалки открыл для себя, что куча нужных и полезных утилит, Аноним (8), 06:44 , 10-Апр-24, (8) +8

Выпилены потому что в современном мире на фиг не нужны на большинстве серверов З, Аноним (10), 12:59 , 15-Апр-24, (10) +1

Напиши свою статью, аноним, с изложением своей версии того, как делать мониторин, Аноним (11), 11:36 , 16-Апр-24, (11) +4
Мир изменился потому что вчера с 5 до 7 утра по GMT у нас 5 клиентам отдава, ant2 (?), 10:17 , 24-Апр-24, (14)

Если предприятие работает вне часовой зоны ИТ отдела, то нанимаютдежурных инжене, Аноним (15), 02:32 , 28-Апр-24, (16) –1

Тут ожидание и реальность Ожидание - удалёнка, дежурная смена, whatever Реальнос, Tron is Whistling (?), 18:42 , 18-Май-24, (18)

И то только покумекать, потому что индусский саппорт какого-нибудь Emc2 будет сп, Tron is Whistling (?), 18:41 , 18-Май-24, (17)

iotop, Аноним (12), 09:06 , 23-Апр-24, (12) +1

iftopхотя современный htop, воде, уже имеет вкладку по I O, InuYasha (??), 12:25 , 01-Дек-24, (19)

Не совсем для сбоев, но рекомендую также ставить vnstat Иногда очень полезно по, Аноним (13), 11:37 , 23-Апр-24, (13)

Сообщения [Сортировка по ответам | RSS]

1. Сообщение от Нормальный (ok), 28-Мрт-24, 13:47 +2 +/–

Набор пакетов, которые следует установить автору этого топика,и не более того.
> sudo apt install
Ну прям универсальное средство для _ВСЕХ_ серверов.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #4

2. Сообщение от Аноним (2), 28-Мрт-24, 20:07 +2 +/–

Кто помнит Финогенова. Похожая книжка могла бы иметь успех: для юзера обзор всех Busybox, Linuxutil и идеи использования. Смузики потонут в осадок.
И как вишенка - настройка MC со своими персональными модулями на шелл поверх всего...

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #9

3. Сообщение от Аноним (3), 02-Апр-24, 12:01 +/–

iproute2: Как вообще сервер без этого обходится?

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #15

4. Сообщение от Николай (??), 04-Апр-24, 11:39 +/–

Возможно у ТС все сервера на ubuntu.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1

6. Сообщение от Аноним (6), 07-Апр-24, 14:50 +/–

> Минимальный набор пакетов  для диагностики проблем, которые желательно заранее
установить на серверы, чтобы не тратить время на установку дополнительных
пакетов или поиск специализированных live-дистрибутивов.

Пфф... зачем так сложо?

Ответить | Правка | Наверх | Cообщить модератору

7. Сообщение от Аноним (7), 10-Апр-24, 00:44 +5 +/–

Что-ж вы все такие злые!
Молодой админ открыл для себя мощные утилиты линукса и спешит поделиться новым знанием. Что в этом зазорного?
Можно подумать, что комментаторы сразу родились со знанием iproute2 и tcpdump.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #8

8. Сообщение от Аноним (8), 10-Апр-24, 06:44 +8 +/–

Нет, это админ старой закалки открыл для себя, что куча нужных и полезных утилит теперь выпилены по умолчанию из системы и их нужно ставить отдельно.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #7 Ответы: #10

9. Сообщение от Мимосисадмин (?), 11-Апр-24, 19:25 +/–

> И как вишенка - настройка MC со своими персональными модулями на шелл поверх всего
Главнее всего, чтоб не "персональными модулями на поверх шелл", остальное можно принять

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2

10. Сообщение от Аноним (10), 15-Апр-24, 12:59 +1 +/–

Выпилены потому что в современном мире на фиг не нужны на большинстве серверов.
Зачем вам в EC2 инстансе cpuid или numastat?
ps/vmstat/top - ок, а теперь возьмите типичный современный стейджинг или подакшен с БД в rds и всем остальным в контейнерах в EKS или другом managed kubernetes, куда/где/как вы получите хоть какие осмысленные результаты этими утилитами?
Я совершенно не против всех этих утилит. Но мир, блин, изменился. 20 лет назад было ок "сервер торомозит, зайди и глянь что там не так". Сегодня это "вчера с 5 до 7 утра по GMT у нас > 5% клиентам отдавалась 500 ошибка, и алерты по метрикам задержек, давайте выясним что это было и как сделать, чтобы больше так не было". И что вы с ps / vmstat будете смотреть вчера? А в реальном времени ни у каких разрабочиков и админов нет времени смотреть туда, есть SRE анализирующий мониторинг и алерты, которые делаются совершенно не этими утилитами. И которые позволяют понять что произошло вчера намного быстрее и точнее, чем медитация над тоннами цифр которые выдаст sar с различными ключиками или срезов atop или что там любит админ старой закалки. Может ему графики нравится смотреть и он вкатил какой-нибудь легкий cacti. Только увы к какому-нибудь pagerduty оно не прикручено, поэтому то, на что смотрит конкретно тот админ, никак не координируется с командой.
А если у нас админ старой закалки у которого локалхост в чулане (NB: я никого не пытаюсь обидеть, у меня самого 3 сервера дома в чулане), то наверное он и так знает, как это все поставить.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #8 Ответы: #11, #14

11. Сообщение от Аноним (11), 16-Апр-24, 11:36 +4 +/–

Напиши свою статью, аноним, с изложением своей версии того, как делать мониторинг.
То есть, о том, что "мир изменился" ты прав, но во-первых, у утилит нового мира внутри те же самые top, sysstat, vmstat.
>алерты, которые делаются совершенно не этими утилитами
А чем? Куча этих самых мониторингов -- это же те же самые обвязки над олдовыми утилитами.
>EC2 инстансе, в контейнерах в EKS или другом managed kubernetes
Хм. Я бы, конечно, не против EC2, EKS, и тому подобного, но у нас airgapped система. Как мне быть?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #10

12. Сообщение от Аноним (12), 23-Апр-24, 09:06 +1 +/–

iotop

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #19

13. Сообщение от Аноним (13), 23-Апр-24, 11:37 +/–

Не совсем для сбоев, но рекомендую также ставить vnstat. Иногда очень полезно посмотреть динамику по занятости каналов. Главное ставить его заранее, чтобы статистика по трафику уже была к тому момент, когда она понядобится.
В паре с реалтаймовым мониторингом в bmon получается очень даже хорошо.
И то и другое у меня ставится на все новые сервера даже несмотря на то, что в параллель по сути те же метрики экспортируются ещё и в prometheus. Однако, локально на сервере смотреть числа выходит гораздо удобнее.

Ответить | Правка | Наверх | Cообщить модератору

14. Сообщение от ant2 (?), 24-Апр-24, 10:17 +/–

Мир изменился потому что "вчера с 5 до 7 утра по GMT у нас > 5% клиентам отдавалась 500 ошибка, и алерты по метрикам задержек, давайте выясним что это было и как сделать, чтобы больше так не было" теперь как бы норма.
Раньше был бы звонок админу в 5:03 по GMT что Вася из Зарюпинска не может работать и Маша тоже жалуется. И чтобы исправил, иначе за что тебе деньги платят.
А сейчас да, проснувшись и сладко потянувшись можно днём покумекать чего там больше 5% клиентов два часа утром матерились.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #10 Ответы: #16, #17

15. Сообщение от Аноним (15), 28-Апр-24, 02:29 –1 +/–

Легко если обработка идет вне сетевой подсистемы Linux
Только время терять на все это ваше

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #3

16. Сообщение от Аноним (15), 28-Апр-24, 02:32 –1 +/–

>  Мир изменился потому что "вчера с 5 до 7 утра по
> GMT у нас > 5% клиентам отдавалась 500 ошибка, и алерты
> по метрикам задержек, давайте выясним что это было и как сделать,
> чтобы больше так не было" теперь как бы норма.
>  Раньше был бы звонок админу в 5:03 по GMT что Вася
> из Зарюпинска не может работать и Маша тоже жалуется. И чтобы
> исправил, иначе за что тебе деньги платят.
>  А сейчас да, проснувшись и сладко потянувшись можно днём покумекать чего
> там больше 5% клиентов два часа утром матерились.
Если предприятие работает вне часовой зоны ИТ отдела, то нанимают
дежурных инженеров работающих 24/7 и не долбят мозг главному инженеру,
а решают вопросы с закончившимся местом, отвалившимся коннектом,
ошибкой маршрута самостоятельно, а вот если вопрос серьезный, то
тогда уже оформляют как положено баг репорт и решают в штатном порядке
в рабочее время.

При распределенной команде кстати есть шанс что ошибку отловят и исправят
и вообще в тот же час разработчики из тойже часовой зоны.
Вообще распределенка сэры давно с удаленкой...

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #14 Ответы: #18

17. Сообщение от Tron is Whistling (?), 18-Май-24, 18:41 +/–

> А сейчас да, проснувшись и сладко потянувшись можно днём покумекать чего там больше 5% клиентов два часа утром матерились.
И то только покумекать, потому что индусский саппорт какого-нибудь Emc2 будет спать ещё часа 4, и только потом заявку примет.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #14

18. Сообщение от Tron is Whistling (?), 18-Май-24, 18:42 +/–

Тут ожидание и реальность.
Ожидание - удалёнка, дежурная смена, whatever.
Реальность - половина нод завалилась, инженегра два на полставки, и те джуны, потому что архитекта задолбало лопатить за десятерых за полторы зарплаты, и он свалил, whatever.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #16

19. Сообщение от InuYasha (??), 01-Дек-24, 12:25 +/–

+iftop
хотя современный htop, воде, уже имеет вкладку по I/O

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #12

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2025 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру

1. Сообщение от Нормальный (ok), 28-Мрт-24, 13:47	+2 +/–
Набор пакетов, которые следует установить автору этого топика,и не более того. > sudo apt install Ну прям универсальное средство для _ВСЕХ_ серверов.
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #4

2. Сообщение от Аноним (2), 28-Мрт-24, 20:07	+2 +/–
Кто помнит Финогенова. Похожая книжка могла бы иметь успех: для юзера обзор всех Busybox, Linuxutil и идеи использования. Смузики потонут в осадок. И как вишенка - настройка MC со своими персональными модулями на шелл поверх всего...
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #9

3. Сообщение от Аноним (3), 02-Апр-24, 12:01	+/–
iproute2: Как вообще сервер без этого обходится?
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #15

4. Сообщение от Николай (??), 04-Апр-24, 11:39	+/–
Возможно у ТС все сервера на ubuntu.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #1

6. Сообщение от Аноним (6), 07-Апр-24, 14:50	+/–
> Минимальный набор пакетов для диагностики проблем, которые желательно заранее установить на серверы, чтобы не тратить время на установку дополнительных пакетов или поиск специализированных live-дистрибутивов. Пфф... зачем так сложо?
Ответить \| Правка \| Наверх \| Cообщить модератору

7. Сообщение от Аноним (7), 10-Апр-24, 00:44	+5 +/–
Что-ж вы все такие злые! Молодой админ открыл для себя мощные утилиты линукса и спешит поделиться новым знанием. Что в этом зазорного? Можно подумать, что комментаторы сразу родились со знанием iproute2 и tcpdump.
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #8

8. Сообщение от Аноним (8), 10-Апр-24, 06:44	+8 +/–
Нет, это админ старой закалки открыл для себя, что куча нужных и полезных утилит теперь выпилены по умолчанию из системы и их нужно ставить отдельно.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #7 Ответы: #10

9. Сообщение от Мимосисадмин (?), 11-Апр-24, 19:25	+/–
> И как вишенка - настройка MC со своими персональными модулями на шелл поверх всего Главнее всего, чтоб не "персональными модулями на поверх шелл", остальное можно принять
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #2

10. Сообщение от Аноним (10), 15-Апр-24, 12:59	+1 +/–
Выпилены потому что в современном мире на фиг не нужны на большинстве серверов. Зачем вам в EC2 инстансе cpuid или numastat? ps/vmstat/top - ок, а теперь возьмите типичный современный стейджинг или подакшен с БД в rds и всем остальным в контейнерах в EKS или другом managed kubernetes, куда/где/как вы получите хоть какие осмысленные результаты этими утилитами? Я совершенно не против всех этих утилит. Но мир, блин, изменился. 20 лет назад было ок "сервер торомозит, зайди и глянь что там не так". Сегодня это "вчера с 5 до 7 утра по GMT у нас > 5% клиентам отдавалась 500 ошибка, и алерты по метрикам задержек, давайте выясним что это было и как сделать, чтобы больше так не было". И что вы с ps / vmstat будете смотреть вчера? А в реальном времени ни у каких разрабочиков и админов нет времени смотреть туда, есть SRE анализирующий мониторинг и алерты, которые делаются совершенно не этими утилитами. И которые позволяют понять что произошло вчера намного быстрее и точнее, чем медитация над тоннами цифр которые выдаст sar с различными ключиками или срезов atop или что там любит админ старой закалки. Может ему графики нравится смотреть и он вкатил какой-нибудь легкий cacti. Только увы к какому-нибудь pagerduty оно не прикручено, поэтому то, на что смотрит конкретно тот админ, никак не координируется с командой. А если у нас админ старой закалки у которого локалхост в чулане (NB: я никого не пытаюсь обидеть, у меня самого 3 сервера дома в чулане), то наверное он и так знает, как это все поставить.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #8 Ответы: #11, #14

11. Сообщение от Аноним (11), 16-Апр-24, 11:36	+4 +/–
Напиши свою статью, аноним, с изложением своей версии того, как делать мониторинг. То есть, о том, что "мир изменился" ты прав, но во-первых, у утилит нового мира внутри те же самые top, sysstat, vmstat. >алерты, которые делаются совершенно не этими утилитами А чем? Куча этих самых мониторингов -- это же те же самые обвязки над олдовыми утилитами. >EC2 инстансе, в контейнерах в EKS или другом managed kubernetes Хм. Я бы, конечно, не против EC2, EKS, и тому подобного, но у нас airgapped система. Как мне быть?
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #10

12. Сообщение от Аноним (12), 23-Апр-24, 09:06	+1 +/–
iotop
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #19

13. Сообщение от Аноним (13), 23-Апр-24, 11:37	+/–
Не совсем для сбоев, но рекомендую также ставить vnstat. Иногда очень полезно посмотреть динамику по занятости каналов. Главное ставить его заранее, чтобы статистика по трафику уже была к тому момент, когда она понядобится. В паре с реалтаймовым мониторингом в bmon получается очень даже хорошо. И то и другое у меня ставится на все новые сервера даже несмотря на то, что в параллель по сути те же метрики экспортируются ещё и в prometheus. Однако, локально на сервере смотреть числа выходит гораздо удобнее.
Ответить \| Правка \| Наверх \| Cообщить модератору

14. Сообщение от ant2 (?), 24-Апр-24, 10:17	+/–
Мир изменился потому что "вчера с 5 до 7 утра по GMT у нас > 5% клиентам отдавалась 500 ошибка, и алерты по метрикам задержек, давайте выясним что это было и как сделать, чтобы больше так не было" теперь как бы норма. Раньше был бы звонок админу в 5:03 по GMT что Вася из Зарюпинска не может работать и Маша тоже жалуется. И чтобы исправил, иначе за что тебе деньги платят. А сейчас да, проснувшись и сладко потянувшись можно днём покумекать чего там больше 5% клиентов два часа утром матерились.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #10 Ответы: #16, #17

15. Сообщение от Аноним (15), 28-Апр-24, 02:29	–1 +/–
Легко если обработка идет вне сетевой подсистемы Linux Только время терять на все это ваше
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #3

16. Сообщение от Аноним (15), 28-Апр-24, 02:32	–1 +/–
> Мир изменился потому что "вчера с 5 до 7 утра по > GMT у нас > 5% клиентам отдавалась 500 ошибка, и алерты > по метрикам задержек, давайте выясним что это было и как сделать, > чтобы больше так не было" теперь как бы норма. > Раньше был бы звонок админу в 5:03 по GMT что Вася > из Зарюпинска не может работать и Маша тоже жалуется. И чтобы > исправил, иначе за что тебе деньги платят. > А сейчас да, проснувшись и сладко потянувшись можно днём покумекать чего > там больше 5% клиентов два часа утром матерились. Если предприятие работает вне часовой зоны ИТ отдела, то нанимают дежурных инженеров работающих 24/7 и не долбят мозг главному инженеру, а решают вопросы с закончившимся местом, отвалившимся коннектом, ошибкой маршрута самостоятельно, а вот если вопрос серьезный, то тогда уже оформляют как положено баг репорт и решают в штатном порядке в рабочее время. При распределенной команде кстати есть шанс что ошибку отловят и исправят и вообще в тот же час разработчики из тойже часовой зоны. Вообще распределенка сэры давно с удаленкой...
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #14 Ответы: #18

17. Сообщение от Tron is Whistling (?), 18-Май-24, 18:41	+/–
> А сейчас да, проснувшись и сладко потянувшись можно днём покумекать чего там больше 5% клиентов два часа утром матерились. И то только покумекать, потому что индусский саппорт какого-нибудь Emc2 будет спать ещё часа 4, и только потом заявку примет.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #14

18. Сообщение от Tron is Whistling (?), 18-Май-24, 18:42	+/–
Тут ожидание и реальность. Ожидание - удалёнка, дежурная смена, whatever. Реальность - половина нод завалилась, инженегра два на полставки, и те джуны, потому что архитекта задолбало лопатить за десятерых за полторы зарплаты, и он свалил, whatever.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #16

19. Сообщение от InuYasha (??), 01-Дек-24, 12:25	+/–
+iftop хотя современный htop, воде, уже имеет вкладку по I/O
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #12