LINUX.ORG.RU
ФорумTalks

Слыхали? Сбой в GitLab-инфраструктуре FreeDesktop

 , ,


0

0

Сгорели SSD накопители, пытались восстановить, что-то пошло не так!

на серверах Freedesktop используют такие проекты, как Mesa, Wayland, X.Org Server, D-Bus, Pipewire, PulseAudio, GStreamer, NetworkManager, libinput, PolKit и FreeType. Проект systemd формально относится к FreeDesktop, но использует в качестве первичной платформы разработки GitHub.

Подробности - https://www.opennet.ru/opennews/art.shtml?num=57341


Инфраструктура Freedesktop.org обслуживает более 1200 репозиториев открытых проектов.

инфраструктура оказалась недоступна из-за выхода из строя двух SSD-накопителей

чёт кекнул.
блеск и нищета опенсорца.

based
()
Ответ на: комментарий от vbr

Любое оборудование ломается, даже «профессиональное». Вопрос в том насколько отказоустойчиво построена система. Если админы рукожопы, то они что в облаке, что на своём железе, нихрена не сделают нормально.

cocucka ★★★★☆
()

Ну накатят бэкапы, ну кто-то может пару коммитов просрет… запушат заново. Тоже мне драма.

pekmop1024 ★★★★★
()
Ответ на: комментарий от pekmop1024

Gitlab это не только репозитории, но и bug tracker и прочее.

maxcom ★★★★★
()
Ответ на: комментарий от pekmop1024

По ходу полимеры потеряны. Повезло, что есть какие-никакие зеркала на github. Но гвоздь в инфраструктуру gitlab вбит.

Oldboy
() автор топика
Последнее исправление: Oldboy (всего исправлений: 1)
Ответ на: комментарий от cocucka

Профессиональное оборудование отличается наличием запасных частей в шкафу и контрактов, по которым эти части привезут в кратчайшее время. А также наличием профессиональных админов, которые в положенные сроки сделают замену. И отлаженными процедурами бэкапа для крайнего случая.

Каждый должен заниматься своим делом. И делать это дело хорошо.

Когда проект теряет данные из-за сломавшегося диска, а поломка ссд это абсолютно рядовой случай, это хороший пример того, что происходит при нарушении этого правила.

vbr ★★★★
()
Последнее исправление: vbr (всего исправлений: 1)

Погорел ссд с данными баз и ссд с бекапом данных баз?

LINUX-ORG-RU ★★★★★
()

бугага какая же ржомба что смузихлёбы со своими хипстерскими спермотехнологиями не осилили БАНАЛЬНЫЙ БЭКАП, мать его

тут на быдланете обсуждают PHP 8.2 alpha, один пользователь сказал самую суть

что можно написать на пхп8, чего нельзя было сделать на 4 пыхе

дурачки с синдромом NIH занимаются сублимацией, по сути дела не изобретая ничего нового и ничего полезного, когда вся работа всё ещё сводится к проверенным методикам — банальному бэкапу, банальным файловым системам, банальной самбе с фтп, вместо всех этих *клаудов.

воистину, чем решение проще, тем оно вернее.

вероятнее всего у них там был RAID 5, который допускает выход из строя одного диска, и всё это время у них был RAID 0, ололо, ололо

господи, какие же дегенераты.

Spoofing ★★★★★
()

А че ржете-то ? Факапы бывают у всех. Облака кстати от них тоже не застрахованы, но если в случае локального хранилища, хотя бы админу можно по сраке надавать, то в удаленном - «мы не несем ответственности», «as is» и прочая ересь, которую нужно искоренять в законодательно-уголовном порядке.

Но, как грица, сисадмины делятся на две категории: первые не делают бэкапы, а вторые уже делают =)

windows10 ★★★★★
()
Ответ на: комментарий от Spoofing

вероятнее всего у них там был RAID 5, который допускает выход из строя одного диска, и

Один диск (по переписке) был выведен давно из строя, всё жило на втором.

Oldboy
() автор топика
Ответ на: комментарий от vbr

Профессиональное оборудование отличается наличием запасных частей в шкафу и контрактов, по которым эти части привезут в кратчайшее время. А также наличием профессиональных админов, которые в положенные сроки сделают замену. И отлаженными процедурами бэкапа для крайнего случая.

Каждый должен заниматься своим делом. И делать это дело хорошо.

Несусветные банальности вида «хорошо жить лучше чем плохо» :)

Dimez ★★★★★
()
Ответ на: комментарий от cocucka

Если админы рукожопы, то они что в облаке, что на своём железе, нихрена не сделают нормально.

Но в облаке таки проще, и в рейде им бы диск прозрачно поменяли, и сгоревшая материнка фиксится ребутом инстанса.

goingUp ★★★★★
()

Дополнение: Администратор инфраструктуры FreeDesktop пояснил, что никакие данные не потяряны, но хранилище Ceph из-за сбоя двух дисков перешло в режим «degraded», требующий ручного восстановления. Попутно приходится решать несколько сопутствующих проблем, связанных с настройками сети и синхронизацией изменений, добавленных с момента подключения к хранилищу нового узла. Ожидается, что восстановление займёт ещё несколько часов.

eternal_sorrow ★★★★★
()
Последнее исправление: eternal_sorrow (всего исправлений: 1)
Ответ на: комментарий от eternal_sorrow

так он отписался через n времени, потому что бо-бо!
Понятно, что данные на зеркале github. Им просто повезло.
Гвоздь вбит.

И это, в оригинале слегонца по другому, чем твой перевод.

Oldboy
() автор топика
Последнее исправление: Oldboy (всего исправлений: 1)
Ответ на: комментарий от eternal_sorrow

Тут пацаны набрасывают!
Классный коммент из опеннета:

бедные ребята. в #freedesktop сплошной shotgun debugging

21:24 bentiss: daniels: sigh, the new server doesn’t even survive a reboot, it fails at finding the root
21:27 bentiss: I guess my cloud-init script killed the root
21:35 bentiss: FWIW, reinstalling it

мимопроходилы делятся перлами типа

12:18 JoniSt: That’s nice to hear. Reminds me of the fact that a single raid1 btrfs might also not be enough to keep my own Gitlab instance alive if something happens…

Надо бы зайти и почитать логи #freedesktop

Oldboy
() автор топика
Последнее исправление: Oldboy (всего исправлений: 2)

Gitlab искаропки поддерживает бэкап , почему-то кто-то решил его не настраивать.

Помёрли ссд

Это какое же хреновое tbw было у них? И их ресурс судя по всему тоже никто не мониторил.

Pr0f1t
()
Ответ на: комментарий от Pr0f1t

Это какое же хреновое tbw было у них? И их ресурс судя по всему тоже никто не мониторил.

SSD (редко, конечно и отдельные модели) бывает, мрут просто так, без предупреждения. Вот он есть в системе, туда можно читать/писать и вдруг он пропал безвозвратно и больше не определяется никак. А ещё были эпические ошибки в фирмварях (которые мало кто любит обновлять) типа «окирпичивание после n часов работы» (даже у hp: https://www.opennet.ru/opennews/art.shtml?num=52607)

Dimez ★★★★★
()
Последнее исправление: Dimez (всего исправлений: 3)
Ответ на: комментарий от Dimez

А ещё были эпические ошибки в фирмварях (которые мало кто любит обновлять)

За такое надо руководителям руки отрывать. Обязательно подписаться на changelog, выделить человека/команду и в плановый распорядок.

Oldboy
() автор топика

Жалко. Что systemd выжил.

rupert ★★★★★
()
Ответ на: комментарий от Oldboy

За такое надо руководителям руки отрывать.

Подавляющее число людей работают по парадигме «работает - не трогай», увы.

Dimez ★★★★★
()
Ответ на: комментарий от Dimez

Это пока ты не строишь ДЦ. Плановые обновления железа/прошивок обязательны. Это неспециалисты просто. Как и с безопасностью. Если не проводить обслуживания хоть раз в месяц, то оказывается, что кто-то просто использует твои мощности. Особенно в ДЦ.

Oldboy
() автор топика
Ответ на: комментарий от Oldboy

Дело даже не в этом. Где, мать их, infrastructure as code? Почему новый сервер не введен в строй в течение часа, считая время на обновление всей фирмвари, провижнинг ОС и раскатывание бэкапа? Почему не как в лучших домах Лондона и Парижу - пуском 2-3 джоб в каком-нибудь условном дженкинсе?

pekmop1024 ★★★★★
()
Ответ на: комментарий от pekmop1024

Где, мать их, infrastructure as code? Почему новый сервер не введен в строй в течение часа

Так уже лулзы пошли по поводу «пойду посплю». Рекомендую #freedesktop на Libera.

Oldboy
() автор топика
Ответ на: комментарий от Oldboy

Вот потому для iso27001 надо блин проверять бэкапы, и желательно раз в квартал

upcFrost ★★★★★
()
Ответ на: комментарий от goingUp

у них там Ceph. В контейнерах внутри кубера (Rook). В общем девопсов допустили до боевой системы - и они закономерно её похоронили.

Nastishka ★★★★★
()
Ответ на: комментарий от vbr

Там профессиональное оборудование, в котором поломка SSD не вызывает даунтайма.

Ога, ога... какое-то прямо-таки волшебное оборудование которое никогда не выходит из строя.

anc ★★★★★
()
Ответ на: комментарий от Dimez

Собственно это и была ошибка в фирмвари интела, которая приводила к отказу через сколько-то часов непрерывной работы. Ну и соответственно она стрельнула у всех кто перепродавал интел под своими лейблами. Знаю как минимум об одном инциденте где одномоментно ушел RAID1 из двух таких дисков

Nastishka ★★★★★
()
Ответ на: комментарий от anc

Анекдот. Заходит мужик в автобус, пробивает первый билет, затем второй билет. Садится, рядом второй мужик спрашивает

  • А зачем ты купил билет?
  • Чтобы не оштрафовали
  • А если билет потеряешь?
  • У меня есть второй билет
  • А если второй билет потеряешь?
  • У меня есть проездной.

В целом в современном мире RAID уже не нужны, даже вредны. Но люди считают, что так надо и используют их. Но забывают про бакап и восстановление из бакапа. Ну и время которое может занять.

Nurmukh ★★★
()

инфраструктура оказалась недоступна из-за выхода из строя двух SSD-накопителей

Двух одновременно? Звучит маловероятно.

Im_not_a_robot ★★★★★
()
Ответ на: комментарий от Nurmukh

В целом в современном мире RAID уже не нужны, даже вредны.

Нужны и не вредны, вопрос в правильном приготовлении.

anc ★★★★★
()
Ответ на: комментарий от Im_not_a_robot

ssd не механика, в raid-1 нагрузка одинаковая, вот и приходит сибирский пушистик одновременно.

anc ★★★★★
()
Ответ на: комментарий от anc

Перечисленные проекты полумертвые в плане нагрузки, разве что сам гемозависимый раможрущий анимесодержащий мертворубиновый швайногитлаб как-то невероятно насилует диск.

Im_not_a_robot ★★★★★
()
Ответ на: комментарий от Im_not_a_robot

Для Ъ

Инфраструктура Freedesktop.org обслуживает более 1200 репозиториев открытых проектов. В качестве первичной платформы GitLab на серверах Freedesktop используют такие проекты, как Mesa, Wayland, X.Org Server, D-Bus, Pipewire, PulseAudio, GStreamer, NetworkManager, libinput, PolKit и FreeType. Проект systemd формально относится к FreeDesktop, но использует в качестве первичной платформы разработки GitHub. Для приёма изменений в проекте LibreOffice, который также частично использует инфраструктуру FreeDesktop, применяется свой сервер на базе Gerrit.

anc ★★★★★
()
Ответ на: комментарий от Spoofing

Ты чёт сильно порвался.

что можно написать на пхп8, чего нельзя было сделать на 4 пыхе

Что можно написать на LANGUGE_NAME, чего нельзя было сделать на asm

CryNet ★★★★★
()
Ответ на: комментарий от Dimez

Хм, у HP аналогичная проблема со своими дисками была, не связанная с интелами. Так что не только интел засветился.

Nastishka ★★★★★
()
Ответ на: комментарий от Nastishka

У HP в дисках из своего только «нескучные обои».

anc ★★★★★
()
Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)