this post was submitted on 11 Aug 2025
38 points (100.0% liked)

Haupteingang

849 readers
57 users here now

Die Standard-Community von feddit.org

In dieser Community geht es um:

Was nicht Zweck dieser Community ist:

Regeln:


The standard community of feddit.org

This community is for:

What is not the purpose of this community:

Rules:

founded 2 years ago
MODERATORS
 

English below.


Hallo zusammen,

wie einigen von euch heute sicherlich aufgefallen ist war feddit.org für ca. 15-20 min um kurz nach 20 Uhr nicht erreichbar. Grund dafür waren ungeplante Auswirkungen einer geplanten Hardwarewartung, welche unsere Infrastruktur herunterfuhr.

Bei der Fediverse Foundation, welche unsere Hardware bereitstellt, gab es eine Wartung um Netzwerkkarten in den Servern auszutauschen. Leider hat ein Neustart eines Hypervisors (VM Host) während der Wartung dazu geführt, dass das Cluster sein Quorum verloren hat und als Sicherheitsmaßnahme alle VMs heruntergefahren hat, inklusive der VMs für feddit.org.

Als die restliche Infrastruktur wieder hochgefahren war gab es zusätzlich noch Probleme mit dem Herunterladen des Containerimages für pict-rs, der Komponente für Uploads von Medien. Da dies nicht direkt bemerkt wurde, da noch einige andere Systeme Probleme hatten, hat es ca. eine weitere Stunde benötigt um pict-rs wieder zu starten. Aufgrund des Neustarts des Clusters gab es zu viele Anfragen an Docker Hub um Images herunterzuladen, was deren Rate-Limit für unauthentifizierte Downloads überschritten hat. Übergangsweise haben wir das Containerimage jetzt anderweitig bereitgestellt. Zusätzlich wurden Zugangsdaten für einen Docker Hub Account im Cluster hinterlegt, was höhere Rate-Limits für Downloads erlaubt.

@b2c@feddit.org aus dem Infrastrukturteam der Fediverse Foundation wird morgen dazu noch ein Post Mortem schreiben.


Hello everyone,

as some of you probably already noticed, feddit.org was unavailable for about 15-20 minutes today, shortly after 18:00 UTC. The reason for this were unplanned consequences of planned hardware maintenance, which shut down our infrastructure.

The Fediverse Foundation, who provides our hardware, had a maintenance today to swap network cards in the servers. Unfortunately, a reboot of one of the hypervisors (VM host) during the maintenance lead to the cluster losing its quorum, which, as a safety measure, shut down all VMs, including the VMs for feddit.org.

Once the remaining infrastructure had booted up again we also had issues downloading container images for pict-rs, the component responsible for uploads of media. As we didn't immediately notice this, as some other systems were also still affected by outages, it took about an extra hour until pict-rs was started again. Due to the reboot of the cluster there were too many requests to Docker Hub to download images, which exceeded their rate limits for unauthenticated downloads. Temporarily we are now serving the container image differently. Additionally we have stored a Docker Hub account in the cluster for future pulls, which allows higher rate limits for downloads.

@b2c@feddit.org of the Fediverse Foundation infrastructure team will additionally write a post mortem tomorrow.

top 2 comments
sorted by: hot top controversial new old
[–] Cacktus@feddit.org 26 points 4 months ago (1 children)

Ich verstehe ja nicht alles aber

[–] feldwespe@feddit.org 4 points 4 months ago

Sowieso! 🏆🏆🏆🏆🏆🏆🏆
Fetten Dank an unsere heldenhaften Computeroffiziere.
🖖 Live long and prosper!