Hey! Ich weiß nicht, ob ich hier richtig bin, aber ich brauche unbedingt Feddit’s Schwarmintelligenz. Ich bin mit meinem Latein am Ende und komme ums verrecken nicht mehr weiter.

Ich habe folgendes Problem:

  • Mein Desktop-PC friert mir konstant ein und schmiert ab.
  • Und damit meine ich wirklich KONSTANT. Ich darf ihn teilweise mehrmals täglich zwangsneustarten (Power-Knopf 10s), weil ich es nicht mal mehr über das Menü machen kann.
  • Ich bekomme andauernd den Popup “App xy reagiert nicht, beenden?”, teils auch bei banalen Systemapps. Wenn ich auf Beenden klicke, passiert nichts, auch nicht im Taskmanager.
  • Dabei ist es so, dass simple Programme schon häufig abkacken, komplexere (Bildbearbeitung, manche Spiele, etc.) umso häufiger.
  • Liegt bestimmt am System? Denkste! Mein Laptop hatte zeitweise die exakt selbe Konfiguration, und der läuft seit Jahren komplett problemfrei. Das ist nur dieser eine PC.

Nun, was habe ich bisher alles probiert? + relevante Hintergrundinfos

  • Erstmal hab ich mich natürlich sehr sehr ausgiebig selbst informiert. GPT (genauer gesagt Huggingface mit gekoppelter Websuche) war dabei eine riesen Hilfe.
  • Das Problem besteht schon, seit dem ich die blöde Kiste habe, also ca. 1 Jahr. Ich hab ihn mir damals selbst zusammengebaut, teils aus Komponenten meines alten PCs, teils neuen. Ich gehe aber eigentlich eher nicht davon aus, dass ich was grob falsch gemacht habe. Dazu später.

Softwareprobleme kann ich (fast) ausschließen.

  • Einerseits, siehe oben, waren die Konfigurationen die selben. Ich hatte bei beiden ca. 3 Monate lang Fedora Workstation, dazwischen unzählige andere Distros (OpenSuse Tumbleweed, Debian, Pop!OS, etc., selten länger als einen Monat) nur auf dem PC, und jetzt eine Zeit lang Fedora Atomic (Silverblue/ Kinoite/ Bazzite), welches imagebasierte Distros sind. Und tatsächlich sind die nochmal ein Stück weit problemärmer als die normalen Linux-Distros.
  • Ich habe damals schon einen Feddit-Post gemacht, bei dem ich dachte, dass das Problem wegen meiner eigenen Dummheit in Bezug auf “Ich schrotte meinen Install” entstanden ist.
    Hier der Link: https://feddit.de/post/3130750
    Hat das Problem mit der Stabilität aber leider auch nicht nennenswert behoben, außer, dass ich nicht jede zweite Woche neuinstallieren muss.
  • Seltsamerweise funktionieren die Rollbacks aber auch nur teilweise.
    • Beim KDE-Spin war es besonders auffällig. Da hatte ich bei fast jedem Boot einen schwarzen Bildschirm und bin dann im Rescue Mode gelandet, bei dem ich aber nichts machen konnte, nicht mal tippen, Logs auslesen o.ä., sehr seltsam. Normalerweise kann man damit ja ein zerschossenes System wiederherstellen, aber nö, nix da.
    • Ich hatte in meiner Liste aber immer ein (von 5) Images, das funktioniert hat. Sobald die ausgetauscht wurden, z.B. nach einem Update oder Pin, haben andere Images manchmal wieder funktioniert. Dieses eine bestimmte Image hat dann aber auch reproduzierbar gebootet.
    • Dass die Images mal so, mal so funktionieren macht überhaupt keinen Sinn.
  • KDE war insgesamt etwas anfälliger für Totalausfall-Freezes, während bei Gnome mehr Programme einfach beschlossen, jetzt Feierabend zu machen. (Wie gesagt, die 1:1 selbe Konfiguration auf meinem Laptop hat extrem zuverlässig funktioniert!)

Hardware

Inkompatible Komponenten:

  • Mit dem OS sollte alles wunderbar kompatibel sein. AMD GPU, ein leicht älteres und generisches ASUS-Mainboard (nicht die, die bei Linux Probleme machen, z.B. ROGs oder Laptops), und sonst auch nichts seltsames.
  • Untereinander sollte auch alles funktionieren. 2 gleiche RAM-Riegel, BIOS-Einstellungen alle fast Standard, nichts über- oder untertaktet, etc.

Stromversorgung:

  • In dem oben verlinktem Feddit-Thread hatten !u/superknet und !u/[email protected] die Idee, dass es am Stromnetz liegen könnte. Sie waren auf dem richtigen Weg!
  • Tatsächlich war in der alten Wohnung immer wieder mal kurz das Licht weg oder der Monitor hat sich kurz verabschiedet.
  • Ich denke aber, durch das immutable System, sollte das kein Problem sein. Wenn beispielsweise ein Update unterbrochen wird, starte ich einfach von vorne und muss halt mit dem Image von gestern leben :) Mein “normales” System hätte es (und hat es auch) damit gebricked.
  • Jetzt habe ich aber eine stabile Versorgung und trotzdem funktionierts nicht richtig…

Festplatte:

  • Ich hab mir nen Live-USB geschnappt und mit sudo smartctl -a meinefestplatte meine NVMe gecheckt.
  • SMART hat keine Auffälligkeiten gezeigt, außer halt, dass das Gerät >300 Mal außerplanmäßig ausgeschalten wurde :D

CPU:

  • Hab mit mit dem selben Live-USB per GTKStressTesting fast eine Stunde lang verschiedene Benchmarks gemacht, darunter auch mit Testalgorithmen, die besonders fehleranfällig sind.
  • Das System ist kein einziges Mal abgeschmiert/ gebugged, obwohl alle Kerne komplett ausgereizt waren. Im Gegenteil, es war minimal langsamer, aber hat butterweich funktioniert.

RAM:

  • Hab mir einen USB mit MemTest86+ gemacht und diesen für 3 Stunden (2 komplette Zyklen mit allen möglichen Algorithmen) laufen lassen.
  • Null Auffälligkeiten oder Fehlermeldungen

PSU:

  • Hab ich auch schon ausgewechselt.
  • Die jetzige brummt/ fiept ganz leicht, wenn das Gerät ausgeschalten ist, aber ich denke, dass das nur das latente Spulenfiepen der Kondensatoren oder so ist. Sobald der Strom weg ist, passt alles.
  • Die PSU ist auch leistungsstark genug (850W), auch für die große Grafikkarte (AMD 6800XT). Unter Volllast, z.B. wenn ich lokales Stable-Diffusion laufen lasse, wird der Raum damit zwar krass geheizt, aber der PC läuft weiter als wäre nichts gewesen.

Temperatur:

  • Hab ich während den Benchmarks und KI-Kram auch durchgehend gecheckt. CPU und GPU wurden nie heißer als 75-80°C max, Laufwerke ebenfalls nicht, Leitfähigkeitspaste hab ich auch erst vor nem halben Jahr erneuert, etc.

Weitere Lösungsideen?

  • Neuinstallation: vielleicht ist durch die instabile Stromversorgung in der alten Wohnung damals ein Schreibfehler in der Festplatte aufgetreten. Da könnte ich das OS (mal wieder) neu installieren. Wäre mega nervig… aber wenn ihr sagt, dass es was bringen könnte, nagut.
  • Neuinstallation nach Check: der SMART-Checkt könnte fehleranfällig sein. Es gibt auch destruktive Methoden, aber danach wäre die NVMe platt.
  • Neue Komponenten: ich könnte das Mainboard, samt CPU und RAM, ersetzen. ^Wenn ich Geld hätte.^
  • …?

Ich weiß wirklich nicht mehr weiter… was soll ich tun?


Edit 1

  • Danke für eure unzähligen Kommentare! Die waren enorm hilfreich!
  • Da der Live-USB und die Benchmarks unauffällig und stabil waren, besteht die Vermutung, dass es an der Festplatte liegt. Deswegen teste ich erstmal meine eingebaute Zweit-NVMe mit einem neu installiertem System.
  • Wenn das nichts bringt, schau ich wegen dem Mainboard/ BIOS und update das mal
  • Und dann schau ich weiter.
  • @[email protected]
    link
    fedilink
    Deutsch
    2
    edit-2
    9 months ago

    Ich hatte ein ähnliches Problem. Lag an einer faulty NVME respektive irgendeiner banalen Inkompatibilität mit dem Controller auf dem Mainboard. Sobald die Festplattenlast etwas höher wurde, fror das System ein und war teils über mehrere Minuten nicht nutzbar. Das passierte auch bei banalen Dingen wie Steam-Updates.

    Hast du mal versucht, das System auf einer anderen Platte zu starten? SMART ist kein verlässlicher Indikator hier meiner Meinung nach.

    Lass mal eine Weile iotop laufen (sichtbar!) und check, welche Prozesse beim Freeze so aktiv sind. Vor ein paar Jahren hätte ich noch geraten, diesen nervigen Baloo file indexer auszuschalten, der mit KDE kommt, aber ich glaube, das Problem der hohen Last besonders bei SSDs haben sie inzwischen ganz gut im Griff.

    • @[email protected]OP
      link
      fedilink
      19 months ago

      Hatte ich vor, danke! Ich werd mir jetzt mal testweise für ein paar Tage oder Wochen auf meiner alternativen NVMe im anderen Slot ne andere Distro (oder vielleicht sogar Windows?) installieren und mal schauen, was dabei rauskommt.

      • @[email protected]
        link
        fedilink
        Deutsch
        1
        edit-2
        9 months ago

        Windows würde ich nur installieren, wenn dein Ziel ist, Windows zu nutzen. Ansonsten musst du dich wohl oder übel mit dem Problem so auseinandersetzen, dass du es lösen, nicht nur umgehen kannst.

        (ich erspare mir hier mal die allgemeinen Belehrungen darüber, wie unsinnig es ist, ohne konkreten Anwendungsfall heutzutage noch Windows zu nutzen und bitte dich nur, es nicht zur tun)

        • @[email protected]OP
          link
          fedilink
          1
          edit-2
          9 months ago

          Windows würde ich nur installieren, wenn dein Ziel ist, Windows zu nutzen. Ansonsten musst du dich wohl oder übel mit dem Problem so auseinandersetzen, dass du es lösen, nicht nur umgehen kannst.

          Mir gings eher darum, im Ausschlussverfahren zu testen, ob es vielleicht ein Kernel- oder Treiberproblem ist und z.B. das MB mit OSs außer Windows zickt. Kann man ja nie wissen…

          Ich wollte eh schon mal zum Testen die neue VanillaOS-Beta installieren und in einem Zeitraum von 2 Wochen den Devs Feedback geben. Mei, dann ist es halt jetzt Zeit dafür 🤷 Wenns da genauso herumspackt weiß ich, dass es nicht an der NVMe liegt.

          • @[email protected]
            link
            fedilink
            Deutsch
            1
            edit-2
            9 months ago

            Verstehe ich, aber wenn du Linux nutzen willst und irgendwas falsch läuft, dann müsstest du es ja mit dem entsprechenden System herausfinden und lösen. Ich setze all dem aber voraus, dass es kein richtiger Hardwaredefekt ist, weil es meiner Einschätzung nach eher nach Firmware/Treiber bzw. Inkompatibilitäten zwischen Komponenten aussieht.

            Versuch doch mal, deinen Rechner eine Weile von einem Live System über USB laufen zu lassen. Tauchen die Probleme da auch auf?

            • @[email protected]OP
              link
              fedilink
              19 months ago

              Ich hab langsam etwas den Überblick über die Threads verloren, falls ich das also schon erwähnt habe, sorry.

              Ich habe im Post bereits geschrieben, dass ich ne Zeit lang (~3 h) einen Live-USB mit Mint hab laufen lassen, da ich meine CPU mit verschiedenen Benchmarkalgorithmen stressgetestet habe.
              Einen Memtest hab ich auch per USB gemacht.

              Beide liefen komplett flüssig und fehlerfrei. Wie jemand anderes schon erwähnt hat, ist der Haupt-Fehlerkandidat momentan meine Festplatte, da SSDs und NVMes angeblich einfach so, ohne Fehlermeldung oder Warnung, den Geist aufgeben und das dann Probleme machen kann.

              Falls das Problem auf meiner anderen Festplatte auch bestehen bleibt, schau ich mir das MB an und aktualisiere meine BIOS-Treiber.
              Wenn das auch nichts bringt, dann zerlege ich den PC und schaue, ob es an bestimmten Hardwarekomponenten liegt.

              • @[email protected]
                link
                fedilink
                Deutsch
                19 months ago

                Ja, NVME ist definitiv ein heißer Kandidat, das denke ich wie gesagt auch. Wenn es von Live USB rennt, dann ist RAM und eigentlich auch jede andere Komponente ausgeschlossen.

                Ich hab es ja bereits erwähnt, ich hatte den gleichen Fehler und bei mir lag es nicht an einer kaputten, sondern einer schlechten NVME. Seitdem kaufe ich nur noch Pro Evos und hatte dieses Problem auf 15 Rechnern privat wie geschäftlich bisher nicht wieder.