• excral@feddit.org
    link
    fedilink
    arrow-up
    12
    ·
    5 days ago

    Interessanter Weise wären, vorausgesetzt das wird auch konsequent umgesetzt, einer der Hauptprofiteure die KI-Anbieter selbst. Selbst-Kannibalismus, das heißt das “Vergiften” der Trainingsdaten durch selbst generierte Daten, ist längst ein riesiges Problem beim Training besserer Modelle, da ein immer größerer Teil der Datensätze aus dem Internet selbst KI generiert ist. Wären diese klar gekennzeichnet, wäre es ein leichtes die aus den Datensätzen zu filtern und auf “sauberen” Daten zu trainieren.

    • General_EffortOP
      link
      fedilink
      arrow-up
      4
      arrow-down
      3
      ·
      5 days ago

      Das ist ein populäres Missverständnis. Es gibt keinen grundlegenden Unterschied zwischen Daten, die von KI oder Menschen gemacht sind. Deswegen kann es auch keine zuverlässigen KI-Detektoren geben.

      • excral@feddit.org
        link
        fedilink
        arrow-up
        2
        arrow-down
        1
        ·
        5 days ago

        Ich verstehe nicht genau was du damit sagen willst, bzw. was das Missverständnis sein soll?

        Training artificial intelligence (AI) models on AI-generated text quickly leads to the models churning out nonsense, a study has found. This cannibalistic phenomenon, termed model collapse, could halt the improvement of large language models (LLMs) as they run out of human-derived training data and as increasing amounts of AI-generated text pervade the Internet.

        Quelle

        Das Problem entsteht ja schon im Grundprinzip von GANs. Die eine Hälfte wird darauf trainiert echte und generierte Daten zu unterscheiden. Wenn aber in den Referenzdaten immer mehr “falsche”, also generierte Daten auftauchen, kann das Ganze schon vom Prinzip her nicht funktionieren.

        • General_EffortOP
          link
          fedilink
          arrow-up
          2
          ·
          5 days ago

          Nature ist mit der Veröffentlichung nicht gerade in meinem Ansehen gestiegen.

          Was da gemacht wurde: Man nimmt ein generatives Modell. Damit erzeugt man zufällig Daten. Mit diesen Daten trainiert man ein neues Modell und immer wieder so weiter.

          Natürlich geht in jeder Generation etwas verloren. Wenn ein Modell nicht ausspuckt oder nicht lernt, zB, dass der 3. Oktober Tag der Deutschen Einheit ist, dann wissen Folgegenerationen das nicht. Es gibt kein prinzipielles Problem mit KI-generierten Daten.

          Das Prinzip hinter GANs ist das man 2 KIs gegeneinander antreten lässt. Eine KI generiert etwas, zB ein Bild. Die andere KI unterscheidet dann, ob so ein Bild von der Gegner-KI generiert wurde, oder im Trainingsdatensatz vorkommt. Im Idealfall werden beide immer besser und schaukeln sich gegenseitig hoch bis zur Perfektion. Ob die Trainingsdaten von irgendeiner anderen KI generiert wurden, ist egal.

  • General_EffortOP
    link
    fedilink
    arrow-up
    8
    ·
    5 days ago

    Ich glaube, die Kennzeichnungspflicht gilt nicht für das Weiterverteilen, ansonsten müsste Lemmy wohl alle Bilder als potenziell KI-generiert kennzeichnen. Mal sehen, wie schlimm das wird.

    • rumschlumpel@feddit.org
      link
      fedilink
      arrow-up
      4
      ·
      5 days ago

      Das ist ein guter Hinweis. Der britische Digital Services Act zeigt, dass man da gerade bei kleineren Webseiten sehr schnell sehr viel kaputt machen kann.