Spanien setzt AI Act zuerst um: Hohe Strafen für nicht gekennzeichnete KI-Bilder geplant

General_Effort · 5 days ago

Spanien setzt AI Act zuerst um: Hohe Strafen für nicht gekennzeichnete KI-Bilder geplant

excral@feddit.org · 5 days ago

Interessanter Weise wären, vorausgesetzt das wird auch konsequent umgesetzt, einer der Hauptprofiteure die KI-Anbieter selbst. Selbst-Kannibalismus, das heißt das “Vergiften” der Trainingsdaten durch selbst generierte Daten, ist längst ein riesiges Problem beim Training besserer Modelle, da ein immer größerer Teil der Datensätze aus dem Internet selbst KI generiert ist. Wären diese klar gekennzeichnet, wäre es ein leichtes die aus den Datensätzen zu filtern und auf “sauberen” Daten zu trainieren.

killingspark@feddit.org · 5 days ago

Verbietet das Ding einfach alles als KI generiert zu kennzeichnen?

General_Effort · 5 days ago

Das ist ein populäres Missverständnis. Es gibt keinen grundlegenden Unterschied zwischen Daten, die von KI oder Menschen gemacht sind. Deswegen kann es auch keine zuverlässigen KI-Detektoren geben.

excral@feddit.org · 5 days ago

Ich verstehe nicht genau was du damit sagen willst, bzw. was das Missverständnis sein soll?

Training artificial intelligence (AI) models on AI-generated text quickly leads to the models churning out nonsense, a study has found. This cannibalistic phenomenon, termed model collapse, could halt the improvement of large language models (LLMs) as they run out of human-derived training data and as increasing amounts of AI-generated text pervade the Internet.

Quelle

Das Problem entsteht ja schon im Grundprinzip von GANs. Die eine Hälfte wird darauf trainiert echte und generierte Daten zu unterscheiden. Wenn aber in den Referenzdaten immer mehr “falsche”, also generierte Daten auftauchen, kann das Ganze schon vom Prinzip her nicht funktionieren.

General_Effort · 5 days ago

Nature ist mit der Veröffentlichung nicht gerade in meinem Ansehen gestiegen.

Was da gemacht wurde: Man nimmt ein generatives Modell. Damit erzeugt man zufällig Daten. Mit diesen Daten trainiert man ein neues Modell und immer wieder so weiter.

Natürlich geht in jeder Generation etwas verloren. Wenn ein Modell nicht ausspuckt oder nicht lernt, zB, dass der 3. Oktober Tag der Deutschen Einheit ist, dann wissen Folgegenerationen das nicht. Es gibt kein prinzipielles Problem mit KI-generierten Daten.

Das Prinzip hinter GANs ist das man 2 KIs gegeneinander antreten lässt. Eine KI generiert etwas, zB ein Bild. Die andere KI unterscheidet dann, ob so ein Bild von der Gegner-KI generiert wurde, oder im Trainingsdatensatz vorkommt. Im Idealfall werden beide immer besser und schaukeln sich gegenseitig hoch bis zur Perfektion. Ob die Trainingsdaten von irgendeiner anderen KI generiert wurden, ist egal.

General_Effort · 5 days ago

Ich glaube, die Kennzeichnungspflicht gilt nicht für das Weiterverteilen, ansonsten müsste Lemmy wohl alle Bilder als potenziell KI-generiert kennzeichnen. Mal sehen, wie schlimm das wird.

rumschlumpel@feddit.org · 5 days ago

Das ist ein guter Hinweis. Der britische Digital Services Act zeigt, dass man da gerade bei kleineren Webseiten sehr schnell sehr viel kaputt machen kann.

nahostdeutschland@feddit.org · 5 days ago