Die Open Source Initiative stellt die offizielle Definition von quelloffener künstlicher Intelligenz vor und fordert Tech-Konzerne heraus.

Damit ein KI-System als quelloffen gilt, müssen demnach Details zu den Trainingsdaten so offengelegt werden, damit sie von Dritten verstanden und nachgebildet werden können. Zudem muss der vollständige Code, der für die Erstellung und Ausführung der KI verwendet wurde, öffentlich sein und die Gewichtung der Trainingsdaten, auf deren Grundlage die KI ihre Ergebnisse erzielt, müssen einsehbar sein.

Links:

  • @General_Effort
    link
    14 days ago

    Sicherlich reichen die Daten in den seltensten Fällen um das Verhalten komplett Vorhersagen zu können. Aber sie bestimmen eben das Verhalten auch mit.

    Ja, Daten bestimmen das Verhalten eines Programms mit, sonst wäre es nicht weit her mit der Datenverarbeitung.

    Nein, das ist nicht neu.

    Halte ich für falsch, Urheberrecht kann doch auch genauso für Quellcode gelten. Und Code an dem jemand anderes das Urheberrecht inne hat den darf ich auch nicht als Open Source veröffentlichen.

    Eben. Du erkennst den Unterschied.

    Ich denke das hängt davon ab wen du fragst und wen du zur Community zählst. Wenn du die Stellungnahmen von FSF oder CCC oder dergleichen liest dann sehe ich da eher meine Sichtweise bestätigt.

    Mit Open-Source-KI-Community meine ich Leute, die Open-Source-KI erstellen und benutzen. Ich weiß nicht, was diese Organisationen mit KI zu tun haben.

    Was ist eigentlich dein Interesse? Der Kollege will PR machen für die Copyright-Industrie. Und du? Mir ist auch nicht klar, worin die persönliche Erfahrung besteht. Ein besonderes Technikverständnis erkenne ich nicht.

    • @[email protected]
      link
      fedilink
      Deutsch
      14 days ago

      Ja, Daten bestimmen das Verhalten eines Programms mit, sonst wäre es nicht weit her mit der Datenverarbeitung. Nein, das ist nicht neu.

      Willst du mich denn absichtlich nicht verstehen? Daten bestimmen jetzt die internen logischen Abläufe im System mit, wie dargelegt das Beispiel mit den Elefanten. Das ist sehr wohl neu (naja so neu wie KI eben). Trainingsdaten sind nicht einfach Eingangsdaten, wie sie bei der Anwendung einer gewöhnlichen Datenverarbeitung vorliegen. Sondern sie sind integraler Bestandteil der Entwicklung einer Datenverarbeitung. Grundlegende Teile des Systemverhaltens werden erst durch die Trainingsdaten bestimmt und zwar unabhängig davon zB welche Eingangsdaten in einer Produktivphase später anliegen.

      Eben. Du erkennst den Unterschied.

      Nein, Urheberrecht gilt für Daten und Code gleichermaßen, an dieser Stelle ist eben genau kein Unterschied. Konnte man das wirklich irgendwie falsch verstehen?

      Was ist eigentlich dein Interesse?

      Ich habe hier nicht wirklich ein Interesse sondern nur eine persönliche Überzeugung. Ich bin jedenfalls nicht aus beruflichen Gründen auf Lemmy unterwegs, falls das die Frage war. Am ehesten geht es mir um die Diskussion und den Ideenaustausch?

      Mir ist auch nicht klar, worin die persönliche Erfahrung besteht. Ein besonderes Technikverständnis erkenne ich nicht.

      😀 Sind wir jetzt auf dieser Ebene angekommen? Meine persönliche Erfahrung besteht darin, dass ich in der IT zum Thema promoviert habe und danach seit ~3 Jahren in leitender Position in der freien Wirtschaft in der KI Entwicklung weiter arbeite (beides mit Fokus auf embedded AI und im Automotive Bereich). Wo kommt denn bitte dein überlegenes Technikverständnis her?

      Ich weiß nicht, was diese Organisationen mit KI zu tun haben.

      Klassischerweise würde ich beide auch eher zur Open Source als zur KI Community zählen, aber bei der Frage nach Open Source KI gibt es doch die Überschneidung die beides relevant macht? Und auch wenn KI nicht der Fokus ist halte ich die Einschätzungen für relevant, an Fachwissen und Erfahrungen für eine fundierte Einschätzung mangelt es sicherlich in beiden Orgas nicht.

      • @General_Effort
        link
        14 days ago

        Daten bestimmen jetzt die internen logischen Abläufe im System mit, wie dargelegt das Beispiel mit den Elefanten. Das ist sehr wohl neu (naja so neu wie KI eben). Trainingsdaten sind nicht einfach Eingangsdaten, wie sie bei der Anwendung einer gewöhnlichen Datenverarbeitung vorliegen. Sondern sie sind integraler Bestandteil der Entwicklung einer Datenverarbeitung. Grundlegende Teile des Systemverhaltens werden erst durch die Trainingsdaten bestimmt und zwar unabhängig davon zB welche Eingangsdaten in einer Produktivphase später anliegen.

        Bei den zur Zeit diskutierten KI-Modellen handelt es sich mathematisch um lineare Gleichungssysteme. Die Dateien, die als KI-Modelle geteilt werden, enthalten die Parameter, welche die einzelnen Glieder gewichten, als Fließkommazahlen. Beim Training werden die Parameter schrittweise angenähert, um einen Fehler zu verkleinern. Vom Prinzip her ist das wie das Newton-Verfahren. (Es gibt aber auch andere Verfahren, die aber zZ kaum praktische Bedeutung haben. In Zukunft kann sich das alles ändern.)

        Das ist eine sehr traditionelle Computeranwendung. Dass man Zahlentabellen lädt, die das Verhalten des Systems entscheidend beeinflussen, ist auch ein alter Hut.

        Nein, Urheberrecht gilt für Daten und Code gleichermaßen, an dieser Stelle ist eben genau kein Unterschied.

        Ja, Code mit einer gewissen Länge fällt normalerweise unter Urheberrecht. Deswegen kann man Code auch lizenzieren, wenn man die entsprechenden Rechte hat.

        Daten an sich fallen eigentlich nicht unter Urheberrecht. Die Trainingsdaten bestehen bei genAI aber meist aus “geschützten” Inhalten. Wer Daten kuratiert und ein damit trainiertes KI-Produkt teilt, hat deswegen noch lange nicht das Recht, den Satz weiterzugeben.

        Ich habe hier nicht wirklich ein Interesse sondern nur eine persönliche Überzeugung. Ich bin jedenfalls nicht aus beruflichen Gründen auf Lemmy unterwegs, falls das die Frage war. Am ehesten geht es mir um die Diskussion und den Ideenaustausch?

        Ich frage, weil es viele Leute gibt, die meinen, sie würden Geld bekommen, wenn sich solche abstrusen Ideen durchsetzen.

        Code ist normalerweise das geistige Eigentum von jemandem. Das fertig kompilierte Programm ist immer noch das Eigentum dieser Person.

        Um ein KI-Produkt zu trainieren, musst du mit mehr oder weniger Mühe einen Datensatz kuratieren und dann mehr oder weniger Geld ausgeben für Hardware/Strom, oder Cloud-Compute. Da würden gerne Leute kommen und sagen: “Yoink. Danke fürs Kompilieren, du Depp.” Copyright-Leute sind oft so ideologisch gefestigt, dass die bei sowas nicht mal Schuld empfinden. Eine moderne Gesellschaft kann man so natürlich nicht haben. Wir werden’s noch erfahren.

        Wo kommt denn bitte dein überlegenes Technikverständnis her?

        Ich bringe Fakten und Argumente und verweise nicht auf “persönliche Erfahrung”, um Behauptungen zu untermauern.

        Klassischerweise würde ich beide auch eher zur Open Source als zur KI Community zählen, aber bei der Frage nach Open Source KI gibt es doch die Überschneidung die beides relevant macht? Und auch wenn KI nicht der Fokus ist halte ich die Einschätzungen für relevant, an Fachwissen und Erfahrungen für eine fundierte Einschätzung mangelt es sicherlich in beiden Orgas nicht.

        Ich erkenne bei der FSF keine relevante Expertise. Beim CCC sehe ich keine entsprechende Stellungnahme.