Die Open Source Initiative stellt die offizielle Definition von quelloffener künstlicher Intelligenz vor und fordert Tech-Konzerne heraus.

Damit ein KI-System als quelloffen gilt, müssen demnach Details zu den Trainingsdaten so offengelegt werden, damit sie von Dritten verstanden und nachgebildet werden können. Zudem muss der vollständige Code, der für die Erstellung und Ausführung der KI verwendet wurde, öffentlich sein und die Gewichtung der Trainingsdaten, auf deren Grundlage die KI ihre Ergebnisse erzielt, müssen einsehbar sein.

Links:

  • @General_Effort
    link
    223 days ago

    Eigentlich bin ich eher neugierig wegen deiner persönlichen Erfahrung. Wo wird das so gehandhabt, dass immer Trainingsdaten mit verteilt werden?

    • @[email protected]
      link
      fedilink
      Deutsch
      222 days ago

      Ich habe ein paar Jahre an der Uni als Wimi gearbeitet, die Wissenschaft (die du unten schon genannt hattest) wäre also ein Beispiel wo ich persönliche Erfahrung sammeln durfte.

      Aber auch mit Erfahrung in der freien Wirtschaft kann man argumentieren: die Beobachtung ist das die Daten wesentlich das Verhalten des Systems beeinflussen und damit kommt ihnen eine ähnliche Rolle zu wie Code in traditioneller SW.

      Daher geht man z.B. dazu über für Daten ähnliche Qualitätsstandards zu definieren. Z.B. hat man für Code Spezifikationen und Unittests die das Prüfen. Es ist in der Wirtschaft, je nach Bereich und Qualitätsanforderungen, mittlerweile Standard sowas auch für Datensätze zu machen. Man prüft also automatisch und bei jeder Änderung bestimmte statistische Eigenschaften der Daten wie Klassenverteilung, Balanciertheit, auch über Einflussgrößen die nicht explizit trainiert werden. Also z.B. für eine Gesichtserkennung prüft man die Verteilung von Geschlecht, Ethnizität, Alter, … in den Trainingsdaten.

      Auch werden Datensätze genau wie Code in versionierten Repositories vorgehalten.

      De facto hat man also auch in der Wirtschaft die sehr ähnliche Bedeutung und damit auch Handhabung von Daten und Code in KI Systemen erkannt und umgesetzt. Sollten dann nicht die OSS Regeln auch genauso auf Daten übertragbar sein?

      • @General_Effort
        link
        122 days ago

        De facto hat man also auch in der Wirtschaft die sehr ähnliche Bedeutung und damit auch Handhabung von Daten und Code in KI Systemen erkannt und umgesetzt. Sollten dann nicht die OSS Regeln auch genauso auf Daten übertragbar sein?

        OSS ist aber kein Wunschzettel der Wirtschaft. Klar, dass die sich freuen, wenn sie was umsonst kriegen. Geht mir auch so. Aber Unittests oder das Einhalten von irgendwelchen Spezifikationen sind keine Bedingung, dass Code als Open Source gilt.

        • @[email protected]
          link
          fedilink
          Deutsch
          122 days ago

          What? Hab ich das denn irgendwo behauptet?

          Das man beides umsetzt sowohl für Code als auch für Daten sind aber Zeichen dafür, dass Code und Daten im KI Kontext eine ähnliche Funktion haben. Dann ist es doch nur konsequent auch die gleichen Maßstäbe in Hinsicht auf OSS anzulegen?

          • @General_Effort
            link
            122 days ago

            Mit den “Ähnlichkeiten” wäre ich vorsichtig. Es gibt da so viele Missverständnisse.

            Qualitätssichernde Maßnahmen oder bestimmte, wünschenswerte Eigenschaften sind nicht Teil des traditionellen Verständnisses von Open Source. Insofern es da Ähnlichkeiten gibt, spricht das gegen die Forderung.

            • @[email protected]
              link
              fedilink
              Deutsch
              122 days ago

              Aber drücke ich mich denn so missverständlich aus? Die These ist Daten=Code bei KI Systemen. Untermauert durch die aufgezeigten Ähnlichkeiten bzw. ähnliche Entwicklungsmethodiken.

              Und die Erweiterung von Open Source auf Daten erwächst aus Daten=Code, nicht aus dem (nicht)vorhandensein von qualitätssichernden Maßnahmen in OSS.

    • Don Piano
      link
      fedilink
      222 days ago

      Ich kenns so aus den Bereichen computational cognition research und ein wenig (weil nicht mein Gebiet) computational sociology. Da sind es halt oft einfach nur “die Daten”.