
Interview: Corina Vogt-Beck, Wirtschaftregional
Die ETH Zürich und die EPFL in Lausanne werden ein grosses Schweizer Sprachmodell veröffentlichen.
Das grosse Schweizer Sprachmodell (LLM) der ETH und der EPFL stellt einen Meilenstein für offene KI und mehrsprachige LLM dar, schreiben die Hochschulen in einer Mitteilung. Imanol Schlag, Forscher am ETH AI Center, hat das LLM gemeinsam mit Antoine Bosselut und Martin Jaggi von der EPFL federführend entwickelt und trainiert, dies geschah auf der öffentlichen Infrastruktur des Supercomputers «Alps» am nationalen Supercomputer-Zentrum CSCS in Lugano. Wirtschaftregional hat bei Imanol Schlag nachgefragt, was das Schweizer Sprachmodell von kommerziellen Angeboten wie Chat GPT unterscheidet, bei denen man oft nicht weiss, mit welchen Daten sie trainiert werden.
Sie sagen, dass Ihr LLM voll ständig offen sein wird und Innovationen in Wissenschaft, Gesellschaft und Industrie fördern soll. Wie wollen Sie sicherstellen, dass Ihr Modell der breiten Öffentlichkeit zugutekommt?
Imanol Schlag: Unser LLM gehört zu den grössten Modellen, die von einer öffentlichen Institution trainiert wurden. Des Weiteren ist unser Prozess komplett offen: Quellcode, Modellparameter, sowie welche Daten ins Training eingeflossen sind, werden frei verfügbar und transparent sein. So können Universitäten, Unternehmen und Entwickler es nutzen, ohne von kommerziellen Anbietern abhängig zu sein.
Wer ist konkret Ihre Zielgruppe?
Wissenschaft, Bildung, Unternehmen und die breite Öffentlichkeit, besonders in der Schweiz und in Europa. Wir wollen eine Alternative zu bisherigen KI-Modellen bieten. Das Ziel ist aber nicht, eine Alternative zu persönlichen Assistenten wie Chat GPT zu lancieren.
Kann man sagen, dass Ihr LLM eine Non-Profit-KI ist?
Grundsätzlich ja, der Begriff Non-Profit hat jedoch eine Definition, die hier nicht passt: Es handelt sich schliesslich um ein Modell, das von EPFL und ETHZ entwickelt wurde und nicht von einem Start-up oder Ähnlichem. Die Modellparameter werden frei verfügbar sein mit einer Lizenz, die den kommerziellen Nutzen erlaubt. Darüber hinaus hat unsere Forschungsinitiative keine Absichten, kommerzielle Produkte anzubieten.
Durch wen wird sie finanziert?
Die Forschung der Swiss AI Initiative wird ermöglicht durch die Zusammenarbeit verschiedener Schweizer Forscher. Die Kosten der Infrastruktur trägt das CSCS. Des Weiteren sind 20 Millionen Franken an Forschungsgeldern über vier Jahre von der ETH-Domäne für die Initiative zugesprochen worden. Dadurch wird aber nicht nur das LLM-Projekt unterstützt, sondern auch ein Dutzend andere, wenn auch kleinere, KI-Projekte.
Sie wollen sich für vertrauenswürdige KI einsetzen. Besteht das Risiko, dass gerade ein «offenes» Modell für Desinformation, Manipulation oder politische Einflussnahme missbraucht wird? Wie wollen Sie dies verhindern?
Viele Technologien haben einen solchen «Dual Use»-Charakter. Unser Modell wird, wie auch andere Sprachmodelle, aligniert, um das Missbrauchspotenzial und weitere Risiken zu verkleinern. Das ist ein konkreter Gegenstand der aktuellen Forschung und es ist wichtig, dass diese Forschung und Diskussion transparent sind und mit der Öffentlichkeit geteilt werden, anstatt dass sie in grossen kommerziellen KI-Unternehmen hinter geschlossenen Türen stattfinden.
Was macht eine KI zu einer vertrauenswürdigen KI?
Transparenz, nachvollziehbare Trainingsdaten und Entwicklungsprozesse, Einhaltung von Rechtsvorschriften und öffentliche Entwicklung machen unsere KI vertrauenswürdig.
Wie kann ich als Nutzerin erkennen, ob eine KI vertrauenswürdig ist?
Dafür müssen Sie sich mit den technischen Details auseinandersetzen, sofern diese öffentlich sind.
«Elon Musks KI ruft zum Holocaust auf» lautet eine aktuelle Schlagzeile. Wie kann so etwas geschehen?
Dies ist unklar, da xAI nicht offenlegt, wie ihre KI trainiert wurde. Da xAI Teil von X ist, wurde es möglicherweise in einem automatischen Prozess auf Daten von X trainiert. Das Training auf Daten von sozialen Medien kann sehr problematisch sein.
Ein charakteristisches Merkmal Ihres LLM ist, dass es über 1000 Sprachen beherrscht. Welche Vorteile bietet ein mehrsprachiges Sprachmodell im Vergleich zu Modellen, die nur eine Sprache unterstützen?
Gerade bei offenen Modellen sind die Trainingsdaten oft nur in Englisch. Die führt zu höheren Nutzungskosten in anderen Sprachen und schlechterer Performanz. Durch das Training auf einer grossen Menge von nicht-englischen Webdaten ist unser Modell ein gutes Fundament für die Entwicklung von KI-Produkten für andere Sprachen und Kulturen.
Sie haben bei Microsoft, Google und Meta gearbeitet. Nun entwickeln Sie offene Sprachmodelle als vertrauenswürdige Alternative zu kommerziellen Systemen. Wie kam es zu diesem «Sinneswandel»?
Ich habe bei diesen Firmen während meines Doktoratsstudiums gearbeitet. Die Forschungspraktika waren eine wertvolle Erfahrung, zusätzlich zu meiner Forschungsarbeit im AI-Lab mit meinem Doktorvater Jürgen Schmidhuber. Somit war es also nicht wirklich ein Sinneswandel, es ist aber tatsächlich der Fall, dass fast alle meiner Kollegen ihren Weg zu einem solchen Unternehmen gefunden haben. Wie meine Zukunft aussieht, steht noch offen, aber ich bin stolz darauf, diese Initiative zu leiten und hoffentlich einen Mehrwert für die Gesellschaft in der Schweiz und international leisten zu können.