InternetIntelligenz 2.0

kostenlos Pressemitteilungen einstellen | veröffentlichen | verteilen

Pressemitteilungen

 

Wenn das Sprachmodell wie ein Baby lernt

ID: 2231734

(PresseBox) - Ob in digitalen Assistenzsystemen, bei der Textzusammenfassung oder beim Programmieren– fast überall, wo Sprache effizient verarbeitet werden muss, werden KI-gestützte große Sprachmodelle – sogenannte Large Language Models (LLMs) – eingesetzt. Doch die vermeintlichen Alleskönner haben ihre Schwächen. Eine davon: Manchmal werden Billionen von Wörtern benötigt, um ein Modell zu trainieren. Das hat erhebliche Nachteile – von den hohen Kosten über den enormen Energieverbrauch bis zur höheren Anfälligkeit für Verzerrungen.

Außerdem scheitern LLMs oft bei Aufgaben, die uns Menschen trivial erscheinen, erklärt Dr. Lukas Edman, Postdoc am Lehrstuhl für Data Analytics and Statistics von Prof. Alexander Fraser amTUM Campus Heilbronn:„Sie haben Schwierigkeiten mit langfristigen Zusammenhängen. Wenn man sich zum Beispiel sehr lange mit ChatGPT unterhält, versteht der Chatbot oft nicht mehr, was vor einiger Zeit gesagt wurde. Sie haben Probleme mit logischem Denken – komplexe Aufgaben muss man in Teilschritte zerlegen. Sogar an ganz einfachen Aufgaben scheitern die Sprachmodelle: Sie schaffen es oft nicht, einen bestimmten Buchstaben in einem Wort an einer bestimmten Stelle einzufügen, oder sie erkennen nicht, dass ein Satz grammatisch korrekt sein kann, obwohl er inhaltlich keinen Sinn ergibt.“ Der junge Wissenschaftler forscht zum Masked Language Modeling (MLM) – einer Trainingsmethode, bei der einzelne Wörter eines Satzes maskiert, also ausgelassen, werden. Das Modell soll die fehlenden Wörter vorhersagen und so lernen, die Bedeutung aus dem Kontext zu erschließen. MLM verbessert das allgemeine Verständnis von Sätzen und ermöglicht es, mit deutlich weniger Trainingsdaten auszukommen als zuvor. Der größte Vorteil aus Edmans Sicht: „Die Methode ist dem menschlichen Lernen sehr ähnlich: Wenn wir jemandem zuhören, versucht unser Gehirn ständig,das nächste Wort vorherzusagen. Ist unsere Vorhersage falsch, müssen wir uns anpassen und lernen daraus. Genauso funktioniert das Training der Modelle – und das macht es so einfach.“ 





Verfeinerung durch gezieltes Maskieren 

Doch auch MLM hat Nachteile: Bei einfachen Sätzen lernt das Modell sehr schnell, welches Wort fehlt. Lässt man zum Beispiel im englischsprachigen Satz „I like to go shopping“ das Wort „to“ weg, befüllt es die Lücke bereits nach wenigen Anläufen korrekt. „Wird eine solche Stelle weiterhin maskiert, bringt das keine neuen Erkenntnisse und kostet unnötig Rechenzeit“, sagt Edman. 

Hier kommt Adaptive MLM ins Spiel– eine Verfeinerung des Standard-MLM, bei der die maskierten Wörter gezielt ausgewählt werden. „Zunächst lassen wir zufällig ausgewählte Wörter weg. Während des Trainings überprüfen wir, ob das Modell sie korrekt vorhersagt. Alle richtig vorhergesagten Wörtergewichten wir niedriger, sodass sie künftig seltener maskiert werden. Stattdessen konzentriert sich das Training auf die schwierigen Fälle“, erklärt Edman. Beispielsweise sind vielseitig verwendbare Adjektive oder Adverbien schwieriger vorherzusagen als sehr gebräuchliche Wörterwie das englische „the“ oder „and“. 

Ohne große Datenmengen Zusammenhänge erkennen  

Oft ist es hilfreich, die Wörter in Token – also kleinere Einheiten – oder in noch feinere Bestandteile – sogenannte Subtoken – zu zerlegen. So kann das Modell durch die Aufspaltung des Wortes „walking“ in die Token „walk“ und „ing“ den Zusammenhang zwischen „walk“und „walking“ erkennen, ohne auf extrem große Trainingsdatenmengen angewiesen zu sein. „Tatsächlich gibt es hier einige Fortschritte, vor allem bei der Adjektivnominalisierung – also wenn ein Adjektiv wie ,laughable‘ in ein Nomen wie ,laughability‘ umgewandelt wird. Dabei arbeiten wir oft mit erfundenen Adjektiven wie ,wuggable‘, die das Modell in das Nomen ,wuggability‘ umwandeln soll. So lernt es die Regel, dass aus ,able‘ typischerweise ,ability‘ wird und nicht etwa ,ness‘“, erklärt Edman. 

Ziel sei es, ein Modell zu entwickeln, das auf alle Buchstaben in jedem Wort zugreifen kann:„Wir Menschen können das. Normalerweise ignorieren wir diese Informationen beim Lesen. Aber wenn wir sehen, dass etwas falsch geschrieben ist, fällt es uns auf. Auch Sprachmodelle sollten dazu in der Lage sein.“ Um dieses Ziel zu erreichen, gelte es, adaptive Trainingsansätze weiter systematisch zu untersuchen: „Beispielsweise könnten wir analysieren, wie sich das Modell im großen Maßstab verhält. Dazu würden wir größere Datensätze nutzen und vergleichen, ob die Vorteile von Adaptive MLM wirklich nur bei einer geringeren Datenmenge zum Tragen kommen.“ Außerdem möchte Edman das gleichzeitige Maskieren mehrerer Wörter, die in einem Zusammenhang stehen, erproben: „Damit könnte man grammatikalische Konzepte noch besser vermitteln.“ 

Chance auf stärkere Kooperation 

Einen großen Erfolg feierte Edman im vergangenen Herbst: Bei der Conference on Empirical Methods in Natural Language Processing (EMNLP) im chinesischen Suzhou, einer führenden internationalen Fachkonferenz im Bereich Empirische Sprachverarbeitung und Maschinelles Sprachverstehen, gewann er den ersten Preis bei der Baby Language Modeling (BabyLM) Challenge. BabyLM bezeichnet einen Forschungsansatz, bei dem untersucht wird,wie Sprachmodelle mit sehr wenig Trainingsdaten Sprachen erlernen – ähnlich wie ein Baby, dem auch nicht unendlich viele Daten zur Verfügung stehen. „Der Challenge Award bedeutet mir sehr viel“, sagt Edman. „Er trägt dazu bei, meine Forschung bekannt zu machen und überzeugt hoffentlich andere Menschen, dass es sich lohnt, sich mit dem Thema zu beschäftigen. Gleichzeitig bietet sich die Chance, mit anderen fachkundigen Forschenden zusammen zu arbeiten. Dieses ist besonders rechenintensiv – daher hilft es enorm, dass wir eine effiziente Methode gefundenhaben.“ 

Unternehmensinformation / Kurzprofil:
drucken  als PDF  an Freund senden  Bürokratieabbau im Bildungsbereich: Enquete-Kommission legt neue Empfehlungen vor Quanten als Wegbereiter für Innovationen
Bereitgestellt von Benutzer: PresseBox
Datum: 17.02.2026 - 08:47 Uhr
Sprache: Deutsch
News-ID 2231734
Anzahl Zeichen: 0

Kontakt-Informationen:
Ansprechpartner: Kerstin Besemer
Stadt:

Heilbronn


Telefon: +49 (7131) 26418-501

Kategorie:

Bildung & Beruf



Dieser Fachartikel wurde bisher 4 mal aufgerufen.


Der Fachartikel mit dem Titel:
"Wenn das Sprachmodell wie ein Baby lernt"
steht unter der journalistisch-redaktionellen Verantwortung von

Die TUM Campus Heilbronn gGmbH (Nachricht senden)

Beachten Sie bitte die weiteren Informationen zum Haftungsauschluß (gemäß TMG - TeleMedianGesetz) und dem Datenschutz (gemäß der DSGVO).

Quanten als Wegbereiter für Innovationen ...

Nach dem gelungenen Startschuss im Vorjahr geht das Creative Destruction Lab (CDL) in seine zweite Runde. Dafür haben sich die französischen und deutschen Business SchoolsHEC ParisundESMT Berlinzusammengeschlossen, um innovative Computertechnologie ...

Alle Meldungen von Die TUM Campus Heilbronn gGmbH



 

Wer ist Online

Alle Mitglieder: 50.290
Registriert Heute: 0
Registriert Gestern: 0
Mitglied(er) online: 0
Gäste Online: 46


Bitte registrieren Sie sich hier. Als angemeldeter Benutzer nutzen Sie den vollen Funktionsumfang dieser Seite.