Textgenerierung: Relationale Muster erkennen ohne globale Abhängigkeiten zu verlieren

Die überwachte Relationsextraktion ist eine effiziente Strategie, um relationale Fakten aus unstrukturiertem Text ohne gelabelte Trainingsdaten zu finden. Ein neueres Paradigma zur Entwicklung von Relationsextraktoren ist die Verwendung von vortrainierten Transformer-Sprachmodellen, um qualitativ hochwertige Satzrepräsentationen zu erzeugen. Da der ursprüngliche Transformer jedoch lokale Abhängigkeiten und phrasale Strukturen nur unzureichend erfasst, können bestehende Transformer-basierte Methoden verschiedene relationale Muster in Sätzen nicht identifizieren. Um dieses Problem zu beheben arbeiten Experten – vor allem in China – daran, neuartige, fernüberwachte Relationsextraktionsmodell einzusetzen, die ein speziell entworfenes, musterbewusstes Selbstbeobachtungsnetzwerk verwenden, um automatisch relationale Muster für vortrainierte Transformers in einer End-to-End-Modellierung zu entdecken.


Dieser Ansatz geht davon aus, dass die Korrelation zwischen zwei benachbarten Token die Wahrscheinlichkeit widerspiegelt, dass sie zu demselben Muster gehören. Basierend auf dieser Annahme wird ein neuartiges Selbstbeobachtungsnetzwerk entwickelt, um die Wahrscheinlichkeitsverteilung aller Muster in einem Satz zu generieren. Anschließend wird die Wahrscheinlichkeitsverteilung als Beschränkung in der ersten Transformer-Schicht angewendet, um die Aufmerksamkeitsindikatoren dazu zu bringen, den relationalen Musterstrukturen zu folgen. Auf diese Weise werden die feinkörnigen Musterinformationen im vortrainiertem Transformer verbessert, ohne dass globale Abhängigkeiten verloren gehen. Umfassende experimentelle Ergebnisse auf zwei beliebten Benchmark-Datensätzen zeigen, dass dieses Modell besser abschneidet als die modernsten Basislösungen.


Die Extraktion von Beziehungen, definiert als die Aufgabe, semantische Beziehungen zwischen zwei gegebenen benannten Entitäten aus unstrukturiertem Text zu extrahieren, ist von entscheidender Bedeutung für die Verarbeitung natürlicher Sprache und die Erstellung von Wissensgraphen. Sie wird in vielen Anwendungen eingesetzt, z. B. bei der Textkategorisierung, der Beantwortung von Fragen und der Websuche. Konventionelle überwachte Methoden sind zeitaufwändig, da sie eine große Anzahl von manuell markierten Trainingssätzen erfordern. Daher zeichnet sich der Einsatz einer entfernten Überwachung ab, um automatisch Beziehungskennzeichnungen für Entitätspaare zu erzeugen. Sie gehen davon aus, dass, wenn ein Entitätspaar in bestehenden Wissensgraphen eine Beziehung hat, jeder Satz, der die beiden Entitäten erwähnt, die Beziehung auf irgendeine Weise ausdrücken könnte.


Aktuell ist diese Annahme meist zu fokussiert so das die meisten automatisch generierten Sätze sehr lang sind und viele Wörter enthalten, die nichts mit der Zielrelation zu tun haben. Dabei wird die kontinuierliche lokale Struktur in Sätzen, die die Zielrelation ausdrücken können, als „Muster“, und diejenige, die eng mit der Zielrelation verbunden ist, als relationales Muster bezeichnet. Es liegt auf der Hand, dass die Identifizierung von Beziehungsmustern in Sätzen genauere Merkmale für den Relationsextraktor liefern und den Prozess der Beziehungsvorhersage interpretierbarer machen kann.


Bisherige überwachte Modelle zur Extraktion von Beziehungen stützen sich in der Regel auf Piece-wise Convolutional Neural Network (PCNN), Aufmerksamkeitsmechanismen auf Wortebene und Dependency Parser, um die lokalen Strukturen hervorzuheben und die Informationen der relationalen Muster zu erfassen. Mit der Entwicklung von vortrainierten Sprachmodellen besteht ein neueres Paradigma zur Entwicklung von Relationsextraktoren darin, vortrainierte Transformatoren zu verwenden, um qualitativ hochwertige Satzrepräsentationen zu erzeugen. Der ursprüngliche Transformator ist jedoch schwach bei der Erfassung lokaler Abhängigkeiten und phrasaler Strukturen, was es für Transformator-basierte Methoden schwierig macht, relationale Muster in Szenarien mit entfernter Überwachung zu erfassen.


Dieses Problem scheint lösbar zu sein durch ein neuartiges, auf einem Pattern-aware Self-Attention Network basierendem, fernüberwachten Relationsextraktionsmodell (PSAN-RE), das in der Lage ist, automatisch verschiedene Formen von relationalen Mustern für vortrainierte Transformers in einem einheitlichen Rahmen zu identifizieren. Die Grundannahme ist dabei allerdings, dass die Korrelation zwischen zwei benachbarten Token die Wahrscheinlichkeit widerspiegelt, dass sie zu demselben Muster gehören. Um festzustellen, ob mehrere benachbarte Token ein Muster bilden können, verwendet PSAN-RE ein skaliertes Punktprodukt, um Token-Korrelationen zu modellieren und generiert dann die Wahrscheinlichkeitsverteilung für alle Muster auf der Grundlage eines neuartigen pattern-aware self-attention network.


Um die Musterinformationen in den vortrainierten Transformer einzuspeisen, wendet PSAN-RE die erhaltene Wahrscheinlichkeitsverteilung auf die erste Transformer-Schicht an, um ihre Aufmerksamkeitswerte anzupassen. Folglich sind die Token in verschiedenen Mustern gezwungen, sich nicht gegenseitig zu beachten und die globalen Abhängigkeiten bleiben in den nachfolgenden Schichten erhalten. Umfassende experimentelle Ergebnisse auf zwei weit verbreiteten Benchmark-Datensätzen zeigen, dass dieses Modell besser abschneidet als modernste Basislösungen. Die vorgeschlagene Methode wäre damit in der Lage, verschiedene Formen von relationalen Mustern automatisch zu identifizieren, ohne globale Abhängigkeiten zu verlieren.

(Wolfgang Zehrt, Berlin)