Sprachtechnologien: Die Zukunft der Texterstellung

GPT-3 und Data-to-Text: Sind Sprachtechnologien die Zukunft der Texterstellung?

Die maschinelle Texterstellung, die Natural Language Generation (NLG), gilt als eine der zukunfträchtigsten Technologien. 

Nicht nur wegen der stetig wachsenden Bedeutung des Online-Handels und der damit verbundenen Menge an zu erstellten Texten, wie etwa Produktbeschreibungen. 

Außerdem ist die maschinelle Texterstellung eine unterstützende Erleichterung für Texter:innen oder Content-Manager:innen, also jedem, der in irgendeiner Weise mit dem Schreiben von Texten jeglicher Art zu tun hat. 

Dabei grenzen sich zwei NLG-Technologien ganz klar ab: GPT und Data-to-Text.

Die zwei Technologien: GPT und Data-to-Text

Generative Pre-trained Transformer (GPT) ist ein Sprachproduktionssystem, das Deep Learning verwendet, um Texte zu erstellen.

Data-to-Text bezeichnet die maschinelle automatisierte Produktion natürlichsprachiger Texte auf Basis von Daten. 

Aber was genau können diese beiden Technologien? Wie unterscheiden sie sich voneinander? Müssen Texter:innen und Content-Manager:innen jetzt Angst haben, dass ihre Jobs durch diese Art Künstliche Intelligenz ersetzt werden?

Im Folgenden werden beide Technologien vorgestellt, ihre Funktionsweisen erläutert und die jeweiligen Vorteile und Schwachstellen beleuchtet. 

GPT-3 und Data-to-Text: Fähigkeiten und Unterschiede

GPT: Definition & Hintergründe

GPT bezeichnet eine Reihe von Large Language Models (LLM) und setzt dabei Deep Learning ein, um natürliche Sprache zu verarbeiten oder zu erzeugen.

Hinter GPT und dessen Entstehen im Jahr 2018, steht das Unternehmen OpenAI, das als Non-Profit-Organisation die ersten beiden Versionen kostenlos als Open Source zur Verfügung stellte. 

Zunächst war auch die Beta-Phase der dritten Generation kostenlos. Mit Beendigung dieser wurde GPT-3 allerdings kostenpflichtig. Die bis dahin gemeinnützige Organisation wurde so zu einer kommerziell arbeitenden Firma. 

Mittlerweile besitzt Microsoft nach der Investition von einer Milliarde Dollar in OpenAI exklusive Lizenzrechte an GPT-3. Das bedeutet, dass OpenAI weiterhin seine öffentlich zugängliche API anbietet und es ausgewählten Nutzern ermöglicht, Texte an GPT-3 oder andere Modelle von OpenAI zu senden und deren Ausgabe zu erhalten. Nur Microsoft wird Zugriff auf den zugrunde liegenden Code von GPT-3 gewährt, so dass das Unternehmen das Modell nach Belieben einbetten, umfunktionieren und verändern kann.

Was kann GPT-3?

GPT-3 ist eine Sprachtechnologie, die mit riesigen Textmengen aus dem Internet trainiert wird und damit unter anderem in der Lage ist:

 

  • Englische Texte zu verfassen
  • Dialoge zu führen 
  • Fragen zu beantworten
  • Programmiercodes zu erstellen 
  • Website-Templates zu designen
  • Tabellen auszufüllen

Wie genau funktioniert GPT?

GPT-3 ist ein Sprachvorhersage-Modell. Das bedeutet, dass es über ein maschinelles Lernmodell in Form eines neuronalen Netzwerks verfügt. Dieses kann einen eingegebenen Text in das umwandeln, was es als das nützlichste Ergebnis vorhersagt.

Trainiert wurde GPT-3 mit Daten aus etwa Wikipedia, Foren, Webtexten und Bücherdatenbanken, die damit die Basis der künstlichen Intelligenz hinter dem Modell sind. Anhand der Muster, die das Modell daraus erkennt, liefert es seinen Output. Wenn ein Benutzer eine Texteingabe macht, analysiert das System die Sprache und verwendet einen Textprädiktor, um die wahrscheinlichste Ausgabe zu erstellen.

Die von GPT-3 gelieferten Texte sind qualitativ hochwertig und teilweise nur schwer von von Menschenhand verfassten Texten zu unterscheiden.

Die Vorteile von GPT-3: schnell & günstig

Die Einsatzmöglichkeiten von GPT-3 sind groß. Dabei liegen die Vorteile dieser Technologie vor allem in einem Bereich: der schnellen, kostengünstigen und automatischen Erzeugung von Inhalten in großem Umfang

Genauer gesagt, wenn auf Basis einer kleinen Menge an Text automatisch eine große Menge an Text generiert werden soll. Oder in Situationen, in denen es nicht effizient oder sinnvoll ist, den Menschen die Textausgabe erstellen zu lassen. Ein Beispiel hierfür ist das Beantworten von wiederkehrenden Kundenanfragen durch einen Chatbot. 

Die Schwächen von GPT-3: keine Kontrolle & Fehlinformationen

Trotz der verblüffenden sprachlichen Fähigkeiten dieser Technologie, weist GPT-3 beim Erzeugen von Texten enorme inhaltliche Schwächen auf. 

Fordert man GPT beispielsweise dazu auf, einen Artikel darüber zu verfassen, wie unsinnig Recycling ist, dann tut es genau das. GPT schreibt dann einen inhaltlich komplett sinnfreien Text über dieses Thema. Grund dafür ist, dass die Verankerung zu einem Allgemeinwissen oder zu Text-to-Text Lösungen komplett fehlt und auch nicht hinzufügbar ist. 

Da das Modell mit Daten aus dem Internet gefüttert wird, übernimmt es auch etwaige darin enthaltene rassistische oder sexistische Äußerungen, lässt Vorurteile oder Schimpfwörter in die Texte einfließen oder generiert Falschinformationen.

Außerdem kommt es vor, dass gerade bei längeren Texten die immer selben Inhalte wiederholt werden, anstatt neue Informationen zu ergänzen. 

Ebenfalls kann es zu Repräsentationsverzerrungen kommen. Denn die dem Training als Basis dienenden Websites repräsentieren nur einen Ausschnitt der Welt. Das führt dazu, dass manche Aspekte überrepräsentiert sind, andere dafür unterrepräsentiert.

Dies bedeutet letztendlich, dass die erzeugten Inhalte nicht ohne Lektorat und intensivem Faktencheck veröffentlicht werden sollten. 

Außer dem Generative Pre-trained Transformer (GPT) gibt es weitere Technologien zur automatisierten Erzeugung von Text. Eine davon ist die Data-to-Text Technologie.  

 

Was genau kann Data-to-Text? Und wie unterscheidet sie sich von der Technologie, die hinter GPT steht? 

Data-to-Text Technologien: Die Definition

Data-to-Text Technologien sind ein Teilbereich auf dem Gebiet der künstlichen Intelligenz. Diese Programme analysieren strukturierte Daten und generieren daraus fertige natürlichsprachige Texte

Es gibt mehrere Anbieter, deren Software sich in Teilbereichen sowie dem Preispunkt unterscheiden. Ein Anbieter, der sich durch die enorme Menge an unterstützten Sprachen für die automatisierte Textgenerierung abhebt, ist AX Semantics aus Stuttgart.

Was kann Data-to-Text?

Data-to-Text Software wird von Unternehmen jeglicher Art und Größe eingesetzt. 

Das sind u.a. Banken sowie Unternehmen aus der Finanzbranche, dem Pharmasektor, dem Bereich Medien und Verlagswesen sowie Firmen im großen Umfeld des E-Commerce. 

Sobald auf Basis strukturierter Datensätzen größere Mengen an Text erstellt werden sollen, sind Data-to-Text Anwendungen von enormer Hilfe. Diese Technologie kommt zum Einsatz, wenn ähnliche Texte mit variablen Details oder auf Daten oder Statistiken basierende Texte erstellt werden sollen. 

Folgende Beispiele seien hier genannt:

  • Berichterstellung im Bereich Pharma/Gesundheit, Finanzen und Buchhaltung
  • Erstellung von Landingpages nach SEO-Kriterien
  • Generierung von Produktbeschreibungen und Kategoriebeschreibungen im E-Commerce
  • Generierung personalisierter Kundenansprache
  • Berichterstattung für Sport- oder Wetternachrichten
  • Börsenupdates und Wahlergebnisse
  • Angebotsbeschreibungen im Bereich Tourismus sowie Objektbeschreibungen für die Immobilienbranche

Wie funktioniert Data-to-Text?

Damit Data-to-Text Programme funktionieren, müssen als Basis strukturierte Daten vorliegen. 

Um aus diesen Daten wiederum fertigen Content zu generieren, konfiguriert der Anwender die Regeln und Logiken in der Software. So werden die relevanten Informationen aus dem Datensatz herausgezogen und in natürlichsprachige Texte übersetzt. Es können auch Varianzen eingefügt werden. Dies führt dazu, dass die Struktur eines Satzes gleich bleibt, sich aber kleine Variablen im Satz ändern. Dadurch werden immer wieder einzigartige Texte generiert. 

Data-to-Text Softwares unterscheiden sich von GPT-3 dadurch, dass sie nicht einfach nur mit Texten aus dem Internet trainiert werden. Statt dessen bedienen sie sich aus Daten, die etwa in CRM- oder PIM-Systemen liegen oder in Excel-,CSV- und Jason-Dateien gespeichert sind. Die Daten werden direkt in die Software überspielt oder mittels einer API übertragen. 

GPT-3 hingegen generiert die Texte komplett selbstständig, ohne weiteren Eingriff des denkenden Menschen. Allein das neuronale Netz erzeugt eine Ausgabe aus der gegebenen Eingabe. Dies kann zu den bereits genannten Problemen führen. 

Was die Vielzahl der Sprachen angeht, bietet Data-to-Text außerdem mehr Möglichkeiten als GPT-3. Während GPT-3 vornehmlich auf Englisch trainiert wird, unterstützen Data-to-Text Anbieter mehrere Sprachen. Die Software von AX Semantics etwa unterstützt über 110 Sprachen.

Die Vorteile von Data-to-Text: Schnelligkeit & Kontrollierbarkeit

Data-to-Text, richtig eingesetzt, kann unglaublich viel Zeit und Kosten einsparen. Gleichzeitig kann dabei die Texterstellung skalieren.

Große Mengen Text zu schreiben, wie etwa tausende Produktbeschreibungen für einen Online-Shop, sind von Menschenhand kaum zu bewerkstelligen. Schon gar nicht, wenn diese Texte regelmäßig überarbeitet und aktuell gehalten werden sollen, etwa aufgrund saisonaler Einflüsse. 

Mit einer Data-to-Text Software ist das möglich. Ist das Projekt einmal eingerichtet, reicht es, die Daten zu aktualisieren. Dann werden mit einem Klick bestehende Texte sofort aktualisiert oder es entstehen einzigartige neue Texte. Durch diese Entlastung bleiben etwa Texter:innen und Redakteur:innen mehr Zeit für kreative Tätigkeiten oder konzeptionelles Arbeiten.

Der Vorteil automatisierter Textgenerierung mittels Data-to-Text im Gegensatz zu GPT-3 ist die Kontrollierbarkeit. Dass das System Falschaussagen tätigt oder anderweitig unerwünschte Aussagen trifft, kann somit ausgeschlossen werden. Bei der Nutzung von Data-to-Text Technologien gibt es verschiedene Eingriffsmöglichkeiten. Bei GPT-3 hingegen ist nicht wirklich beeinflussbar, was als Output geliefert wird. 

Die Schwächen von Data-to-Text: Datenabhängigkeit & Zeitaufwand

Die Data-to-Text basierte automatisierte Texterstellung hat allerdings auch ihre Grenzen. 

Sobald die Datenqualität schlecht oder die Verfügbarkeit hochwertiger Daten nicht gewährleistet ist, kann der Output qualitativ minderwertig sein.

Die Technologie beruht auf strukturierten Daten in maschinenlesbarer Form. Somit bleiben das Erzählen von Geschichten, sowie das Schreiben von Blogposts oder Social Media-Beiträgen dem Menschen vorbehalten. Denn diese lassen sich nicht sinnvoll mit Hilfe einer Data-to-Text Software generieren. 

Der generierte Text kann also nur das ausdrücken, was in den Daten steht oder aus ihnen abgeleitet wird.

Zudem ist oftmals ein gewisser Zeitaufwand mit dem Beschaffen und Bereinigen der Daten, die die KI als Basis benötigt, verbunden. Dies, sowie das Konfigurieren des Regelwerks in der Software, bedeuten einen mal mehr mal weniger großen Aufwand.

Fazit

Sowohl GPT-3 als auch Data-to-Text haben beide als KI-gestützte Textgenerierungstechnologien ihre Daseinsberechtigung. Beide Technologien helfen auf ganz spezifische Weise und unter unterschiedlichen Voraussetzungen bei der Erstellung von verschiedenen Content-Arten – wie dem Verfassen ganzer Fließtexte oder dem Erstellen von Produktbeschreibungen. 

Klar ist dabei, dass die KI den Menschen als denkendes Wesen keinesfalls ersetzen kann – vielmehr stellt sie eine unterstützende Maßnahme dar und bietet dem Anwender damit eine Erleichterung. Dank ihrer Hilfe werden Texter:innen, Redakteur:innen und Content-Manager:innen entlastet, die sich somit auf andere Aufgaben konzentrieren können. 

Deshalb, und weil der Bedarf an schriftlichem Content ständig steigt, werden beide Sprachtechnologien in der Zukunft noch weiter an Bedeutung gewinnen.

AX_Website_Home_Header_laptop_600px_03 (1)

Möchtest du mehr über AX Semantics erfahren?

Kontaktiere uns jetzt!

Share on facebook
Share on twitter
Share on linkedin