Sprachtechnologien: Die Zukunft der Texterstellung

GPT-3 und Data-to-Text: Welcher Text Generator ist der richtige für dich?

Die maschinelle Texterstellung, die Natural Language Generation (NLG), gilt als eine der zukunftsfähigsten Technologien.
Nicht nur wegen der stetig wachsenden Bedeutung des Online-Handels und der damit verbundenen Menge an zu erstellten Texten, wie etwa Produktbeschreibungen.
Die maschinelle Texterstellung ist eine Erleichterung für Texter und Content-Manager. Jeder, der in irgendeiner Weise mit dem Schreiben von Texten zu tun hat, profitiert von ihr.

Die zwei Technologien: GPT und Data-to-Text

Generative Pre-trained Transformer (GPT) ist ein Sprachproduktionssystem, das Deep Learning verwendet, um Texte zu erstellen.

Data-to-Text bezeichnet die maschinelle automatisierte Produktion natürlichsprachiger Texte auf Basis von Daten.

Aber was genau können diese beiden Technologien? Wie unterscheiden sie sich voneinander? Müssen Texter und Content-Manager jetzt Angst haben, dass ihre Jobs durch Künstliche Intelligenz ersetzt werden?

Im Folgenden stellen wir beide Technologien hervor. Dabei erläutern wir ihre Funktionsweisen und beleuchten die jeweiligen Vorteile und Schwachstellen.

GPT-3 und Data-to-Text: Fähigkeiten und Unterschiede

GPT: Definition & Hintergründe

GPT bezeichnet eine Reihe von Large Language Models (LLM) und setzt Deep Learning ein, um natürliche Sprache zu verarbeiten oder zu erzeugen.

Hinter GPT und dessen Entstehen im Jahr 2018, steht das Unternehmen OpenAI. Dieses hat als Non-Profit-Organisation die ersten beiden Versionen kostenlos als Open Source zur Verfügung gestellt.

Zunächst war auch die Beta-Phase der dritten Generation kostenlos. Mit Beendigung dieser wurde GPT-3 allerdings kostenpflichtig. Die bis dahin gemeinnützige Organisation wurde so zu einer kommerziell arbeitenden Firma.

Mittlerweile besitzt Microsoft nach der Investition von einer Milliarde Dollar in OpenAI exklusive Lizenzrechte an GPT-3. Das bedeutet, dass OpenAI weiterhin seine öffentlich zugängliche API anbietet und es ausgewählten Nutzern ermöglicht, Texte an GPT-3 oder andere Modelle von OpenAI zu senden und deren Ausgabe zu erhalten.
Nur Microsoft wird Zugriff auf den zugrunde liegenden Code von GPT-3 gewährt, so dass das Unternehmen das Modell nach Belieben einbetten, umfunktionieren und verändern kann.

Was kann GPT-3?

GPT-3 ist eine Sprachtechnologie, die mit riesigen Textmengen aus dem Internet trainiert wird und damit unter anderem in der Lage ist:

– Englische Texte zu verfassen
– Dialoge zu führen
– Fragen zu beantworten
– Programmiercodes zu erstellen
– Website-Templates zu designen
– Tabellen auszufüllen

Wie genau funktioniert GPT?

GPT-3 ist ein Sprachvorhersage-Modell. Das bedeutet, dass es über ein maschinelles Lernmodell in Form eines neuronalen Netzwerks verfügt. Dieses kann einen eingegebenen Text in das umwandeln, was es als das nützlichste Ergebnis vorhersagt.

Trainiert wurde GPT-3 mit Daten aus dem Internet. Dazu gehören etwa Wikipedia, Foren, Webtexte und Bücherdatenbanken. Diese sind damit die Basis des Sprachvorhersage-Modells.
Anhand der Muster, die das Modell daraus erkennt, liefert es seinen Output. Wenn ein User eine Texteingabe macht, analysiert das System die Sprache und verwendet einen Textprädiktor, um die wahrscheinlichste Ausgabe zu erstellen.

Die von GPT-3 gelieferten Texte sind qualitativ hochwertig und teilweise nur schwer von von Menschenhand verfassten Texten zu unterscheiden.

Die Vorteile von GPT-3: schnell & günstig

Die Einsatzmöglichkeiten von GPT-3 sind groß. Dabei liegen die Vorteile dieser Technologie vor allem in einem Bereich: der schnellen, kostengünstigen und automatischen Erzeugung von Inhalten in großem Umfang. Genauer gesagt, wenn auf Basis einer kleinen Textmenge automatisch eine große Menge Text generiert werden soll.

Oder in Situationen, in denen es nicht effizient oder sinnvoll ist, Menschen die Texte erstellen zu lassen. Ein Beispiel hierfür ist das Beantworten von wiederkehrenden Kundenanfragen durch einen Chatbot.

Die Schwächen von GPT-3: keine Kontrolle & Fehlinformationen

Trotz der verblüffenden sprachlichen Fähigkeiten dieser Technologie, weist GPT-3 beim Erzeugen von Texten enorme inhaltliche Schwächen auf.

Ein Beispiel:

Fordert man GPT dazu auf, einen Artikel darüber zu verfassen, wie unsinnig Recycling ist, tut es genau das. GPT schreibt dann einen inhaltlich komplett sinnfreien Text darüber, warum Recycling unnötig ist. Grund dafür ist, dass die Verankerung zu einem Allgemeinwissen oder zu Text-to-Text-Lösungen komplett fehlt und auch nicht hinzufügbar ist. 

Da das Modell mit Daten aus dem Internet gefüttert wird, kommt es zu weiteren Problemen:

  • Es übernimmt etwaige darin enthaltene rassistische oder sexistische Äußerungen, lässt Vorurteile oder Schimpfwörter in die Texte einfließen oder generiert Falschinformationen.
  • Es kommt vor, dass gerade bei längeren Texten die immer selben Inhalte wiederholt werden, anstatt neue Informationen zu ergänzen.
  • Es kann zu Repräsentationsverzerrungen kommen. Denn die dem Training als Basis dienenden Websites repräsentieren nur einen Ausschnitt der Welt. Das führt dazu, dass manche Aspekte überrepräsentiert sind, andere dafür unterrepräsentiert.

Dies bedeutet letztendlich, dass die erzeugten Inhalte nicht ohne Lektorat und intensivem Faktencheck veröffentlicht werden sollten.

Außer dem Generative Pre-trained Transformer (GPT) gibt es weitere Technologien zur automatisierten Erzeugung von Text. Eine davon ist die Data-to-Text Technologie.

Was genau kann Data-to-Text? Und wie unterscheidet sie sich von der Technologie, die hinter GPT steht?

Data-to-Text Technologien: Die Definition

Data-to-Text Technologien sind ein Teilbereich auf dem Gebiet der künstlichen Intelligenz. Diese Programme analysieren strukturierte Daten und generieren daraus fertige, natürlichsprachige Texte.

Es gibt mehrere Anbieter, deren Software sich in Teilbereichen sowie dem Preis unterscheidet.
Ein Anbieter, der sich durch die enorme Menge an unterstützten Sprachen für die automatisierte Textgenerierung abhebt, ist AX Semantics aus Stuttgart.

Was kann Data-to-Text?

Data-to-Text Software wird von Unternehmen jeglicher Art und Größe eingesetzt.
Das sind u.a. Banken sowie Unternehmen aus der Finanzbranche, dem Pharmasektor, dem Bereich Medien und Verlagswesen sowie Firmen im großen Umfeld des E-Commerce.

Sobald auf Basis strukturierter Datensätze größere Mengen an Text erstellt werden sollen, sind Data-to-Text Anwendungen von enormer Hilfe. Diese Technologie kommt zum Einsatz, wenn ähnliche Texte mit variablen Details oder auf Daten oder Statistiken basierende Texte erstellt werden sollen.

Data-to-Text kommt zum Beispiel zur Anwendung für::

Wie funktioniert Data-to-Text?

Damit Data-to-Text Programme funktionieren, müssen als Basis strukturierte Daten vorliegen.
Um aus diesen Daten fertigen Content zu generieren, konfiguriert der Anwender die Regeln und Logiken in der Software. So werden die relevanten Informationen aus dem Datensatz herausgezogen und in natürlichsprachige Texte übersetzt. Es können auch Varianzen eingefügt werden. Dies führt dazu, dass die Struktur eines Satzes gleich bleibt, sich aber kleine Variablen im Satz ändern. Dadurch werden immer wieder einzigartige Texte generiert und Duplicate Content vermieden.

Data-to-Text Softwares unterscheiden sich von GPT dadurch, dass sie nicht einfach nur mit Texten aus dem Internet trainiert werden. Stattdessen bedienen sie sich aus Daten, die etwa in CRM- oder PIM-Systemen liegen oder in Excel-, CSV- und Jason-Dateien gespeichert sind. Die Daten werden direkt in die Software überspielt oder mittels einer API übertragen.

GPT hingegen generiert die Texte komplett selbstständig, ohne weiteren Eingriff des denkenden Menschen. Allein das neuronale Netz erzeugt eine Ausgabe aus der gegebenen Eingabe. Dies kann zu den bereits genannten Problemen führen.

Was die Vielzahl der Sprachen angeht, bietet Data-to-Text mehr Möglichkeiten als GPT-3. Während GPT-3 vornehmlich auf Englisch trainiert wird, unterstützen Data-to-Text Anbieter eine Vielzahl an Sprachen. Die Software von AX Semantics etwa unterstützt über 110 Sprachen.

Die Vorteile von Data-to-Text: Schnelligkeit & Kontrollierbarkeit

Data-to-Text, richtig eingesetzt, kann unglaublich viel Zeit und Kosten einsparen. Gleichzeitig ist die Skalierung der Texterstellung möglich.

Große Mengen Text zu schreiben, beispielsweise tausende Produktbeschreibungen für einen Online-Shop, sind von Menschenhand kaum zu bewerkstelligen.
Schon gar nicht, wenn diese Texte regelmäßig überarbeitet und aktuell gehalten werden sollen, etwa aufgrund saisonaler Einflüsse.

Mit einer Data-to-Text Software ist das möglich. Ist das Projekt einmal eingerichtet, reicht es, die Daten zu aktualisieren. Dann werden mit einem Klick bestehende Texte sofort aktualisiert oder es entstehen einzigartige neue Texte. Durch diese Entlastung bleiben etwa Textern und Redakteuren mehr Zeit für kreative Tätigkeiten oder konzeptionelles Arbeiten.

Der Vorteil automatisierter Textgenerierung mittels Data-to-Text im Gegensatz zu GPT-3 ist die Kontrollierbarkeit. Dass das System Falschaussagen tätigt oder anderweitig unerwünschte Aussagen trifft, kann somit ausgeschlossen werden. Bei der Nutzung von Data-to-Text Technologien gibt es verschiedene Eingriffsmöglichkeiten. Bei GPT-3 hingegen ist nicht direkt beeinflussbar, was als Output geliefert wird.

Die Schwächen von Data-to-Text: Datenabhängigkeit & Zeitaufwand

Die Data-to-Text basierte automatisierte Texterstellung hat allerdings auch ihre Grenzen.

Sobald die Datenqualität schlecht oder die Verfügbarkeit hochwertiger Daten nicht gewährleistet ist, kann der Output qualitativ minderwertig sein.

Die Technologie beruht auf strukturierten Daten in maschinenlesbarer Form. Somit bleiben das Erzählen von Geschichten sowie das Schreiben von Blogposts oder Social-Media-Beiträgen dem Menschen vorbehalten. Denn diese lassen sich nicht sinnvoll mit Hilfe einer Data-to-Text Software generieren.

Der generierte Text kann also nur das ausdrücken, was in den Daten steht oder aus ihnen abgeleitet wird.

Zudem ist oftmals ein gewisser Zeitaufwand mit dem Beschaffen und Bereinigen der Daten, die die KI als Basis benötigt, verbunden. Dies, sowie das Konfigurieren des Regelwerks in der Software, bedeuten einen mal mehr mal weniger großen initialen Aufwand.

Fazit

Sowohl GPT-3 als auch Data-to-Text haben beide als KI-gestützte Textgenerierungstechnologien ihre Daseinsberechtigung. Beide Technologien helfen auf ganz spezifische Weise und unter unterschiedlichen Voraussetzungen bei der Erstellung von verschiedenen Content-Arten – wie dem Verfassen ganzer Fließtexte oder dem Erstellen von Produktbeschreibungen.

Klar ist dabei, dass die KI den Menschen als denkendes Wesen keinesfalls ersetzen kann – vielmehr stellt sie eine unterstützende Maßnahme dar und bietet dem Anwender damit eine Erleichterung. Dank ihrer Hilfe werden Texter, Redakteure und Content-Manager entlastet, die sich somit auf andere Aufgaben konzentrieren können.

Deshalb, und weil der Bedarf an schriftlichem Content ständig steigt, werden beide Sprachtechnologien in der Zukunft noch weiter an Bedeutung gewinnen.

AX_Website_Home_Header

Ist Textautomatisierung das Richtige für dein Unternehmen?

Jetzt im kostenlosen Beratungsgespräch herausfinden!

Step 1: Übermittle deine Kontaktinformationen.
Step 2: Wähle deinen gewünschten Termin.