Was ist Natural Language Processing und wie kann dein Unternehmen es nutzen?

Veröffentlicht am 23.8.2021 von Quirine Storm van Leeuwen und Rosalia Pavlakoudis

Was ist Natural Language Processing?

Was ist Natural Language Processing?

Bedeutung und Anwendungen

Natural Language Processing (NLP) ist ein Zweig der Informatik, der darauf abzielt, geschriebene und gesprochene Sprache für Computer verständlich zu machen. Die Sprache, die Computer am besten verstehen, besteht aus Code, aber leider kommunizieren Menschen nicht in Codes. Nun, manchmal vielleicht ;), aber Menschen bevorzugen die natürliche Sprache. NLP ist laut Gartner „die Technologie der natürlichen Sprachverarbeitung, die in der Lage ist, Text oder Sprache auf der Grundlage einer geeigneten Ontologie in codierte, strukturierte Informationen umzuwandeln.“

In diesem Artikel sehen wir uns an, was genau Natural Language Processing bedeutet und welche Möglichkeiten es Unternehmen bietet.

Maschinelles Lernen ist das Gehirn hinter NLP

Regeln in Code für jede mögliche Kombination von Wörtern in jeder Sprache zu schreiben, um Maschinen zu helfen, Sprache zu verstehen, ist eine hoffnungslose Aufgabe. Deshalb kombiniert NLP die Computerlinguistik – die regelbasierte Modellierung der menschlichen Sprache – mit statistischen Analysen, basierend auf maschinellem Lernen und Deep-Learning-Modellen. Diese statistischen Modelle dienen dazu, die bestmögliche Annäherung an die tatsächliche Bedeutung, Absicht und Stimmung des Sprechers oder Autor auf der Grundlage statistischer Annahmen zu liefern.

Maschinelles Lernen stützt sich sehr stark auf Daten, um diese Annahmen zu treffen. Ohne Daten kann künstliche Intelligenz nicht lernen. Um einen NLP-Algorithmus zu trainieren, wird daher ein Korpus aus Text oder gesprochener Sprache benötigt.

Anwendungen von Natural Language Processing

NLP steuert bekannte Computerprogramme, etwa Übersetzungsprogramme wie Google Translate oder Deepl, Sprachassistenten wie Siri, Alexa oder Googles Assistant oder Chatbots wie Amazons Lex-Bot oder Kim von Maggi. Aber es gibt auch weniger bekannte Anwendungen, die sich auf NLP stützen. Im Gesundheitswesen wird die NLP-Technologie eingesetzt, um Erkenntnisse aus früheren Patientendaten zu generieren. Unstrukturierte Daten im Gesundheitswesen können mit NLP präzise organisiert werden, um Erkenntnisse für die Patientenbehandlung zu generieren oder die prädiktive Analyse über den Gesundheitszustand von Patienten zu verbessern.

Die unabhängige Forschungsorganisation TNO nutzt NLP, um relevante Inhalte aus Daten zu filtern und sie nach Themen zu klassifizieren. Mit diesen automatisch aus unstrukturierten Texten extrahierten Informationen sollen Trends oder Stimmungsanalysen erkannt werden.

Wofür NLP genutzt werden kann:

  • Automatische Übersetzung von einer Sprache in eine andere
  • Zusammenfassen von Text (nützlich, um beispielsweise relevanten Text aus großen Studien zu gewinnen)
  • Spracherkennung oder Transkription gesprochener von Sprache in Text (text to speech)
  • Formulierung von geschriebenem Text in gesprochener Sprache
  • Stimmungsanalyse – wie positiv oder negativ die Sprache ist
  • Textklassifizierung – Zuweisung von vordefinierten Kategorien zu Textdokumenten
  • Frage und Antwort – die Bedeutung von Fragen verstehen und Antworten geben
  • Suchfragenanalyse und Inhaltsanalyse – Ermittlung der Absichten und Bedürfnisse einer Person bei der Interaktion mit einer Maschine (Chatbot, Suchmaschine, Sprachassistent)
  • Spam-Erkennung (Erkennung von Wörtern, Grammatikfehlern)

Unterschied zwischen NLP, NLU und NLG

Natural Language Processing steht nicht für sich allein, sondern umfasst mehrere Anwendungen, darunter Natural Language Understanding (NLU) und Natural Language Generation (NLG). Diese drei Techniken gehen Hand in Hand.

Natural Language Understanding

Während sich NLP hauptsächlich mit der Umwandlung von unstrukturierten Spracheingaben in strukturierte Daten beschäftigt, geht es bei NLU um das Interpretieren und Verstehen von Sprache. Auch die Grammatik und der Kontext werden berücksichtigt, damit die Absicht des Sprechers ebenfalls deutlich wird. NLU verwendet dazu KI-Algorithmen (Algorithmen der künstlichen Intelligenz). Diese Algorithmen nutzen eine Mischung aus linguistischen, regelbasierten und reinen Systemen, um natürliche Sprache inhaltlich korrekt zu verarbeiten und zu übersetzen. Sie können so beispielsweise statistische Analysen durchführen und anschließend Ähnlichkeiten in noch nicht analysiertem Text erkennen.

Menschen sagen oder schreiben dieselben Dinge auf unterschiedliche Weise, machen Rechtschreibfehler, verwenden unvollständige Sätze oder die falschen Wörter, wenn sie in einer Suchmaschine nach etwas suchen. Mit NLU können Computeranwendungen die Absicht aus der Sprache ableiten, selbst wenn die geschriebene oder gesprochene Sprache fehlerhaft ist. NLP schaut auf das, was gesagt wurde, und NLU schaut auf das, was gemeint war.

Natural Language Generation

NLP ist die Generierung von Text auf Basis strukturierter Daten. NLP lässt sich also auch andersherum einsetzen, indem die Initiative zur Kommunikation dem Computer gegeben wird und nicht dem Menschen. So kann NLP inhaltsbezogene Briefings erstellen und angeben, welcher Content beim Schreiben über ein bestimmtes Thema behandelt werden sollten. Dies kann sogar auf verschiedenen Expertenebenen oder für unterschiedliche Phasen des Sales Funnels umgesetzt werden.

Wie funktioniert Natural Language Processing?

NLP besteht aus mehreren Phasen. Die ersten Phasen konzentrieren sich hauptsächlich auf die Umwandlung von Text in strukturierte Daten, während die späteren Phasen mehr auf die Extraktion von Bedeutung ausgerichtet sind. Dieser Prozess kann in sechs Phasen unterteilt werden:

Was ist Natural Language Processing
Grafik mit den verschiedenen NLP-Phasen

Sechs Phasen im Natural Language Processing

1. Vorverarbeitungsphase

In dieser Phase geht es darum, den Text von allen unnötigen Elementen zu befreien, damit der Algorithmus ihn später besser verarbeiten kann. Dazu gehört unter anderem das Entfernen von Akzenten, HTML-Tags, Großbuchstaben, Sonderzeichen, die Umwandlung geschriebener Zahlen in die numerische Form usw.

Auch die Tokenisierung, also die Umwandlung von Text in kleinere Einheiten (Token), spielt hier eine wichtige Rolle.

Beispiel für Tokenisierung in NLP
Beispiel für Tokenisierung (Quelle)

 

Das Entfernen und Filtern von Stoppwörtern und irrelevanten Token wird ebenfalls in dieser Phase durchgeführt.

Entfernen von Stoppwörtern in der Vorverarbeitungsphase von NLP
Stoppwörter (Quelle)

2. Morphologische oder lexikalische Analyse

Diese Phase konzentriert sich auf die Struktur und den Aufbau von Wörtern. Es werden verschiedene Techniken eingesetzt, darunter die Stammformreduktion und die Lemmatisierung. Ziel dieser Analyse ist es, die Anzahl der gespeicherten Token so weit wie möglich zu begrenzen. Wenn es also bereits ein Token für das Verb „kochen“ gibt, können Regeln erstellt werden, um beispielsweise auch das Substantiv „Kochen“ und seine Konjugation „kocht“ damit zu verbinden. Und wenn ein Verb konjugiert auftritt, kann der Stamm abgeleitet werden.

3. Syntaktische Analyse

Im Rahmen der syntaktischen Analyse werden die Sätze sprachlich nach formaler Grammatik zerlegt (Parsing auf Englisch). Durch die Angabe von grammatikalischen Strukturen wird es möglich, bestimmte Zusammenhänge aus Texten zu extrahieren.

Syntaktische Analyse
Syntaktische Analyse in Google Natural Language API

POS-Tagging

Eine der Vorgehensweisen zur syntaktischen Analyse ist das Part of Speech-Tagging (POS-Tagging). POS-Tagging weist den Wörtern in Sätzen automatisch Tags auf Basis ihrer Rolle zu, z. B. Substantiv, Verb, Adjektiv oder Adverb. Im obigen Beispiel siehst du zum Beispiel, dass der Begriff „parsing“ als Substantiv und nicht als Verb bezeichnet wird.

4. Semantische Analyse

Dies ist der Prozess der Ableitung von Bedeutung aus einem Text. Mittels semantischer Analyse können Computer Zusammenhänge zwischen Wörtern, Sätzen und dem Kontext ableiten. Dazu verwendet NLP eine Reihe von Bausteinen: Entitäten, Konzepte, Relationen und Prädikate. Diese Bausteine werden mit Hilfe eines trainierten Algorithmus automatisch aus einem Text gefiltert.

Named Entity Recognition (NER)

Im Folgenden sehen wir, wie eine solche semantische Analyse in Googles Natural Language API funktioniert. Zwischen farbigen Klammern im Text stehen die Entitäten, das sind konkrete Personen, Organisationen, Orte (wie Heinrich Heine, Düsseldorf). Am Ende des Textes stehen die Konzepte, zu denen die Entitäten gehören. So gehört Rembrandt zum Begriff „Person“ und die Entität „Kunst“ zum Begriff „Kunstwerk“. Dieser Prozess wird als Named Entity Recognition (NER) bezeichnet oder aber die Identifizierung von Entitäten in einem Text und deren Einordnung in vordefinierte Kategorien.

Stimmungsanalyse von Kundenbewertungen
Kategorien in Google für die verschiedenen Phasen von NLP

Die Entdeckung semantischer Zusammenhänge zwischen verschiedenen Entitäten in einem Text ist ein sehr wichtiger Schritt im NLP, da dabei der Sprache Bedeutung verliehen werden kann.

5. Diskurs

Die Diskursintegration betrachtet bei der Interpretation eines Satzes die vorhergehenden Sätze. In den folgenden zwei Sätzen „Céline mag Hunde sehr. Sie hat ungefähr zehn.“, ordnet der Diskurs das Wort „sie“ dem Wort „Céline“ zu.

6. Pragmatik

Die letzte Phase des NLP, die Pragmatik, interpretiert die Beziehung zwischen sprachlichen Äußerungen und der Situation, in der diese Äußerung passt, sowie die Wirkung, die der Sprecher oder Schreiber mit der sprachlichen Äußerung beabsichtigt. Die beabsichtigte Wirkung eines Satzes kann manchmal unabhängig von der Bedeutung sein. Zum Beispiel kann der Satz „Es ging nicht besser!“ auch bedeuten, dass es schlecht läuft.

Anwendungen von NLP für Unternehmen

Warum ist NLP auch für Unternehmen nützlich, die keine Suchmaschinen-, Chatbot- oder Übersetzungsdienste anbieten? Weil du mit NLP Texte in vordefinierte Kategorien einordnen oder bestimmte Informationen aus einem Text extrahieren kannst.

Wordcloud in einem NLP-Tool erstellen
Erstellen einer Wordcloud zur Extraktion der wichtigsten Informationen aus einem Text mit dem Textanalyse-Tool Monkeylearn

Die Klassifizierung oder Datenextraktion kann Unternehmen dabei helfen, aus unstrukturierten Daten aussagekräftige Informationen zu extrahieren und diese zur Verbesserung ihrer Arbeitsprozesse zu nutzen. Nachfolgend einige Beispiele.

Datenextraktion

Die Datenextraktion hilft Unternehmen, Informationen aus unstrukturierten Daten automatisch und regelbasiert zu extrahieren. Ein Beispiel ist das Filtern von Rechnungen mit einem bestimmten Datum oder einer bestimmten Rechnungsnummer. Die automatische Analyse von E-Mail-Anhängen oder die Filterung von Daten nach Betreffzeile gehören ebenso zur Datenextraktion. Dies ist auch nützlich, um Korrekturen an extrahierten Informationen vorzunehmen.

Informationsextraktion
Datenextraktion aus Rechnungen im KI-Tool Grooper

Themenklassifizierung

Das Sortieren von Text in vordefinierte Kategorien auf Basis des Inhalts (auch Themenklassifizierung genannt) ist eine Anwendung von NLP, die für den Kundenservice in Unternehmen nützlich ist. Tickets oder E-Mails von Kunden werden automatisch klassifiziert und in verschiedene Kategorien wie ‘Preisinformation’, ‘Reklamation’, ‘technisches Problem’ eingeordnet. Dies hilft Organisationen, ihre Arbeitsabläufe zu verbessern und einen besseren Kundenservice zu bieten, da der Kunde sofort an den richtigen Mitarbeiter/die richtige Abteilung weitergeleitet wird.

Stimmungsanalyse

Ein weiteres Beispiel für eine NLP-Anwendung, aus der Unternehmen einen Nutzen ziehen können, ist die Stimmungsanalyse. Die Stimmungsanalyse wird verwendet, um die emotionale Aufladung eines Textes zu ermitteln, ohne den Text lesen zu müssen. Dies ist z. B. bei der Analyse von Social-Media-Beiträgen, E-Mails oder Kundenrezensionen nützlich. Das Verfolgen von Kundenmeinungen ist wichtig für einen guten Service, aber auch für die Marktforschung oder die Bewahrung eines Rufs oder die Entwicklung einer Marke.

Stimmung aus Twitter-Nachrichten ablesen
Informationsextraktion aus Twitter im Textanalyse-Tool Rapidminer

Die Stimmungsanalyse wird auch in der Forschung eingesetzt, um ein Bild davon zu bekommen, wie Menschen über ein bestimmtes Thema denken. Es ermöglicht dir, offene Fragen in einer Umfrage schneller zu analysieren.

Es ist nicht unbedingt notwendig, ein eigenes Klassifizierungssystem von Grund auf aufzubauen und einen Algorithmus zu trainieren. Es gibt Tools auf dem Markt, die Stimmungsanalysen anbieten und jeden eingegebenen Text auf Basis eines vorhandenen Korpus automatisch interpretieren können. Diese Tools können auch große Datenmengen aggregieren und in Grafiken oder Diagrammen darstellen und so z.B. Trends im Kundenfeedback klar darstellen.

Stimmungsanalyse von Kundenbewertungen
Stimmungsanalyse von Bewertungen zu einem Hotel in Clarabridge

Absichtsklassifizierung

Dies ist die Klassifizierung von Text basierend auf der Kundenabsicht. Damit kannst du Kunden-E-Mails oder Verhaltensweisen von Kunden auf einer Skala von nicht interessiert bis interessiert klassifizieren. Dies ermöglicht es, Kunden, die ein Produkt ausprobieren möchten, proaktiv zu erreichen oder die richtige Verkaufs-E-Mail zum richtigen Zeitpunkt zu versenden.

Du siehst also, dass Natural Language Processing viele Anwendungen für die Automatisierung und Datenanalyse hat. Es ist eine der Technologien, die die zunehmend datengetriebene Unternehmensführung und die Hyper-Automatisierung vorantreiben und Unternehmen dabei helfen kann, Wettbewerbsvorteile zu erlangen.

Wie geht es weiter? Wirf einen Blick auf unser NPL Software Verzeichnis, um das passende Tool zu finden.

Die in diesem Artikel ausgewählten Anwendungen sind Beispiele, um eine Funktion im Kontext zu zeigen und sind nicht als Empfehlung gedacht oder implizieren eine Befürwortung. Sie sind Quellen entnommen, die zum Zeitpunkt der Veröffentlichung als zuverlässig gelten.


Dieser Artikel kann auf Produkte, Programme oder Dienstleistungen verweisen, die in deiner Region nicht verfügbar sind oder die durch die Gesetze oder Vorschriften des Landes eingeschränkt sein können. Wir empfehlen, sich direkt an den Softwareanbieter zu wenden, um Informationen über die Produktverfügbarkeit und Rechtskonformität zu erhalten. Gender Hinweis: Aus Gründen der besseren Lesbarkeit wird bei Personenbezeichnungen und personenbezogenen Hauptwörtern auf dieser Website die männliche Form verwendet. Entsprechende Begriffe gelten im Sinne der Gleichbehandlung grundsätzlich für alle Geschlechter. Die verkürzte Sprachform hat nur redaktionelle Gründe und beinhaltet keine Wertung.


Artikel teilen

Über die Autoren

As a Content Analyst at Capterra, Quirine highlights the technological possibilities for improvement in SMEs. She focuses on digitization, software and technological trends.

As a Content Analyst at Capterra, Quirine highlights the technological possibilities for improvement in SMEs. She focuses on digitization, software and technological trends.


Content Analyst für GetApp und SoftwareAdvice. Absolventin der HHU Düsseldorf, wohnhaft in Barcelona. Am Wochenende findet man mich meistens am Strand oder beim Brunch.

Content Analyst für GetApp und SoftwareAdvice. Absolventin der HHU Düsseldorf, wohnhaft in Barcelona. Am Wochenende findet man mich meistens am Strand oder beim Brunch.