Die wichtigsten MT-Computerwissenschafts-Konzepte entmystifiziert

by Adrienne Lumb
4 Minute Read

Computerwissenschaftliche Begriffe, die früher ausschließlich in wissenschaftlichen Communitys verwendet wurden, sind inzwischen in unserem täglichen Leben fest integriert, ob in den Nachrichten, die wir lesen, den Produkten, die wir konsumieren, oder in der Technologie, die wir nutzen. Manche werden austauschbar miteinander verwendet (fälschlicherweise), bei anderen sind sowohl Definition als auch Anwendung etwas verschwommen. Daher dachten wir, dass es angebracht wäre, die wichtigsten computerwissenschaftlichen Begriffe in Bezug auf maschinelle Übersetzung (Machine Translation, MT) zu erörtern, denen Sie begegnen könnten.

Künstliche Intelligenz (KI)

Viele Menschen betrachten KI als neues Konzept: In den letzten zehn Jahren hat die Verwendung des Begriffs in Unternehmen, die behaupten, KI-Technologie einzusetzen, enorm zugenommen. KI gibt es aber schon seit mehr als 60 Jahren. Der Begriff wird in Wirtschaftskontexten etwas ungenau verwendet, oft beim Versuch, einen Hype um ein Produkt oder ein Angebot zu erzeugen. Ein kürzlich veröffentlichter Forbes-Artikel mit einem Bericht der Venture-Capital-Firma MMC mit Sitz in London zeigt, dass fast die Hälfte aller „KI-Startup-Unternehmen“ überhaupt keine KI verwenden.

Was ist KI also eigentlich? KI ist die Wissenschaft der Programmierung von Computern, um menschliche Intelligenz zu imitieren und menschenähnliche Aufgaben auszuführen. Die Aufgaben können das Lösen von Problemen im Zusammenhang mit Logik, Argumentation, Planung und Wahrnehmung beinhalten. Wenn Menschen an KI denken, stellen sie sich häufig einen sehr fähigen, menschenähnlichen Roboter vor. Sie können KI aber in praktisch alltäglichen Anwendungen begegnen, wie:

  • Spracherkennungs-Software wie Siri und Alexa
  • E-Mail-Spam-Filter, die eine Sortierlogik verwenden
  • Chatbots
  • Automatische Wortergänzung in Suchanfragen

Machine Learning (ML)

ML ist eine Untergruppe der KI und im Wesentlichen die Art und Weise, wie eine KI-Anwendung dazulernt. ML-Methoden sollen Muster in Daten identifizieren und aus diesen lernen, ohne ausdrücklich dazu angewiesen zu werden. Ein Beispiel für ML ist alles, was einen Algorithmus verwendet. Anstatt einem linearen Lernpfad zu folgen, trainiert ML ein System in einer kreisförmigen Wissensschleife: Das System erhält einen Befehl, erfasst Daten, lehrt den Algorithmus, probiert ihn aus und erfasst Feedback. Dann nutzt es diese Informationen, um den Algorithmus zu verbessern. Eine Methode, die ML verwendet, ist kontinuierliches Lernen und Verbessern. Je mehr Daten gesammelt werden (und aus diesen gelernt wird), desto genauer ist sie.

Immer wenn Sie eine Suchanfrage in eine Suchmaschine eingeben, erleben Sie ML in Aktion. Netflix und Spotify verwenden ML, um Medien und Musik basierend auf Ihrem Zuschauer- und Zuhörer-Verhalten zu empfehlen. Autonome Fahrzeuge sind ein weiteres Beispiel: Sie lernen von den Objekten um sich herum und reagieren entsprechend.

Mensch-Computer-Interaktion (Human-Computer Interaction, HCI)

HCI ist das Studiengebiet der Untersuchung der Interaktionen von Menschen mit Computern. Apple führt beispielsweise umfangreiche HCI-Forschung dazu durch, wie Benutzer mit iPhones interagieren. Während der Design-Zyklen werden Beobachtungen des menschlichen Verhaltens genutzt, um die Erfahrung mit den Produkten des Unternehmens zu verbessern. Designteams für Benutzererfahrung (User Experience, UX) sowie Benutzeroberfläche (User Interface, UI) verwenden HCI-Prinzipien, um einfache, attraktive Erlebnisse zu schaffen, die Verbraucher verwenden möchten.

Künstliches neuronales Netzwerk (Artificial Neural Network, ANN)

ANNs sind eine Untergruppe von ML-Algorithmen und den neuronalen Netzen unseres Gehirns nachempfunden. Sie bestehen aus einem eng miteinander verbundenen Satz von Recheneinheiten, den sog. Neuronen. Während neuronale Netzwerke ähnlich wie allgemeine ML-Algorithmen funktionieren, sind sie viel besser dabei, höhere Zuordnungen und komplexe Distributionen, wie sie bei großen und vielfältigen Datensätzen, insbesondere Bildern und Text, inhärent sind, zu erlernen.

MT

MT ist eine Untergruppe der Computerlinguistik und übersetzt Text automatisch von einer Sprache in eine andere. MT umfasst sowohl statistische als auch neuronale Lernmethoden, bei denen die Maschine Ergebnisse basierend auf der höchsten Wahrscheinlichkeit einer korrekten Übereinstimmung aus einer Datenbank bereitstellt. MT-Systeme werden mit verschiedenen Quellen trainiert, darunter Daten, die per Crawler aus dem Internet gewonnen werden, synthetische Daten, die von anderen MT-Systemen generiert werden, und benutzergenerierte Daten.

Neuronale MT (NMT)

NMT ist eine Form von MT, bei der ein ANN verwendet wird, um die Quellensätze zu übersetzen und einen gut formulierten Zielsatz zu erhalten. ANNs können Datendistributionen höherer Ordnung erlernen, sodass sie in der Lage sind, Übersetzungen mit besserer Genauigkeit vorherzusagen, selbst bei längeren Sätzen und Textketten. Mit einem autoregressiven Stil von Vorhersagen bieten sie wesentlich bessere Leistungen als ein statistisches System, besonders wenn die Übersetzung die Fertigstellung eines Präfixes erfordert.

Natürliche Sprachverarbeitung (Natural Language Processing, NLP)

NLP ist ein Teilgebiet der KI und konzentriert sich darauf, wie man Maschinen ermöglicht, menschliche Sprache zu verstehen. NLP konzentriert sich auf MT und andere KI-Verarbeitungsaufgaben in Bezug auf menschliche Sprache einschließlich Syntax, Semantik, Diskurs und Rede.

Human-in-the-Loop (HITL)

HITL ist ein computerwissenschaftliches Konzept, bei dem eine Maschine aus der Arbeit eines Menschen lernt und diese unterstützt. Dabei handelt es sich um eine kontinuierliche, interaktive Feedback-Schleife zwischen dem Computersystem und dem Menschen. Im Falle von NMT lernt der Computer vom Verhalten des Übersetzers und macht entsprechende Vorschläge.

 

Besonderer Dank gilt Aditya Shastry für die Mitwirkung an diesem Beitrag.