Sprachwissenschaftler entwickeln Lügendetektor fürs Internet
Lügnern im Internet geht es an den Kragen. Ein automatisches Analyseverfahren soll dem Internetnutzer schnell und verlässlich mitteilen, ob er einer gefundenen Information trauen kann oder nicht. Es wertet große Datenmengen statistisch aus und analysiert sie sprachwissenschaftlich.
Pheme nannten die alten Griechen die Göttin des Gerüchtes. Damals verbreiteten sich Halb- und Unwahrheiten, Gehörtes und Vermutetes, aber auch die Wahrheit noch von Mund zu Ohr. Heute, im Internetzeitalter ist beides, die Informationsmenge und die Geschwindigkeit, mit der diese verbreitet wird, explosionsartig gestiegen.
In Sozialen Netzwerken und Online-Medien ist das Bombardement mit Nachrichten, Ideen und Fakten zur ständigen Begleitmusik geworden. Die Internetnutzer müssen sich jedoch immer häufiger fragen: Was davon ist wahr und faktisch richtig und was sind Halbwahrheiten, Gerüchte oder Fehlinformationen?
Projekt Pheme kombiniert statistische Methoden und sprachwissenschaftliche Analysen
In einem internationalen Forschungsprojekt wollen Wissenschaftler verschiedener Fachdisziplinen ein Analyseverfahren entwickeln, das dem Internetnutzer helfen soll, sich im Dickicht von Spekulation, kontroverser Debatte, Falsch- und Fehlinformation zurechtzufinden. Das Projekt Pheme ist im Januar an den Start gegangen und hat ein Gesamtvolumen von 4,3 Millionen Euro. Die EU unterstützt es mit rund drei Millionen Euro für die nächsten drei Jahre. Die Ergebnisse werden in zwei Fallstudien getestet, Testgebiete sind medizinische Informationssysteme und digitaler Journalismus.
„Das Wahrzeichen Londons, das London Eye, brennt.“ Ein Satz wie dieser verbreitet sich über Facebook, Twitter und Online-Medien explosionsartig. Aber wie misst man den Wahrheitsgehalt der Online-Information? Und das schnell genug? Gemeinsam mit seinen internationalen Forschungspartnern will der Saarbrücker Sprachtechnologe Thierry Declerck im Pheme-Projekt hierfür Antworten finden. „Wir konzentrieren uns dabei auf vier Arten problematischer Informationen: Die Spekulation, die kontroverse Diskussion, die Fehlinformation und die gezielte Verbreitung falscher oder irreführender Tatsachen“, erklärt er.
Eine der größten Herausforderungen hierbei ist die Datenflut. „Mehrere tausend Textnachrichten werden jede Sekunde neu eingestellt. Daher wenden wir Methoden an, um große Datenmengen zu verarbeiten, so genannte Big-Data-Analysen“, sagt Declerck, der in der Computerlinguistik der Saar-Universität und am Deutschen Forschungszentrum für Künstliche Intelligenz forscht. „Wir verbinden statistische Methoden mit präzisen sprachwissenschaftlichen Analysen. Die Lösung liegt in der Kombination der verschiedenen Verfahren. Im Projekt arbeiten hierzu Wissenschaftler unterschiedlicher Ausrichtung zusammen“, erläutert er.
System erkennt Satzstrukturen, die Zweifel am Wahrheitsgehalt ausdrücken
Computerlinguistische Sprachanalysen werden verknüpft mit Informationen aus sozialen Netzwerken. Inhalte werden mit zuverlässigen Datenbanken abgeglichen, statistisch geprüft und mittels Grafiken ausgewertet. Die Aussage wird gleichsam durch verschiedenste Filter geschickt; am Ende steht eine bestimmte Wahrscheinlichkeit, die für oder gegen die Wahrheit spricht.
Declercks Aufgabe im Projekt ist die Sprachtechnologie. „Wir haben bereits Methoden entwickelt, die es möglich machen, aus der Datenflut Themen und Trends herauszufischen, die im Internet aktuell diskutiert werden. So lassen sich etwa Stimmungen erkennen.“ Mit Hilfe eines komplexen Systems aus Sprachverarbeitungs-Modulen will der Forscher jetzt die Informationen weiter auswerten, sie von ihrer Bedeutung und von Besonderheiten im Satzbau her erfassen.
„Zum Beispiel wollen wir Satzstrukturen, die Zweifel am Wahrheitsgehalt einer Aussage ausdrücken, sowie bestimmte Schlüsselwörter wie ´scheinbar` oder ´nicht` automatisch erkennen“, sagt Declerck. Im Ausgangsbeispiel mit dem London Eye würde das System die Häufung von Zweifel wie „Stahl brennt doch gar nicht“ oder „Ich bin am London Eye, hier brennt nichts“ in seine Wahrheits-Analyse einbeziehen. Hierzu entwickelt Declerck derzeit mathematische Algorithmen: In Zahlen übersetzt, lassen sich Muster und Strukturen erkennen – die Informationen werden berechenbar.
Besonderer Knackpunkt für die Forscher wird die Unbeständigkeit der Wahrheit in unserer realen Welt sein. Was heute wahr ist, kann morgen schon falsch sein: „Der Faktor Zeit spielt eine große Rolle. Zum Beispiel ist eine Aussage der Form ´X ist Präsident des Landes Y` nur so lange wahr, wie der genannte Präsident auch tatsächlich amtiert. Unser System muss sich also ständig anpassen können“, erklärt er. Daher verknüpft er die zu überprüfenden Informationen mit den entsprechenden Daten in zuverlässigen Quellen, wie Online-Nachschlagewerken.
Ein Beitrag von: