Mit generativen Sprachmodellen die Social-Media-Moderation verbessern

Anton Schegolev; Maximilian Ambros

doi:https://doi.org/10.30844/I4SD.24.6.72

Mit generativen Sprachmodellen die Social-Media-Moderation verbessern

Studie zur Erkennung und Korrektur von Desinformation

Anton Schegolev, Maximilian Ambros

Zeitschrift	Industry 4.0 Science
Ausgabe	40. Jahrgang, 2024, Ausgabe 6, Seite 72-79
Open Access	https://doi.org/10.30844/I4SD.24.6.72

Literatur

Zitieren

Download

Abstract

In dieser Untersuchung wurde die Fähigkeit eines generischen Sprachmodells (GPT-4o) zur Erkennung und Korrektur von Desinformationen analysiert. Das Modell wurde daraufhin getestet, aktuelle Fälle von Desinformationen in Online-Kommentaren und Nachrichtenartikeln zu identifizieren und zu korrigieren. Hierbei überprüfte GPT-4o mithilfe von Suchanfragen im Internet die Richtigkeit der Informationen. Für das Experiment wurden 50 Datensätze ausgewählt, darunter 40 potenzielle Fälle von Desinformationen und 10 korrekte Meldungen. Das Modell konnte alle Datensätze korrekt klassifizieren und korrigieren, wenn sie falsch waren. In zwei Fällen wurde jedoch der Kontext nicht vollständig erfasst, was zu einer Bewertung von 48 von 50 Punkten führte, entsprechend einer Genauigkeit von 96%. Diese Ergebnisse unterstreichen das Potenzial von Sprachmodellen zur Bekämpfung von Fehlinformationen.

Keywords

Automatisierung, Fehlinformationskorrektur, generische Sprachmodelle, GPT-4o, Modellgenauigkeit in der Fehlinformationserkennung, Moderation sozialer Medien

Artikel

Die Bedrohung durch Desinformation im digitalen Zeitalter

Im Zeitalter der Digitalisierung sowie generativer Sprachmodelle sieht sich die globale Gesellschaft mit neuen Herausforderungen konfrontiert, die durch die Verbreitung von Desinformation in sozialen Medien entstanden sind. Diese Phänomene beeinflussen nicht nur die öffentliche Meinung, sondern stellen auch eine Bedrohung für demokratische Prozesse dar. Der ehemalige Google-CEO Eric Schmidt bemerkte treffend, dass das Internet das größte anarchistische Experiment in der Geschichte ist und das erste, das die Menschheit konstruiert hat, aber nicht versteht [1]. Dieses Zitat verdeutlicht die immense Komplexität und Unvorhersehbarkeit des Internets, das sowohl den Informationsaustausch revolutioniert hat als auch eine Plattform für Desinformation und Hassrede bietet.

Ein symbolträchtiges Beispiel für die aktuellen Herausforderungen, vor denen die globale Gemeinschaft steht, ist die Wahl des Begriffs „post-truth“ (postfaktisch) zum Wort des Jahres 2016. In einer postfaktischen Ära, in der Fakten und Logik oft zugunsten emotionaler und persönlicher Überzeugungen in den Hintergrund treten, haben objektive Fakten einen geringeren Einfluss auf die öffentliche Meinung als je zuvor [2]. Diese Entwicklung unterstreicht die dringende Notwendigkeit, wirksame Strategien zur Bekämpfung von Desinformation zu entwickeln und umzusetzen.

Warum Desinformation bekämpft werden muss

Die gezielte Verbreitung von Desinformation stellt eine ernstzunehmende Herausforderung dar, die weit über einfachen schlechten Journalismus oder unbeabsichtigte Fehlinformation hinausgeht. Häufig wird Desinformation bewusst eingesetzt, um politische Macht zu stärken oder finanzielle Interessen zu fördern [3]. Verschiedene Studien belegen zudem, dass Desinformation und Hassrede gezielt genutzt werden, um gesellschaftliche Spaltungen zu vertiefen.

Ein Beispiel hierfür ist der Anstieg von Hasskriminalität gegen Flüchtlinge und Migranten, der in erheblichem Maße auf die Verbreitung von Desinformationen über diese Gruppen in sozialen Medien zurückzuführen ist. Diese Desinformation kann im schlimmsten Fall zu realer Gewalt führen [2]. Eine spanische Studie zeigt, dass Hassrede und Desinformation am häufigsten von Politikern und radikalen Gruppen verbreitet werden [4]. In anderen Fällen wird Desinformation gezielt eingesetzt, um die Glaubwürdigkeit etablierter Nachrichtendienste zu untergraben [5].

Für Demokratien ist diese Entwicklung besonders bedrohlich, da sie auf einem offenen und konstruktiven Meinungsaustausch basieren, der durch solche Manipulationen erheblich gestört wird. Desinformation dient dabei nicht nur als Werkzeug zur Einflussnahme, sondern fungiert auch als Katalysator für Hasskriminalität, was den gesellschaftlichen Zusammenhalt gefährdet.

Vor diesem Hintergrund zielt dieser Beitrag darauf ab, zu untersuchen, ob ein generatives Sprachmodell wie GPT-4o in der Lage ist, in der Moderation sozialer Medien Fälle von Desinformationen effektiv zu erkennen und zu korrigieren.

Die Vielschichtigkeit von Desinformation

Nachdem die Bedeutung der Bekämpfung von Desinformation als zentraler Bestandteil für den Schutz demokratischer Prozesse hervorgehoben wurde, ist es wichtig, ein klares Verständnis davon zu entwickeln, was Desinformation tatsächlich umfasst. Dies ermöglicht nicht nur die Identifizierung von Desinformation, sondern auch die Entwicklung geeigneter Gegenmaßnahmen.

Sieben Typen von Desinformation nach Wardle, Sprachmodell — *Bild 1: Sieben Typen von Desinformation nach Wardle.*

Desinformation kann in verschiedene Kategorien unterteilt werden, wie in der Abbildung oben dargestellt. Zu den sieben Haupttypen von Desinformation gehören:

Satire oder Parodie: Inhalte, die keine böse Absicht haben, aber das Potenzial besitzen, Menschen in die Irre zu führen.
Irreführende Inhalte: Hierbei wird Information absichtlich falsch dargestellt oder aus dem Kontext gerissen, um Schaden anzurichten oder ein bestimmtes Thema oder Person zu verzerren.
Imposter-Inhalte: Diese Art von Desinformation entsteht, wenn authentische Quellen nachgeahmt oder gefälscht werden, um den Anschein von Glaubwürdigkeit zu erwecken.
Fabrizierte Inhalte: Dies sind komplett erfundene Inhalte, die in der Absicht erstellt werden, zu täuschen und Schaden zu verursachen.
Falsche Verbindung: Dabei handelt es sich um irreführende Überschriften, Bilder oder Videos, die nicht den tatsächlichen Inhalt des Artikels oder der Nachricht wiedergeben.
Falscher Kontext: Hier wird echtes Material in einen falschen oder verzerrten Kontext gesetzt, um die Wahrnehmung zu manipulieren.
Manipulierte Inhalte: Bei dieser Form der Desinformation wird echtes Bild- oder Videomaterial gezielt bearbeitet oder manipuliert, um einen falschen Eindruck zu erzeugen. [3]

Desinformation ist ein vielschichtiges Phänomen, das auf unterschiedliche Weise die öffentliche Wahrnehmung und das Vertrauen in Informationen untergraben kann. Dies stellt eine erhebliche Herausforderung für generative Sprachmodelle dar und macht die Forschungsfrage besonders spannend: Kann ein generatives Sprachmodell die vielfältigen Facetten von Desinformation erfolgreich bewältigen?

Einblicke in die aktuelle Wissenschaft

Die Forschung im Bereich Hate Speech ist umfangreich, jedoch gibt es vergleichsweise weniger Arbeiten zur Aufdeckung von Desinformation. Einige Studien in diesem Bereich sind dennoch hervorzuheben.

So haben Forscher in einem Paper ein automatisiertes Rahmenwerk zur Erkennung von Falschinformationen in politischen Reden entwickelt. Dieses System nutzt verschiedene Klassifikationsmethoden, um Merkmale wie Thema, Ort, Profil und Glaubwürdigkeit des Redners sowie Kontextinformationen zu extrahieren. Das trainierte Sprachmodell, basierend auf einer Support Vector Machine, erreichte auf dem „Liar“-Datensatz, bestehend aus etwa 12.000 manuell beschrifteten politischen Aussagen, eine Erkennungsgenauigkeit von 74% [6]. Auch deutsche Forschungsinstitute haben bedeutende Beiträge geleistet. Das Fraunhofer-Institut entwickelte ein Mittel zur Warnung vor Fake News, während das Max-Planck-Institut ein Sprachmodell zur Klassifikation von Twitter-Posts nach deutschem Strafrecht entwickelte [7].

Im Bereich der Nutzung generativer Sprachmodelle ist die Studie „Detecting Hate Speech with GPT-3“ von Collins erwähnenswert. Diese untersuchte die Fähigkeit des GPT-3-Modells zur Erkennung und Klassifikation von Hassrede. In verschiedenen Lernszenarien (Zero-Shot, One-Shot, Few-Shot) variierte die Genauigkeit des Sprachmodells zwischen 55% und 67%, konnte jedoch in Few-Shot-Szenarien auf bis zu 85% gesteigert werden [8].

Datensammlung und Klassifizierung von Informationsquellen

Für die Datenaufbereitung des Experiments wurden insgesamt 50 Datensätze gesammelt, die eine Vielzahl an Themen und Quellen umfassen. Von diesen 50 Datensätzen wurden 40 als potenzielle Fälle von Desinformationen klassifiziert, während die restlichen 10 Datensätze als korrekte Informationen eingestuft wurden. Die potenziellen Fälle von Desinformationen wurden weiter unterteilt in vier Kategorien: 10 Datensätze enthielten satirische Inhalte, 10 wiesen falschen Kontext auf, 10 waren frei erfunden, und 10 stellten Fehlinformationen dar.

Die Datensätze umfassen sowohl Online-Nachrichten als auch Kommentare von Benutzern in sozialen Medien wie Facebook und Twitter/X. Es wurden dabei ausschließlich Textinhalte betrachtet. Visuelle oder multimodale Inhalte wie Bilder und Videos wurden nicht berücksichtigt, mit Ausnahme von Fällen, in denen Text aus Bildern extrahiert wurde.

Für das Sammeln der Fake News wurden als zuverlässige Quellen Correctiv.org und Mimikama herangezogen. Satirische Inhalte wurden aus anerkannten Satirequellen wie „Der Postillon“ und dem „Titanic Magazin“ gewonnen. Die seriösen Datensätze stammen aus verschiedenen etabliertenNachrichtenportalen wie „Die Zeit“, „ZDF“, „Welt“ und „Der Spiegel“. Diese Auswahl gewährleistet eine breite thematische Abdeckung und eine hohe Relevanz der untersuchten Inhalte.

Die thematischen Schwerpunkte der Datensätze sind vielfältig und umfassen Themen wie Klimawandel, Prominente, Straftaten, Kuriositäten, politische Ereignisse sowie wissenschaftliche Themen wie Gesundheit und Technologie. Alle ausgewählten Themen sind von aktueller Relevanz, mit dem ältesten Beitrag von Anfang 2024. Der Großteil der Beiträge konzentriert sich auf die Monate Mai und Juni 2024, was die Aktualität und Relevanz der Daten sicherstellt.

Anwendung des GPT-4o-Sprachmodells

Das GPT-4o-Modell wird über die OpenAI-Plattform mittels eines Python-Notebooks aufgerufen. Das Python-Skript durchläuft iterativ die gesammelten Datensätze und übergibt dem GPT-4o-Modell drei zentrale Datenpunkte: das Veröffentlichungsdatum des Beitrags, den Titel (sofern vorhanden) und den Inhalt des Beitrags. Zunächst erstellt das Sprachmodell auf Basis dieser Informationen eine Suchanfrage, die über eine Suchmaschinen-API fünf Ergebnisse liefert.

Für die Suchmaschinen-API wurde der Anbieter Tavily ausgewählt, da sich die Integration in ein Python-Notebook durch die bereitgestellte Bibliothek als besonders unkompliziert erwies [9]. Die zugehörigen URLs dieser Suchergebnisse werden anschließend mithilfe von Python ausgelesen. Dabei wird die Bibliothek „Beautiful Soup“ verwendet, um den Text aus den HTML-Inhalten zu extrahieren [10]. Diese Inhalte werden anschließend durch das GPT-4o-Sprachmodell zusammengefasst und in einem JSON-Array zurückgegeben.

Daraufhin wird das GPT-4o-Modell erneut aufgerufen, um basierend auf dem ursprünglichen Beitrag und den zusammengefassten Informationen der erfassten Webseiten eine Bewertung vorzunehmen. Diese erfolgt in einem festgelegten Format, in dem das Sprachmodell angibt, ob der Inhalt korrekt, teilweise korrekt oder falsch ist. Zudem liefert das Sprachmodell eine Begründung für die Bewertung und schlägt gegebenenfalls Korrekturen vor.

Die Ergebnisse werden in einer Excel-Tabelle gespeichert, und der Autor analysiert manuell, ob die Klassifizierung korrekt und die Begründung nachvollziehbar ist. Ein weiterer Aspekt der Analyse besteht darin, zu überprüfen, ob das Sprachmodell den Kontext des Beitrags korrekt erfasst hat, beispielsweise ob ein satirischer Beitrag als solcher erkannt wurde und ein seriöser Beitrag nicht fälschlicherweise als Satire eingestuft wurde.

Der technische Ablauf des Experiments kann aus der unteren Abbildung entnommen werden.

*Bild 2: Workflow zur Nutzung von GPT-4o zur Fake News-Erkennung: Dateneingabe, Suchanfrage, Webscraping und inhaltliche Bewertung.*

Auswertung und Bewertung

Die Bewertung der Ergebnisse folgte einem klaren Schema:

Wenn der Autor die Argumentation des Sprachmodells vollständig nachvollziehen konnte, erhält der Datensatz keinen Punktabzug. Dies setzt voraus, dass das Sprachmodell sowohl den Inhalt korrekt erkannt als auch den Kontext des Beitrags angemessen interpretiert hat. Der Kontext bezeichnet hierbei die Fähigkeit des Sprachmodells, die Gesamtbedeutung und Intention des Beitrags zu erfassen.

Ein Beispiel verdeutlicht diese Vorgehensweise: Wenn das Sprachmodell die satirische Absicht hinter einem Beitrag nicht erkennt, identifiziert es zwar einen scheinbaren inhaltlichen Fehler, berücksichtigt jedoch nicht, dass die vermeintliche Desinformation eine bewusst gewählte stilistische Entscheidung ist.

Der Punkteabzug erfolgt wie folgt:

1 Punkt wird für die falsche inhaltliche Erkennung abgezogen.
1 Punkt wird für das fehlende Verständnis des Kontextes abgezogen.

Bei 50 Datensätzen kann eine maximale Gesamtpunktzahl von 50 Punkten erreicht werden. Ein Punktabzug pro Kriterium erfolgt nur, wenn entweder die inhaltliche Richtigkeit oder der Kontext nicht korrekt erfasst wurde; bei beiden Fehlern werden je Datensatz zwei Punkte abgezogen. Wenn 25 Datensätze beide Kriterien nicht erfüllen, beträgt die Gesamtpunktzahl 0 Punkte. Minuspunkte sind nicht möglich.

Die Bewertungsmethode ist mit der Beurteilung von Schülerarbeiten durch einen Lehrer vergleichbar und ermöglicht es, die inhaltliche Argumentation des Sprachmodells zu berücksichtigen. Es ist jedoch zu beachten, dass diese Bewertungsmethode subjektiver und weniger neutral ist als die Berechnung quantitativer Kennzahlen.

Mit den vergebenen Punkten wird am Ende die Genauigkeit berechnet, die die Gesamtleistung des Setups widerspiegelt. Der Begriff „Genauigkeit“ bezieht sich hier ausschließlich auf den Prozentsatz der insgesamt erreichbaren 50 Punkte. Wenn also von 50 möglichen Punkten 40 Punkte erreicht werden, entspricht dies einer Genauigkeit von 80 %. Der Begriff „Richtigkeit“ wurde bewusst vermieden, da er in diesem Kontext bereits spezifisch für das Kriterium der inhaltlichen Korrektheit verwendet wird.

*Bild 3: Punktzahlbewertung der Richtigkeit und des Kontextverständnisses des GPT-4o-Modells.*

Das GPT-4o-Sprachmodell, in Kombination mit der Suchanfrage-API Tavily, erreichte eine Gesamtpunktzahl von 48 Punkten.

Ein positives Beispiel ist hier zu sehen:
• Inhalt der Falschinformation: Der beobachtete Rückgang des Meeresspiegels in Oslo ist in der nachstehenden Grafik zu sehen. Aus den Daten geht eindeutig hervor, dass der Meeresspiegel seit über 100 Jahren sinkt und bis zum Ende des Jahrhunderts um 28 cm sinken wird.

• Bewertung Richtigkeit von GPT-4o: „Teilweise richtig“

• Begründung von GPT-4o: „Der Text behauptet, dass der Meeresspiegel in Oslo seit über 100 Jahren sinkt und bis zum Ende des Jahrhunderts um 28 cm sinken wird. Dies ist teilweise korrekt, da es in Oslo tatsächlich einen relativen Rückgang des Meeresspiegels gibt, der durch die isostatische Landhebung verursacht wird. Das Land hebt sich schneller als der Meeresspiegel steigt, was zu einem relativen Rückgang führt. Allerdings steigt der absolute Meeresspiegel weltweit aufgrund des Klimawandels, was durch zahlreiche wissenschaftliche Studien und Berichte, wie den des IPCC, belegt ist. Quellen wie der dpa-Faktencheck und das Helmholtz-Zentrum für Ozeanforschung bestätigen, dass der globale Meeresspiegel ansteigt, auch wenn lokale geologische Prozesse wie die Landhebung in Oslo zu einem relativen Rückgang führen können.“

In diesem Beispiel zeigt GPT-4o, dass es in der Lage ist, auch teilweise korrekte Informationen zu erkennen und den Kontext entsprechend zu korrigieren, sodass dem Leser ein umfassender Überblick über die Fakten geboten wird.

In zwei Fällen allerdings scheiterte das Sprachmodell beim Kontextverständnis.

In einem Fall wurde die satirische Absicht übersehen:

• Inhalt der Falschinformation „Berichte der New York Times, nach denen die Organisatoren der Olympischen Spiele von Paris Athleten mit Anti-Sex-Maßnahmen von leistungsmindernden Aktivitäten abhalten wollen, entsprechen der Wahrheit. Dabei sind die bei jeder noch so kleinen Bewegung sofort zusammenfallenden Pappbetten nur die Spitze des Eisbergs. So wurden die angenehm warmen Duschen in den Appartments bereits zugunsten von laufend frisch befüllten Eistonnen ersetzt. (…) Dem Charme des Wirtschaftsministers zu widerstehen, könnte für die Sicherheitskräfte allerdings zur 49. Disziplin der diesjährigen Spiele werden, bei denen es in sexueller Hinsicht heißt: “Nicht dabei sein ist alles!”“

• Bewertung Richtigkeit von GPT-4o: „Falsch“

• Begründung von GPT-4o: „Der Artikel enthält zahlreiche falsche und übertriebene Behauptungen. Die Organisatoren der Olympischen Spiele in Paris haben die Gerüchte über ’Anti-Sex-Maßnahmen’ und ’Anti-Sex-Betten’ dementiert. Die Pappbetten wurden aus Umweltgründen gewählt und sind robust genug, um den Athleten Komfort zu bieten. Es gibt keine Berichte über Eistonnen anstelle von Duschen, abgeflämmte Gebüsche oder mit Ketamin beschichtete Kondome. Diese Behauptungen sind übertrieben und entsprechen nicht der Realität. Quellen wie DER SPIEGEL und WDR bestätigen, dass die Gerüchte über Anti-Sex-Maßnahmen unbegründet sind.“

Ein weiterer Punkt wurde bei der Bewertung eines Beitrags mit falschem Kontext abgezogen, da das Modell den Beitrag missverstanden hatte. Konkret bestand das Problem darin, dass GPT-4o nicht erkannte, dass der vom Autor gewählte Titel keinen Bezug zum eigentlichen Inhalt des Beitrags hatte.

Abschließend zeigt die Untersuchung, dass das GPT-4o-Modell in Kombination mit einer Suchmaschinen-API wie Tavily eine hohe Effektivität bei der Erkennung und Korrektur von Desinformation aufweist. Mit einer Genauigkeit von 96% konnte das Sprachmodell die meisten Datensätze korrekt klassifizieren, obwohl es in Einzelfällen Schwierigkeiten hatte, den Kontext vollständig zu erfassen. Diese Ergebnisse unterstreichen das Potenzial von generativen Sprachmodellen zur Unterstützung bei der Moderation von Inhalten und der Bekämpfung von Desinformationen in digitalen Medien.

Literatur

[1] TechMonitor: 10 Most Notable Quotes from Google’s Eric Schmidt. URL: https://techmonitor.ai/technology/10-most-notable-quotes-from-googles-eric-schmidt-4207960, Abrufdatum 17.08.2024.
[2] European Foundation for South Asian Studies (Hrsg).: The role of fake news in fueling hate speech and extremism online; Promoting adequate measures for tackling the phenomenon. URL: https://www.efsas.org/publications/study-papers/the-role-of-fake-news-in-fueling-hate-speech-and-extremism-online/, Abrufdatum 17.08.2024.
[3] Wardle: Fake news. It’s complicated. URL: https://firstdraftnews.org/articles/fake-news-complicated/, Abrufdatum 17.08.2024.
[4] Blanco-Herrero, D.; Sánchez-Holgado, P.: Fake news and hate speech: who is to blame? In: Ninth International Conference on Technological Ecosystems for Enhancing Multiculturality (TEEM’21), Barcelona: ACM, 26. Okt. 2021, S. 448–451.
[5] Drobnic Holan, A.: PolitiFact – The media’s definition of fake news vs. Donald Trump’s. URL: https://www.politifact.com/article/2017/oct/18/deciding-whats-fake-medias-definition-fake-news-vs/, Abrufdatum 17.08.2024.
[6] Purevdagva, C. u. a.: A machine-learning based framework for detection of fake political speech. In: 2020 IEEE 14th International Conference on Big Data Science and Engineering (BigDataSE). Guangzhou, China: IEEE, Dezember 2020, S. 80–87.
[7] Machnig, L.: Combating hate speech with artificial intelligence. URL: https://www.telekom.com/en/company/details/combating-hate-speech-with-artificial-intelligence-628530, Abrufdatum 17.08.2024.
[8] Chiu, K.-L.; Collins, A.; Alexander, R.: Detecting Hate Speech with GPT-3. In: arXiv (2022). URL: https://arxiv.org/abs/2103.12407.
[9] Tavily: Tavily Search API. URL: https://tavily.com/, Abrufdatum 17.08.2024.
[10] Beautiful Soup: Beautiful Soup 4 Documentation. URL: https://beautiful-soup-4.readthedocs.io/en/latest/ , Abrufdatum 17.08.2024.

Ihre Downloads

Potenziale: Dienstleistungen Geschäftsmodelle
Lösungen: Qualitätsmanagement Sicherheit

Das könnte Sie auch interessieren

Mit generativen Sprachmodellen die Social-Media-Moderation verbessern

Studie zur Erkennung und Korrektur von Desinformation

Abstract

Keywords

Artikel

Die Bedrohung durch Desinformation im digitalen Zeitalter

Warum Desinformation bekämpft werden muss

Die Vielschichtigkeit von Desinformation

Einblicke in die aktuelle Wissenschaft

Datensammlung und Klassifizierung von Informationsquellen

Anwendung des GPT-4o-Sprachmodells

Auswertung und Bewertung

Literatur

Ihre Downloads

Das könnte Sie auch interessieren

Open-Source Implementierung des Industrial Metaverse

Datenqualität und Expertise für robusten KI-Einsatz

KI-Implementierung in der industriellen Qualitätskontrolle

In-Orbit-Wartung von Satelliten

Referenzarchitektur für Demonstratoren Maschinellen Sehens

KI-gestützte Workstation für die Qualitätskontrolle

Florian Goldmann