Die Deepfake-Apokalypse

KI-generiertes Bild zum Thema „Gaza“ aus der Bilddatenbank Imago Images.
© IMAGO/imagebroker

VonLisa Berins
schließen

Mit der KI ist ein neues Zeitalter der technisch perfekten Desinformation angebrochen. Sind die neuen Bilder tatsächlich eine so große Gefahr wie befürchtet?

Vor einem Jahr begann die große Karriere der künstlichen Intelligenz: Seit „ChatGPT“ im November 2022 seinen Durchbruch hatte, lebt die Menschheit mit einer vermeintlich „intelligenten“ Maschine, mit der man chatten kann, die in zusammenhängenden Sätzen mal mehr, mal weniger logisch, ausgewogen und wahr antwortet, die witzige und absurde Bilder nach Prompts, also nach Textbefehl, generieren kann. Der Hype war von Anfang an groß, die Zweifel ebenso: Womöglich reißt die KI die Weltherrschaft an sich! Sie wird massenweise Arbeitsplätze rauben! Und was, wenn sie in falsche Hände gerät? Die KI könnte ein äußerst nützliches Tool für die bösen Kräfte unserer Gesellschaft sein! Komplett von der Hand zu weisen ist das nicht.

Seit einem Jahr kursieren täuschend echt wirkende, aber tatsächlich gefälschte Bilder und Videos im Netz. Die neue, KI-generierte Bilderwelt ist wunderbar Insta-tauglich: Der Papst als Hipster-Opa in einer dicken, weißen Balenciaga-Daunenjacke. LOL! Klick. Donald Trump, der in einem Handgemenge verhaftet wird. Klick. Ein mit Pizzakartons bedecktes Pop-up-Büro – Müll-Hinterlassenschaften des Grünen-Parteitags. Na bitte! Tränenlach-Emoji. Vor ein paar Wochen kursierte ein Video von Kanzler Olaf Scholz bei einer offiziellen Ansprache, in der er einen Verbotsantrag der AfD verkündete. Die unschlagbar gute Kombination für den Klickerfolg: Wunschdenken plus Suggestivkraft des Bildes plus eine gute Prise Empörungspotenzial – Emotionen klicken gut. Ob’s wirklich wahr ist oder nicht – erst mal egal. Die Inhalte verbreiten sich auf Social Media rasend schnell – und damit sind bestimmte Erzählungen erst mal in die Welt gesetzt.

Das Perfide an Deepfakes und KI-generierten Bildern: auf den ersten Blick erkennt man sie meist nicht als Fälschungen. Es sind manipulierte Inhalte, die den Anschein von Echtheit haben und ihre Fälschung verschleiern. Neu ist es nicht, Inhalte zu fälschen, besonders bei Bildern ist das schon lange möglich, aber man brauchte dafür besondere Skills, oder zumindest ein paar Grundkenntnisse in Photoshop. Heute, mit der KI, kann theoretisch jeder und jede mit Programmen, die im Internet als Testversionen umherschwirren, ein paar echt wirkende, witzige – oder aber kritische oder verfälschende oder politisch heikle Bilder in die schnelllebige Welt der Chats und Threads rausposaunen. Wohl doch ganz schön gefährlich dieses Spiel, oder etwa nicht?

Geht so – findet Philipp Ruch vom Zentrum für politische Schönheit. Die Satiregruppe hatte das Scholz-Video als Teil einer Satirekunst-Aktion in die Welt gesetzt. Die technische Hürde, um ernstzunehmende Deepfakes herzustellen, sei nämlich in Wirklichkeit gar nicht so klein, wie man denkt. Es sei trotz KI noch immer ziemlich anspruchsvoll, ein Fakevideo wie die Scholz-Rede zu erstellen. Wenn man genau hinschaut: die Lippenbewegungen – wirklich synchron sind sie nicht. „Wir haben monatelang daran gearbeitet. Wenn man nicht gerade ein Marvel-Filmstudio mit einer eigenen KI-Entwicklungsabteilung ist, sondern ein normaler Mensch, noch dazu mit einem Computer mit begrenzter Rechenleistung, dann ist das, was wir beim Scholz-Video sehen, der Stand der Perfektion, den man derzeit erreichen kann“, sagt Ruch. Viel interessanter als die technischen Details war etwas anderes: der mediale und politische Aufschrei, der folgte, und der auf eine Weise überraschte. Offenbar traf die Aktion einen wunden Punkt; die Politik weiß scheinbar gar nicht, wie sie mit Deepfakes umgehen soll.

Die Bundesregierung reagierte nicht unbedingt gelassen. Sie ließ das Video mit dem Verweis auf die AGB von Plattformen wie Instagram löschen, unter anderem bezog sie sich dabei auch auf das Marken- und Urheberrecht. (Mittlerweile ist das Video bei Youtube wieder zu sehen.) „Wo Bundesregierung draufsteht, muss auch Bundesregierung drin sein“, sagte Regierungssprecherin Christiane Hoffmann dazu bei einer Bundespressekonferenz. Man sei besorgt: Solche Fakes führten Menschen in die Irre und erschwerten eine öffentliche Meinungsbildung – vor allem durch aus dem Ausland kommende Desinformationskampagnen –, was eine Gefahr für die Demokratie sei. Abgesehen davon, dass hier Äpfel mit Birnen – gezielte, politische Desinformation mit einer Kunstaktion – verglichen wurden, scheint doch eins deutlich: Das Potenzial von Deepfakes wird als ziemlich bedrohlich eingestuft. Ist dies also der Anfang eines neuen Zeitalters der noch gefährlicheren, weil noch echter wirkenden Desinformation durch die Mittel der künstlichen Intelligenz? Der Beginn einer Zeit, in der man den eigenen Augen nicht mehr trauen kann und der Glaube an die Wahrheit grundlegend erschüttert wird?

Die Kommunikationswissenschaftlerin Viorela Dan von der Universität Innsbruck hält nicht viel von solchen Bedrohungsszenarien. Abgesehen davon, dass Deepfakes derzeit zwar verstärkt in bestimmten Bereichen, vor allem auf pornografischen Seiten, auftauchten, habe es bisher noch keinen glaubwürdigen Deepfake mit demokratiebedrohender Sprengkraft gegeben. Um wirklich eine Gefahr zu sein, brauche es mehr als nur ein Video mit gefakter Stimme und gefälschtem Text.

Viorela Dan forscht derzeit zur Wirkung von Deepfakes. Um den Effekt dieser Fälschungen auf Menschen zu messen, bräuchte es valide Langzeitstudien, die gibt es bisher nicht. Grundsätzlich sei es durchaus so, dass Bilder ein hohes Maß an Glaubwürdigkeit besäßen. „Wir wissen, welchen Effekt Bilder und vor allem Videos auf Menschen haben. Wir Menschen vertrauen Bildern, weil wir noch nicht begriffen haben, dass das keine Abbilder der Realität sind, wir schenken ihnen automatisch erst mal Glauben“, sagt Dan. Wenn für bestimmte Aussagen dann vermeintlich authentische Beweise durch Bilder geliefert würden, bestehe durchaus die Gefahr einer Manipulation. Allerdings: Ein singulärer Deepfake mache aus einem Menschen nicht sofort einen „zynischen Nichts-mehr-Glauber“.

In Dans Studie, die im kommenden Jahr veröffentlicht werden soll, bekamen die Probanden Deepfakes untergejubelt, in denen Politiker vermeintlich echte, in Wirklichkeit durch KI manipulierte, rassistische oder misogyne Statements abgeben. Ein Ergebnis der Untersuchung sei, dass sich die Einstellungen der Probanden zum Politiker verschlechtert hätten, sagt Dan. Die gute Nachricht: Mit einem Faktencheck, einer Art Medienkompetenz-Training, war diese Entwicklung wieder rückgängig zu machen. Die schärfste Waffe gegen Deepfakes ist und bleibt: der menschliche Verstand.

So einfach sei es im Übrigen nicht, einen Deepfake wirklich langfristig glaubwürdig zu machen, sagt Dan. Es brauche eine sinnvolle Einbettung, einen logischen Kontext, ein inszeniertes Drumherum. Der Inhalt muss plausibel sein, und zum Beispiel die vermeintlich echte, diskreditierende Aufnahme authentisch wirken, also etwa so erscheinen, als sei sie von einer versteckten Kamera aufgenommen worden. Dan habe für ihren Versuch einen immensen Aufwand betreiben müssen, um die Menschen hinters Licht zu führen – sogar ein Drehbuch habe sie geschrieben.

Wenn man wie Dan von einer mündigen und kritischen Öffentlichkeit ausgeht, dann könnte man doch annehmen, dass seltsam erscheinendes Material schnell auffliegt, weil man sich etwa fragt: Kann es denn wirklich sein, dass sich Olaf Scholz auf einmal so resolut für ein AfD-Verbot ausspricht, und dann auch noch im Setting wie bei einer Neujahrsansprache?

Um das Auffinden von Fälschungen und Desinformation kümmern sich seit einiger Zeit auch die Faktencheck-Teams renommierter Medienhäuser und gemeinnütziger Initiativen. Besonders schwierig ist es für sie, Bilder aus dem Kriegskontext als Fakes zu identifizieren, da verlässliche Quellen oft fehlen. Gerade der ohnehin emotional aufgeladene Nahost-Konflikt ist zwar eine perfekte Grundlage für Desinformationen aller Art – KI-Fakes machten da aber noch nicht das Gros aus, sagt Joscha Weber, der das Fact-Checking-Team bei der Deutschen Welle leitet.

Es gebe eine Liste an Merkmalen, anhand derer man KI-generierte Bilder erkennen könne. Ein erster Hinweis auf einen KI-Fake sei beispielsweise ein allzu glatter, „glossy“ Look. Außerdem mache die KI noch immer die typischen Fehler: zu wenig oder zu viele Finger, verschmelzende Hände, falsche Körperproportionen oder Perspektive, Fehler im Hintergrund, in der Tiefenschärfe.

Vor einiger Zeit kursierten vermeintlich echte Fotos aus Gaza im Netz: eine palästinensische Familie, die inmitten der ausgebombten Stadt zum Essen zusammenfindet, ein mit fünf Kindern bepackter Mann mit staubigem Gesicht, der in Sandalen über die Trümmer läuft. Zwei Kinder in der Rückenansicht, die aus einiger Entfernung die Bombardierung von Gaza beobachten. Diese Bilder wurden als Fakes enttarnt. Doch von wem und warum sie in Umlauf gebracht wurden, bleibt unklar: Manchmal könne man die Bilder zwar zu dem Account zurückverfolgen, von dem sie als erstes gepostet wurden, aber wer und welche Motive dahintersteckten, sei oft nicht zu ermitteln, sagt Weber. „Wir können nur ahnen, dass es darum geht, angebliches Leid oder angebliche Zerstörung, vermeintliche Gräuel- oder Heldentaten zu zeigen.“

Neben dem Bild hat die KI auch bei der Nachahmung von Stimmen die, na ja, „Finger“ im Spiel, und auch da lauert die Gefahr, auf Fakes hereinzufallen. Es sei heute viel einfacher als noch vor wenigen Jahren möglich, die Stimmen berühmter Menschen und Politiker:innen zu fälschen. Die größten Herausforderungen eines Audio-Deepfakes lägen aber noch immer in der Natürlichkeit der Stimme, darin, dass der Tonfall menschlich und nicht abgehackt klinge, sagt Nicolas Müller vom Fraunhofer-Institut für Angewandte und Integrierte Sicherheit (AISEC). Er forscht im Bereich der Cybersecurity zur Stimmmanipulation durch KI und entwickelt mit einem Team selbst eine KI, die Fakes aufspüren soll. Ein Katz-und-Maus-Spiel sei das, sagt Müller, denn natürlich werden die Fakes besser und die Detektions-KI muss ständig aktuell gehalten werden.

Wie ist bei diesem steigenden und immer echter erscheinenden Deepfake-Content im Netz das gesellschaftliche Gefahrenszenario einzuschätzen? Die EU hält in ihrem „AI Act“ eine Transparenzverpflichtung fest: KI-generierte Inhalte sollen danach als solche erkennbar sein. Wie das genau aussehen soll, ob „echte“ Inhalte durch eine Art Wasserzeichen oder durch Zertifikate authentifiziert oder KI-generierte Inhalte gekennzeichnet werden sollten – oder beides – das ist noch nicht klar.

Das Irrwitzige ist, dass es natürlich gar keine KI braucht, um mit Desinformation die Demokratie zu gefährden. Wenn man beispielsweise die rechte Szene beobachte, sagt Philipp Ruch vom Zentrum für politische Schönheit, sehe man das ganz klar: Für deren politische Agitation reichten auch nicht-gefakte, also echte Bilder, die aus dem Kontext gerissen und in einen neuen Zusammenhang gestellt werden, oder es reichten lieblos erstellte Fälschungen. Für die Verbreitung dieser Narrative ist es scheinbar ausreichend, mit billigen Tricks und dumpfer Stimmungsmache zu arbeiten. Viel mehr als um technische Perfektion gehe es, findet Ruch, um eine „Glaubenswilligkeit“ der Leute.

Was nun? Das Potenzial von Deepfakes zu unterschätzen, ist gefährlich – eine Apokalypse herbeizuorakeln nicht zielführend. Auch wenn es nicht unbedingt originell ist: Möglicherweise wäre es sinnvoll, in Aufklärung zu investieren und an vernünftigen Strategien zu arbeiten, wie man mit wirklich bedrohlichen Deepfakes umgehen kann. Die eigentliche Bedrohung aber steckt weniger in den neuen technischen Möglichkeiten als woanders: in den Genen unserer Gesellschaft. Doppeltes Zwinker-Emoji.

Das Deutsche-Welle-Faktencheck-Team fand bei diesem KI-generierten Bild aus dem Kontext Nahostkrieg Fehler. Foto: X/Überprüft von DW
© X/Überprüft von DW

Die Deepfake-Apokalypse

Kommentare