Hallo Bücherwurm,
herzlich willkommen zum ersten richtigen Blogpost der Reihe "Portalwelten"! Ich habe mir direkt ein Thema ausgesucht, das sehr groß ist und über das ich schon länger mal ausführlich sprechen wollte. Vor allem da mir bereits vorgeworfen wurde, dass "Not the Hero" von einer KI geschrieben wurde und als Begründung genannt wurde, dass der KI Detektor Hive anschlagen würde.
Aber wie gut sind diese KI Detektoren wirklich? Sind sie zuverlässig? Und können sie KI generierte Texte von selbstgeschriebenem unterscheiden?
Ich habe mir acht Detektoren genauer angesehen und teile meine Ergebnisse jetzt mit dir. Am Ende gibt es noch ein Fazit, bleibt also dran! Und noch wichtig dazu zu sagen: Ich werde für nichts hiervon bezahlt oder gesponsert, weder für den Post, die Links noch für meine Meinung. Alle Ergebnisse sind echt, unverfälscht und können easy nachgeprüft werden. Bei Fragen kannst du mir gerne eine Nachricht schicken oder sie in die Kommentare schreiben. Bleib aber bitte Respektvoll, denn auch wenn dich das Thema triggert, ist das kein Grund unfreundlich oder beleidigend zu werden.
Update 25.07.24: Nachdem dieser Beitrag auf Threads kritisiert wurde, da ja die Einzüge aus meinem eigenen Text nicht entfernt wurden und deshalb (!) klar ist, dass der KI Detektor meinen Text nicht richtig erkennt, habe ich das jetzt angepasst und das neue Ergebnis angefügt. Fakt bleibt allerdings, dass die Zahlen die gleichen bleiben und KI Texte auch weiterhin nicht als KI erkannt werden. Mein Fazit bleibt damit das gleiche.
Kapitel 1 - Der Text
Um einen KI Detektor füttern zu können, braucht es zu aller erst mal einen Text, der gecheckt werden kann. Dafür habe ich einmal einen Originalauszug aus "Not the Hero" verwendet, den ich selbstgeschrieben habe und einen Textauszug aus einem Text zum Thema KI den ChatGPT geschrieben hat. Bei ChatGPT wurde die öffentlich verfügbare 4o Version genutzt.
Hier ist der Textauszug aus "Not the Hero" (selbstgeschrieben)
Hier ist der Textauszug vom KI-Text (von ChatGPT geschrieben)
Den Auszug aus "Not the Hero" findest du auch in der Leseprobe und er enthält keine Spoiler. Also keine Angst davor, den Text aufzuklappen ;) Diesen Auszug habe ich bewusst gewählt, da das eine Stelle ist die bereits von einer bösen Zuge als "KI generiert" bezeichnet wurde.
Und der Text den ich von ChatGPT bekommen habe ist unverändert aus dem Chat kopiert. Als Promt habe ich ihn einfach nur gefragt "Was ist eine KI?"
Beide Texte haben ähnlich viele Wörter, damit es auswertbar bleibt und nicht evtl. durch die reine Textlänge verfälscht wird.
Hier zwei Bilder, eines aus der Leseprobe und eines aus ChatGPT, damit du dich davon überzeugen kannst, dass der Text nicht verändert wurde:
Kapitel 2 - Die Auswahl der KI Detektoren
Ich habe acht Detektoren rausgesucht, die für jeden zugänglich sind, keine Anmeldung, keine Zahlung oder Installation von Programmen benötigen. Zur Suche habe ich Google und Top Listen genutzt.
Die einzige Ausnahme bildet hier Hive, der zwar eh überall empfohlen wird, den ich aber aus einem anderen Grund gewählt habe: Er wird nämlich von wahnsinnig vielen "No AI"- Vertretern bevorzugt um zu beweisen, dass etwas KI-generiert wurde. So auch von den bösen Zungen, die mein eigenes Werk verunglimpft haben.
Am Ende ist die Wahl also auf folgende KI Detektoren gefallen. Die Reihenfolge ist rein zufällig und hat nichts auszusagen über die Qualität der Seiten oder der Ergebnisse.
Hive Moderation (https://hivemoderation.com/ai-generated-content-detection)
Illuminarty (https://illuminarty.ai/de/)
GPTZero (https://gptzero.me/)
Undetectable (https://undetectable.ai/)
ZeroGPT (https://www.zerogpt.com/)
Quillbot (https://quillbot.com/de/ai-detector)
Solltest du noch weitere KI Detektoren kennen, die ich hier unbedingt noch mit aufnehmen soll, schreib sie mir in die Kommentare. Dann vervollständige ich die Liste nach und nach.
Was ist so ein KI Detektor eigentlich und was tut er?
Ein KI-Detektor ist ein System, das entwickelt wurde, um den Ursprung eines Textes zu bestimmen, insbesondere um herauszufinden, ob der Text von einer künstlichen Intelligenz (KI) wie ChatGPT generiert wurde oder von einem Menschen verfasst wurde.
Der Detektor analysiert den Text und sucht nach Mustern, die typisch für KI-generierte Inhalte sind. Diese Muster können bestimmte Sprachstrukturen, häufige Phrasen oder eine spezifische Wortwahl umfassen. Zudem vergleicht er den Text mit bekannten Ausgaben von KI-Modellen. Wenn der Text Merkmale aufweist, die für eine bestimmte KI typisch sind, erhöht sich die Wahrscheinlichkeit, dass der Text von einer KI stammt.
Basierend auf der Analyse gibt der Detektor eine Wahrscheinlichkeit an, mit der der Text von einer KI generiert wurde. Diese Bewertung kann in Form eines Prozentsatzes oder einer anderen Metrik dargestellt werden.
Diese Detektoren sind aber nicht nur auf Texte spezialisiert. Es gibt auch welche für Bilder, Videos und auch für Sprach- bzw. Stimmaufnahmen.
Kapitel 3 - Ergebnisse der KI Detektoren
Im nächsten Schritt habe ich in jeden Detektor die beiden Texte eingespeist, die du oben auch jederzeit nachlesen kannst. Die Ergebnisse siehst du nun hier. Das erste Bild ist immer der Auszug aus "Not the Hero" und das zweite immer der Text von ChatGPT.
Ein Gesamtfazit folgt in Kapitel 4.
Hive Moderation
Hive wird oft als "Der" KI Detektor bezeichnet und sowohl für Texte als auch für Bilder verwendet. Er führt viele Bestenlisten an und nicht wenige Künstler und Autoren greifen auf ihn zurück. Entsprechend gespannt war ich auch auf das Ergebnis.
Doch während er meinem eigenen Text noch 8,5 % KI nachsagt, erkennt er bei dem Text von ChatGPT kein einziges Prozent. Ein ernüchterndes Ergebnis für einen solchen Spitzenreiter.
Update 25.07.24: Hier siehst du nun die Ergebnisse mit Einzügen und ohne Einzügen.
Illuminarty
Dieser KI Detector funktioniert wie Hive sowohl für Bilder als auch Texte. Während ich hier bei meinem eigenen Text noch spannend fand, dass nur 0,4 % als KI erkannt wurde, war ich spätestens bei den 2,6 % des Textes von ChatGPT enttäuscht. Auch hier wirkt das Detektor-Ergebnis wenig vertrauenserweckend.
Update 25.07.24: Hier werden Einzüge und Absätze automatisch entfernt. Deshalb kein neues Bild, es wäre exakt das gleiche.
GPTZero
Bei GPTZero wird nicht nur eine einfache Analyse gemacht, im Text werden auch die als KI erkannten Stellen farbig hinterlegt, damit man auf einen Blick sieht, wo sich die Problemstellen befinden. Und es gibt nicht nur eine Prozentzahl an sondern gleich drei, die angeben wie sehr der Text von einem Menschen oder einer KI besteht bzw. ob es sogar eine Mischung aus beidem ist.
Bei meinem Text war sich das Programm nicht sicher und identifiziert ihn als Mischung aus KI- und Menschengeneriert. Allerdings markiert er den gesamten Text und gibt damit an, dass er schon eher auf KI tippt. Und traurigerweise wird dem Text von ChatGPT deutlich mehr "Menschlichkeit" zugeschrieben.
Update 25.07.24: Hier werden Einzüge und Absätze automatisch generiert.
Writer
Dieser Detektor ist in der Lage nicht nur direkt hinterlegte Texte, sondern auch ganze Websites zu untersuchen. Doch das Ergebnis zeigt mir, dass er es dafür nicht so mit der Verlässlichkeit hat. Ich meine, klar freue ich mich über die 100 % die meinen Text als vom Menschen geschrieben ausweist, aber warum erreicht der Auszug von ChatGPT ganze 90 %?
Update 25.07.24: Hier siehst du nun die Ergebnisse mit Einzügen und ohne Einzügen.
Undetectable
Bei diesem Detektor gibt es nur wenige Infos und auch keine genauen Prozentanzeigen. Aber beide Texte werden grün ausgezeichnet, was laut der Legende darunter für 100% menschengemacht steht.
Update 25.07.24: Hier siehst du nun die Ergebnisse mit Einzügen und ohne Einzügen.
Smodin
Hier werden, genau wie bei GPTZero, die Stellen im Text farbig hinterlegt, bei denen ein Verdacht auf KI besteht. Zwar ist der Wert bei meinem eigenen Text ungewöhnlich hoch, dafür freue mich aber, dass der Auszug von ChatGPT endlich mal als KI Text erkannt wurde.
Update 25.07.24: Hier siehst du nun die Ergebnisse mit Einzügen und ohne Einzügen.
ZeroGPT
Dieser Detektor heißt zwar fast genauso wie GPTZero, ist aber nicht das gleiche und spielt auch andere Werte aus. Vom Ergebnis her ähnelt er schon deutlich mehr dem Smodin Detektor, aber die beiden sind sich trotzdem nicht ganz einig, welche Stellen im Text jetzt KI sind und welche nicht. Und dafür, dass bei ChatGPT Text über 97 % der KI zugeschrieben werden, markiert er erstaunlich wenige Stellen im Text.
Update 25.07.24: Hier siehst du nun die Ergebnisse mit Einzügen und ohne Einzügen. Ist sogar das einzige Ergebnis bei dem sich was geändert hat und in meinem Text weniger KI erkennt als zuvor.
Quillbot
Und der letzte Detektor ist der Quillbot, der zwar ebenfalls den KI Text auch wirklich als KI identifiziert, aber bei meinem ganze 51 % KI nachsagt.
Update 25.07.24: Hier siehst du nun die Ergebnisse mit Einzügen und ohne Einzügen.
Kapitel 4 - Fazit
Zwischen 0 und 100 % ist quasi alles dabei gewesen, sowohl bei dem Text aus "Not the Hero" als auch beim Text den mir ChatGPT geschrieben hat. Manchmal wurde ChatGPT sogar deutlich mehr "Menschlichkeit" zugeschrieben als dem von Menschhand geschriebenen Text. Und selbst Hive, das Programm, dass so gehyped wird, hat den KI Text nicht mal ansatzweise erkannt.
Bedeutet das jetzt, dass die bösen Zungen recht hatten und mein Text einfach schlechter als die KI ist? Ein klares Nein! Auch wenn KI natürlich immer besser wird und vielleicht auch irgendwann tatsächlich besser ist, als das was ich aktuell schreibe. Aber genau wie die KI, entwickle auch ich mich weiter. Trotzdem ist es natürlich ernüchternd, wie schlecht die Ergebnisse für meinen Text ausfallen. Muss ich also künftig immer einen Detektor drüber laufen lassen, um Vorwürfen aus dem Weg zu gehen? Dazu kommen wir jetzt zu den Anfangsfragen zurück und beantworten diese.
Wie gut sind diese KI Detektoren wirklich? Sind sie zuverlässig?
Meiner Meinung nach, kommt es vor allem darauf an, wer den Detektor nutzt und welches Ergebnis er präferiert. Möchte ich beweisen, dass ein bestimmter Text oder auch ein Bild KI generiert ist, suche ich mir den Detektor, der mir genau dieses Ergebnis liefert. Aber wie du an den vielen verschiedenen Ergebnissen sehen kannst, finde ich nicht, dass man sich wirklich auf diese Detektoren stützen sollte.
Am Ende ist es auch nur ein Programm, dem jemand (vielleicht sogar eine KI?) einen Algorithmus hinterlegt hat. Es sucht nach Kennzeichen, die explizit auf KI hindeuten sollen, aber die finden sich eben auch in Texten, die von einem Menschen geschrieben wurden. Zumal sich die KI stetig weiterentwickelt und solche Fehlerquellen immer weiter dezimiert. Stützen wir uns also ungefiltert auf diese Zahlen, kann es passieren, dass wir Leute zu unrecht beschuldigen und das kann, je nach schweregrad der Beschuldigung, nicht nur einen Ruf dauerhaft schädigen, sondern auch einen Menschen schwer verletzen.
Können die Detektoren KI generierte Texte von selbstgeschriebenem unterscheiden?
Auf Basis dessen, was die acht Detektoren an Ergebnissen geliefert haben, schaffen es die meisten nicht zuverlässig, die KI Texte auszuweisen. Natürlich sind das nur eine Handvoll Programme und es gibt noch deutlich mehr auf dem Markt. Aber das sind die, die von jedem kostenlos und frei genutzt werden können und halt auch bereits genutzt und empfohlen werden. Also auch die, die von der Masse eher herangezogen werden um mal schnell einen Text oder ein Bild zu testen.
Denn als kleiner Autor oder Künstler bucht man sich doch eher selten ein Abo für mehrere hundert Euro um einen KI Detektor zur Hand zu haben.
Welchem Detektor kann man trauen?
Aktuell? Keinem. Zumindest habe ich keinen gefunden, dem ich so weit trauen würde, wie ich ihn werfen könnte. Und ich würde mich im Leben nicht auf eines dieser Ergebnisse stützen! Nicht mal für meine eigenen Texte. Denn wie du oben siehst, könnte ich anhand der Detektoren nicht zu 100% beweisen, dass ich die selbst geschrieben habe. Was echt bitter ist.
Kapitel 5 - Abschlussworte
Ich bin zwar bereits durch meinen Brötchenjob stark in KI Thematiken eingebunden, aber auch in meiner Freizeit beschäftige ich mich viel damit. Es ist ein spannendes und auch gefährliches Feld. Und gerade weil ich kürzlich sowohl auf der Plattform Threads, als auch über schlechte Amazon-Bewertungen zu meinem Buch, mit dem Thema konfrontiert wurde, sah ich mich dazu genötigt noch tiefer zu tauchen.
Denn natürlich weiß ich, dass ich mein Buch selbst geschrieben habe, aber wie beweise ich es? Ich filme mich nicht beim schreiben, habe viele Dateien nicht mehr, weil sie unnötig Platz wegnehmen und auch keine handschriftlichen Notizen. Und das Programm mit dem ich heute schreibe, ist nicht das mit dem ich vor über einem Jahrzehnt angefangen habe.
Am einfachsten wäre es also das ganze mit einem KI Detektoren zu beweisen, der mir die 100% Menschgemacht ausweist und gut ist. Aber wie soll ich mich auf ein Ergebnis stützen, das derart schwammig ist?
Und wieso stützen sich so viele Autoren und Künstler auf derartige Ergebnisse ohne sie gegen zu checken? Natürlich kann jeder selbst entscheiden ob und welchen KI Detektor er benutzt. Gerade weil das Thema KI überall ist und von nicht wenigen genutzt wird um sich unfaire Vorteile zu verschaffen. Aber es wäre schön, wenn nicht nur KI-Systeme wie ChatGPT, Gemini, Midjourney, Leonardo etc. kritisch betrachtet werden, sondern eben auch Detektoren wie Hive, Smodin usw.
Und es wäre schön, wenn wir nicht mit dem Finger auf andere zeigen würden. Ich nutze KI Inhalte für meine Social Media Beiträge und ja, da kann der Verdacht aufkommen, dass ich auch für mein Buch darauf zurückgreife. Aber wäre es dann nicht viel schöner und einfacher, wenn wir miteinander sprechen? Und vor allem, einander glauben schenken würden?
Mit diesen Worten entlasse ich dich nun ins Wochenende und hoffe wir sehen uns hier bald wieder, wenn ich einen viel zu langen und ausführlichen Text schreibe.
Liebe und nicht KI generierten Wünsche,
Dein Jerry