Jetzt wird es wirklich immer schwieriger, zwischen KI-Bildern zu unterscheiden.
Können Sie nach ein paar Sekunden sagen, welches der vier Bilder unten KI-generiert ist?
Stellen Sie die Frage zuerst, unterstreichen Sie sie nicht, um einen Blick auf die Antwort zu werfen!
Eigentlich gibt es hier nurUnten linksEs ist ein echtes Foto. Ich weiß nicht, ob Sie es richtig erraten haben, jedenfalls finden die Freunde in der Redaktion es sehr schwierig.
So wie es ist, ist es immer schwieriger geworden, KI-Bilder zwischen echt und gefälscht zu unterscheiden, und selbst viele KI-Erkennungstools haben versagt.
Sagen wir es so, einige der Bilder, die zuvor erstellt wurden, sind im Comic-Stil, andere haben seltsame Gliedmaßen und Gesichtszüge und unvernünftige Hintergründe, kurz gesagt, sie sind voller Schlupflöcher, und manchmal sind sie ziemlich beängstigend.
Aber vor einer Weile, als GPT-4o aktualisiert wurde, war die Wensheng-Kartenfähigkeit des großen Modells direkt hervorragend. Zum Beispiel wird das "Selfie" in der oberen rechten Ecke durch die folgenden Eingabeaufforderungswörter generiert:
Das große Modell kann sogar die abstrakten Anforderungen wie "Mittelmäßigkeit", "Nachlässigkeit", "Mehrdeutigkeit", "Überbelichtung" und so weiter verstehenDas resultierende Bild ist wie eine beiläufige Aufnahme in unserem Leben, und es gibt überhaupt kein Gefühl von Ungehorsam.
Insbesondere die Art und Weise, wie diese Modelle KI-Grafiken echt und gefälscht aussehen lassen, hat der Beamte seine Trainingsarchitektur noch nicht als Open Source veröffentlicht.
Auf der offiziellen Website von OpenAI haben wir jedoch einige Hinweise gefunden.
Beamte sagen, dass sie, wenn sie das Modell trainieren, das Modell dazu bringen können, die Assoziation zwischen Sprache und Bildern besser zu verstehen. Gepaart mit dem mysteriösen "Post-Training" können die generierten Ergebnisse glatt aussehen.
Wenn wir also einige abstrakte Wörter wie "unachtsam" geben, kann das Modell wissen, dass der Winkel des Bildes ein wenig schief sein sollte, das Bild ein wenig matschig, der Ausdruck natürlich sein sollte usw., und es kann perfekt dargestellt werden.
Mit der rasanten Entwicklung der Technologie können wir wirklich nichts gegen kohlenstoffbasierte Organismen tun.
Aber was noch verzweifelter ist, ist, dass die experimentellen Ergebnisse zeigen, dass diesmal auch die Siliziumbasis nicht zu unterscheiden ist.
Wir haben zunächst versucht zu sehen, ob der Speer des großen Modells seinen eigenen Schild durchbrechen kann. Es überrascht nicht, dass die ursprüngliche Art von gefälschten KI-Bildern, wie bei uns, leicht zu unterscheiden ist. Aber jetzt, da das gleiche Bild, das Beanbao und GPT zugeworfen wird, glauben beide, dass es sich um ein echtes Selfie handelt.
Bean Bao kann nicht erkennen, dass dieses Bild KI-generiert ist
Neben dem Testen mit großen Modellen haben wir auch zwei kostenlose KI-Bilddetektoren gefunden, die die höchsten Rankings empfehlen.Infolgedessen brach jeder von ihnen auf seine Weise zusammen.
Wir haben acht KI-Porträtbilder getestet, die für das bloße Auge völlig unsichtbar waren. Vier von ihnen stimmten zu, aber sie waren sich einig, dass es sich um echte Fotos handelte...
Es gibt noch vier weitere, und die Meinungen der beiden Detektoren sind völlig gegensätzlich. Ich dachte, sie würden sich gegenseitig die Hausaufgaben abschreiben, aber jetzt zweifle ich nicht mehr daran, denn diesmal sind die falschen Fragen alle anders.
Kurz gesagt, es geht nur darum, es zu tun
Dies ist nur ein relativ einfaches Porträt, das Bild ist auf das Vordergesicht der Person fokussiert und der Hintergrund ist relativ einfach.
Der nächste Test einiger komplexer Szenen ist noch miserabler, mit einer großen Anzahl von Menschen oder zu detaillierten Hintergründen oder sogar einfachen Landschaftsbildern, die den Detektor fast vollständig vernichten. Wenn der Detektor KI-Selfies etwas skeptisch gegenübersteht, glaubt er ihnen wirklich, wenn es um diese Bilder geht.
Es ist nur so, dass es nicht erkannt werden kann, und es gibt einen Detektor, der versehentlich ein echtes Foto verletzt und als KI-Bild beurteilt hat.
Es gibt eine Sache zu sagen, der Himmel der Online-Liebhaber ist eingefallen, und ich kann wirklich nicht sagen, ob es ein Foto oder ein Foto in der Zukunft ist.P-Bilder mögen Spuren hinterlassen, aber die aktuellen KI-Bilder lassen die Leute wirklich fragen, ob das nicht ein Internet-Star ist, der sich in mich verlieben wird.
Warum funktionieren KI-Erkennungstools jetzt nicht?
Bei der Suche stellten wir fest, dass die Entwicklung der Wensheng-Graphentechnologie zwar wie eine Rakete verläuft, die KI-Bilderkennung jedoch seit so vielen Jahren auf einem Convolutional Neural Network-Fahrrad fährt.
Da die meisten Tools ihren Quellcode nicht als Open Source zur Verfügung stellen, haben wir auf GitHub mehrere Projekte zur KI-Bilderkennung als Referenz gefunden.
Wir haben festgestellt, dass sich die Architektur dieser KI-Erkennungstools noch in der Phase von Datensatz + Faltungsmerkmalserkennung + Klassifizierung befindet.
Diejenigen, die sich mit Computer Vision auskennen, wissen vielleicht, dass dieser Prozess seit N Jahren verfolgt wird: Beschriften Sie zuerst jedes Bild im Datensatz mit oder ohne KI-generiert, und überlassen Sie den Rest dem neuronalen Netzwerk, um die entsprechenden Bildmerkmale des Etiketts zu erlernen und schließlich zu klassifizieren.
Die KI-Mapping-Technologie wurde nacheinander aktualisiert, und alles, was diese Tools tun, ist, neue KI-Diagramme zu beschriften, sie zu alten Datensätzen hinzuzufügen und sie neu zu trainieren.Sogar das CvT-4-Modell für eines der Werkzeuge ist schon eine alte Sache von vor 0 Jahren.
Man kann sagen, dass die Magie einen Fuß hoch ist, die Straße einen Zentimeter hoch, die Technologie selbst nicht aktualisiert wurde und die Genauigkeitsrate sicherlich nicht steigen kann.
CvT-13-Architektur
Obwohl es einige akademische Studien gibt, die sich mit KI-Bilderkennung befassen, sind die Forschungsgeschwindigkeit, -menge und -aufmerksamkeit nicht mit denen großer Wensheng-Diagramme vergleichbar.
Statt einer zeitraubenden und mühsamen Nachtrennung ist es jedoch besser, das Problem an der Quelle zu lösen.
So regt beispielsweise die C2PA-Organisation, die gemeinsam von großen KI-Unternehmen befürwortet wird, die Entwicklung relevanter Standards an, um die Überprüfung der Informationsquelle zu erleichtern und die Verbreitung von KI-Inhalten zu vermeiden.
Unter ihnen sagte OpenAI, dass es versuchen wird, die generierten Bilder mit einem Wasserzeichen zu versehen. Google hat auch synthID vorgeschlagen, das digitale Wasserzeichen in KI-generierte Texte, Bilder, Videos und Audiodateien einbetten kann. Dieses Wasserzeichen beeinflusst unsere Wahrnehmung nicht, kann aber von der Software erkannt werden.
而且,在今年 3 月国家颁布的《 人工智能生成合成内容标识办法 》中明确表示,从 2025 年 9 月起,所有 AI 生成的内容都必须添加显式或隐式标识。
Warum müssen wir also zwischen KI-Graphen unterscheiden? Ist es nicht gut, dass man den Unterschied zwischen der maximalen technischen Leistung nicht erkennen kann?
Das Bild ist wirklich beeindruckend, aber wir müssen beide Seiten von allem betrachten.Denn als KI-Bilder die Welt schockierten, wurden immer noch häufig Nachrichten über den Einsatz von KI zur Begehung von Betrug und Verbrechen veröffentlicht. Je realistischer die KI ist, desto höher ist die Wahrscheinlichkeit, dass wir betrogen werden.
Schließlich denken manche Leute nicht darüber nach, wie man KI nutzen kann, um niedliche Bilder im Ghibli-Stil zu generieren, sondern verwenden stattdessen die realistischsten Bilder, um die schwächsten Punkte aller anzugreifen.
Generell fällt es uns mittlerweile schwer, aus eigener Kraft die echten von den gefälschten KI-Bildern zu unterscheiden.
Ob es um die Identifizierung von Tools oder die Kennzeichnung von KI-Inhalten an der Quelle geht, die derzeitige Technologie ist ein wenig rückständig, aber der Bedarf ist dringend.
Auf diese Weise wird die Differenzierung von KI-Inhalten ein ständiger Kampf sein. Wenn sich große Unternehmen mit der Skizzentechnologie beschäftigen und ihre Muskeln zur Schau stellen, ist es an der Zeit, ein Upgrade der KI-Erkennungstechnologie in Betracht zu ziehen.