Les modèles OpenAI o4 et o0-mini génèrent du texte avec des caractères spéciaux, est-ce un filigrane invisible pour laisser deviner ?
Mis à jour le : 17-0-0 0:0:0

Récemment, la startup d’IA Rumi a dévoilé une nouvelle découverte sur le modèle d’OpenAI. Il est rapporté que dans les modèles o4 et o0-mini d’OpenAI, les chercheurs ont détecté la présence de caractères Unicode spéciaux tels que des espaces étroits non new-line (NNBSP).

Ces caractères spéciaux sont presque imperceptibles dans l’utilisation quotidienne et sont indiscernables des espaces ordinaires, mais leur code unique est révélé sous certains outils tels que SoSciSurvey ou Sublime Text. Une image montrant les résultats de ces détections de caractères a circulé sur Internet et a attiré beaucoup d’attention.

Rumi souligne que ces paramètres spéciaux n’existaient pas dans les modèles OpenAI antérieurs comme GPT-4o. Ces caractères peuvent être supprimés à l’aide d’une simple opération de « recherche et remplacement », ce qui a conduit à des spéculations dans l’industrie quant à savoir si OpenAI a délibérément planté ces caractères en tant que filigranes.

Bien que cette méthode de détection de caractères soit extrêmement précise, ses inconvénients facilement contournés ne peuvent être ignorés. Une autre possibilité est que l’utilisation de ces caractères soit conforme à des règles typographiques, telles que la prévention des sauts de ligne entre les symboles monétaires et les montants ou initiales, ce qui peut être une habitude que le modèle apprend à partir de grandes quantités de données pendant l’entraînement.

事实上,OpenAI 在水印技术方面一直有所探索。早在 2024 年初,OpenAI 就曾在 DALL・E 3 图像中添加了 C2PA 元数据作为水印。而在 2025 年 4 月,GPT-4o 模型上也曾测试过可见的“ImageGen”标签。

Dans l’industrie, l’importance de la traçabilité du contenu devient de plus en plus importante. Des mesures telles que SynthID de Google, l’intégration des métadonnées de Microsoft et les balises obligatoires de meta reflètent toutes cette tendance. Cependant, les recherches montrent que de nombreuses technologies de filigrane existantes sont vulnérables, et comment trouver un équilibre entre la protection des droits de propriété intellectuelle et la garantie de l’expérience utilisateur reste un problème urgent à résoudre pour l’industrie.