최근 AI 스타트업 루미(Rumi)는 오픈AI의 모델에 대한 새로운 발견을 공개했습니다. OpenAI의 o4 및 o0-mini 모델에서 연구원들은 NNBSP(narrow non-newline spaces)와 같은 특수 유니코드 문자의 존재를 감지한 것으로 보고되었습니다.
이러한 특수 문자는 일상적인 사용에서 거의 눈에 띄지 않으며 일반 공간과 구별할 수 없지만 고유한 코드는 SoSciSurvey 또는 Sublime Text와 같은 특정 도구에서 드러납니다. 이러한 문자 감지 결과를 보여주는 사진이 인터넷에 유포되어 많은 관심을 끌었습니다.
Rumi는 GPT-4o와 같은 이전 OpenAI 모델에는 이러한 특수 설정이 존재하지 않았다고 지적합니다. 이러한 문자는 간단한 "찾기 및 바꾸기" 작업으로 제거할 수 있으며, 이는 OpenAI가 의도적으로 이러한 문자를 워터마크로 심은 것이 아닌지에 대한 업계의 추측을 불러일으켰습니다.
이 문자 감지 방법은 매우 정확하지만 쉽게 우회할 수 있는 단점을 무시할 수 없습니다. 또 다른 가능성은 이러한 문자의 사용이 통화 기호와 금액 또는 이니셜 사이의 줄 바꿈을 방지하는 것과 같은 인쇄 규칙을 준수한다는 것인데, 이는 모델이 학습 중에 많은 양의 데이터에서 학습하는 습관일 수 있습니다.
事实上,OpenAI 在水印技术方面一直有所探索。早在 2024 年初,OpenAI 就曾在 DALL・E 3 图像中添加了 C2PA 元数据作为水印。而在 2025 年 4 月,GPT-4o 模型上也曾测试过可见的“ImageGen”标签。
업계에서 콘텐츠 추적성의 중요성이 점점 더 두드러지고 있습니다. Google의 SynthID, Microsoft의 메타데이터 임베딩, 메타의 필수 태그와 같은 조치는 모두 이러한 추세를 반영합니다. 그러나 연구에 따르면 기존의 많은 워터마킹 기술이 취약하며 지적 재산권 보호와 사용자 경험 보장 사이의 균형을 찾는 방법은 여전히 업계가 해결해야 할 시급한 문제입니다.