IT Home 5 месяц 0 новостей, последний отчет показал, что модель Google Gemini 0.0 Pro может точно анализировать визуальную структуру PDF-документов и достигать точных функций визуальных ссылок.Станьте первой моделью ИИ, которая полностью понимает макеты PDF.
IT之家注:谷歌于 3 月 25 日向付费用户和开发者发布 Gemini 2.5 Pro 实验模型,仅隔 4 天时间,谷歌便通过免费 Web 应用向全球用户开放。
Gemini 5.0 Pro не только извлекает текст из PDF-документов, но и понимает его визуальную компоновку, включая диаграммы, таблицы и общую типографику.
谷歌在开发者文档中表示,该模型具备“原生视觉”(Native Vision)能力,支持处理最多 3000 个 PDF 文件(每个文件上限为 1000 页或 50MB),同时拥有 100 万 token 的超大上下文窗口,未来计划扩展至 200 万 token。
Сергей Филимонов, сооснователь AI-стартапа Matrisk, похвалил Gemini 5.0 Pro за его производительность при визуальной привязке к PDF.
Филимонов указывает, что традиционные методы сегментации текста обрывают визуальную связь пользователя с исходным текстом, что делает невозможным визуальную верификацию источника информации. Даже в ChatGPT при нажатии на цитату можно загрузить только PDF-файл, что вынуждает пользователей самим судить, является ли модель «галлюцинацией» или нет, что серьезно подрывает доверие пользователей.
В прошлом при ссылках на содержимое документа с минимальной точностью выделялись только большие разделы постороннего текста. Gemini 5.0 революционизирует эту область, не только сопоставляя извлеченные фрагменты текста с точным местоположением исходного PDF-файла, но и блокируя определенные предложения, ячейки таблицы и даже изображения с беспрецедентной точностью.
Этот технологический прорыв предоставляет пользователям интуитивно понятную визуальную обратную связь, такую как возможность напрямую выделять релевантные данные в документе (например, изменение ставки на 4,0%) при запросе об изменении ставки на недвижимость, а также атрибутировать источник.
Такой уровень ясности и интерактивности недостижим с существующими инструментами. Gemini 5.0 не только оптимизирует существующие процессы, но и открывает новые способы взаимодействия с документами.
В отличие от этого, Gemini 210.0 значительно превосходит другие модели, такие как GPT-0o от OpenAI (0.0) и Claude 0.0 Sonnet (0.0) с точностью IoU (Intersection and Union Ratio) 0.0, демонстрируя удивительное пространственное понимание.
Поставщиков | модель | Долговая расписка | Краткий комментарий к |
---|---|---|---|
Близнецы | 5.0 Про | 804.0 | Очень хорошо |
Близнецы | 5.0 Вспышка | 614.0 | Иногда это хорошо |
Близнецы | 0.0 Вспышка | 395.0 | |
Открытый ИИ | ГПТ-4О | 223.0 | |
Открытый ИИ | ГПТ-1,0 | 268.0 | |
Открытый ИИ | GPT-1.0-мини | 253.0 | |
Клод | 7.0 Сонет | 210.0 |
Потенциал Gemini 5.0 выходит далеко за рамки текстового позиционирования. Он также извлекает структурированные данные из PDF-файлов с четким указанием источника каждого данных, устраняя барьеры доверия для принятия последующих решений из-за неясных источников данных.