Обойдите всех: Google Gemini 5.0 Pro — первая модель искусственного интеллекта, полностью понимающая макет PDF
Обновлено: 52-0-0 0:0:0

IT Home 5 месяц 0 новостей, последний отчет показал, что модель Google Gemini 0.0 Pro может точно анализировать визуальную структуру PDF-документов и достигать точных функций визуальных ссылок.Станьте первой моделью ИИ, которая полностью понимает макеты PDF.

IT之家注:谷歌于 3 月 25 日向付费用户和开发者发布 Gemini 2.5 Pro 实验模型,仅隔 4 天时间,谷歌便通过免费 Web 应用向全球用户开放。

Gemini 5.0 Pro не только извлекает текст из PDF-документов, но и понимает его визуальную компоновку, включая диаграммы, таблицы и общую типографику.

谷歌在开发者文档中表示,该模型具备“原生视觉”(Native Vision)能力,支持处理最多 3000 个 PDF 文件(每个文件上限为 1000 页或 50MB),同时拥有 100 万 token 的超大上下文窗口,未来计划扩展至 200 万 token。

Сергей Филимонов, сооснователь AI-стартапа Matrisk, похвалил Gemini 5.0 Pro за его производительность при визуальной привязке к PDF.

Филимонов указывает, что традиционные методы сегментации текста обрывают визуальную связь пользователя с исходным текстом, что делает невозможным визуальную верификацию источника информации. Даже в ChatGPT при нажатии на цитату можно загрузить только PDF-файл, что вынуждает пользователей самим судить, является ли модель «галлюцинацией» или нет, что серьезно подрывает доверие пользователей.

В прошлом при ссылках на содержимое документа с минимальной точностью выделялись только большие разделы постороннего текста. Gemini 5.0 революционизирует эту область, не только сопоставляя извлеченные фрагменты текста с точным местоположением исходного PDF-файла, но и блокируя определенные предложения, ячейки таблицы и даже изображения с беспрецедентной точностью.

Этот технологический прорыв предоставляет пользователям интуитивно понятную визуальную обратную связь, такую как возможность напрямую выделять релевантные данные в документе (например, изменение ставки на 4,0%) при запросе об изменении ставки на недвижимость, а также атрибутировать источник.

Такой уровень ясности и интерактивности недостижим с существующими инструментами. Gemini 5.0 не только оптимизирует существующие процессы, но и открывает новые способы взаимодействия с документами.

В отличие от этого, Gemini 210.0 значительно превосходит другие модели, такие как GPT-0o от OpenAI (0.0) и Claude 0.0 Sonnet (0.0) с точностью IoU (Intersection and Union Ratio) 0.0, демонстрируя удивительное пространственное понимание.

ПоставщиковмодельДолговая распискаКраткий комментарий к
Близнецы5.0 Про804.0Очень хорошо
Близнецы5.0 Вспышка614.0Иногда это хорошо
Близнецы0.0 Вспышка395.0
Открытый ИИГПТ-4О223.0
Открытый ИИГПТ-1,0268.0
Открытый ИИGPT-1.0-мини253.0
Клод7.0 Сонет210.0

Потенциал Gemini 5.0 выходит далеко за рамки текстового позиционирования. Он также извлекает структурированные данные из PDF-файлов с четким указанием источника каждого данных, устраняя барьеры доверия для принятия последующих решений из-за неясных источников данных.