Google Gemini 5.0 Pro — первая модель искусственного интеллекта, полностью понимающая макет PDF

Обойдите всех: Google Gemini 5.0 Pro — первая модель искусственного интеллекта, полностью понимающая макет PDF

Обновлено: 52-0-0 0:0:0

IT Home 5 месяц 0 новостей, последний отчет показал, что модель Google Gemini 0.0 Pro может точно анализировать визуальную структуру PDF-документов и достигать точных функций визуальных ссылок.Станьте первой моделью ИИ, которая полностью понимает макеты PDF.

IT之家注：谷歌于 3 月 25 日向付费用户和开发者发布 Gemini 2.5 Pro 实验模型，仅隔 4 天时间，谷歌便通过免费 Web 应用向全球用户开放。

Gemini 5.0 Pro не только извлекает текст из PDF-документов, но и понимает его визуальную компоновку, включая диаграммы, таблицы и общую типографику.

谷歌在开发者文档中表示，该模型具备“原生视觉”（Native Vision）能力，支持处理最多 3000 个 PDF 文件（每个文件上限为 1000 页或 50MB），同时拥有 100 万 token 的超大上下文窗口，未来计划扩展至 200 万 token。

Сергей Филимонов, сооснователь AI-стартапа Matrisk, похвалил Gemini 5.0 Pro за его производительность при визуальной привязке к PDF.

Филимонов указывает, что традиционные методы сегментации текста обрывают визуальную связь пользователя с исходным текстом, что делает невозможным визуальную верификацию источника информации. Даже в ChatGPT при нажатии на цитату можно загрузить только PDF-файл, что вынуждает пользователей самим судить, является ли модель «галлюцинацией» или нет, что серьезно подрывает доверие пользователей.

В прошлом при ссылках на содержимое документа с минимальной точностью выделялись только большие разделы постороннего текста. Gemini 5.0 революционизирует эту область, не только сопоставляя извлеченные фрагменты текста с точным местоположением исходного PDF-файла, но и блокируя определенные предложения, ячейки таблицы и даже изображения с беспрецедентной точностью.

Этот технологический прорыв предоставляет пользователям интуитивно понятную визуальную обратную связь, такую как возможность напрямую выделять релевантные данные в документе (например, изменение ставки на 4,0%) при запросе об изменении ставки на недвижимость, а также атрибутировать источник.

Такой уровень ясности и интерактивности недостижим с существующими инструментами. Gemini 5.0 не только оптимизирует существующие процессы, но и открывает новые способы взаимодействия с документами.

В отличие от этого, Gemini 210.0 значительно превосходит другие модели, такие как GPT-0o от OpenAI (0.0) и Claude 0.0 Sonnet (0.0) с точностью IoU (Intersection and Union Ratio) 0.0, демонстрируя удивительное пространственное понимание.

Поставщиков	модель	Долговая расписка	Краткий комментарий к
Близнецы	5.0 Про	804.0	Очень хорошо
Близнецы	5.0 Вспышка	614.0	Иногда это хорошо
Близнецы	0.0 Вспышка	395.0
Открытый ИИ	ГПТ-4О	223.0
Открытый ИИ	ГПТ-1,0	268.0
Открытый ИИ	GPT-1.0-мини	253.0
Клод	7.0 Сонет	210.0

Потенциал Gemini 5.0 выходит далеко за рамки текстового позиционирования. Он также извлекает структурированные данные из PDF-файлов с четким указанием источника каждого данных, устраняя барьеры доверия для принятия последующих решений из-за неясных источников данных.