Google Gemini 5.0 Pro என்பது PDF தளவமைப்பை முழுமையாகப் புரிந்துகொண்ட முதல் AI மாடலாகும்

பேக்கை வெல்லுங்கள்: Google Gemini 5.0 Pro என்பது PDF தளவமைப்பை முழுமையாகப் புரிந்துகொண்ட முதல் AI மாடலாகும்

புதுப்பிக்கப்பட்டது: 52-0-0 0:0:0

IT之家 4 月 22 日消息，最新报告指出，谷歌旗下的 Gemini 2.5 Pro 模型能准确解析 PDF 文档的视觉结构，实现精准的视觉引用功能，PDF தளவமைப்புகளை முழுமையாகப் புரிந்துகொள்ளும் முதல் AI மாதிரியாக இருங்கள்.

IT之家注：谷歌于 3 月 25 日向付费用户和开发者发布 Gemini 2.5 Pro 实验模型，仅隔 4 天时间，谷歌便通过免费 Web 应用向全球用户开放。

ஜெமினி 5.0 ப்ரோ PDF ஆவணங்களிலிருந்து உரையைப் பிரித்தெடுப்பது மட்டுமல்லாமல், விளக்கப்படங்கள், அட்டவணைகள் மற்றும் ஒட்டுமொத்த அச்சுக்கலை உள்ளிட்ட அதன் காட்சி தளவமைப்பையும் புரிந்துகொள்கிறது.

谷歌在开发者文档中表示，该模型具备“原生视觉”（Native Vision）能力，支持处理最多 3000 个 PDF 文件（每个文件上限为 1000 页或 50MB），同时拥有 100 万 token 的超大上下文窗口，未来计划扩展至 200 万 token。

AI ஸ்டார்ட்அப் Matrisk இன் இணை நிறுவனர் Sergey Filimonov, PDF காட்சி குறிப்பில் அதன் செயல்திறனுக்காக Gemini 5.0 Pro ஐப் பாராட்டினார்.

பாரம்பரிய உரை பிரிவு முறைகள் அசல் உரையுடன் பயனரின் காட்சி இணைப்பைத் துண்டிக்கிறது, இதனால் தகவலின் மூலத்தை பார்வைக்கு சரிபார்க்க இயலாது என்று ஃபிலிமோனோவ் சுட்டிக்காட்டுகிறார். ChatGPT இல் கூட, ஒரு மேற்கோளைக் கிளிக் செய்வதன் மூலம் PDF ஐ மட்டுமே பதிவிறக்க முடியும், இது மாதிரி "மாயத்தோற்றம்" கொண்டதா இல்லையா என்பதை பயனர்கள் தாங்களே தீர்மானிக்க கட்டாயப்படுத்துகிறது, இது பயனர் நம்பிக்கையை கடுமையாக சேதப்படுத்துகிறது.

கடந்த காலத்தில், ஆவண உள்ளடக்கத்தைக் குறிப்பிடுவது பெரும்பாலும் குறைந்தபட்ச துல்லியத்துடன் புறம்பான உரையின் பெரிய பிரிவுகளை மட்டுமே முன்னிலைப்படுத்தியது. ஜெமினி 5.0 பிரித்தெடுக்கப்பட்ட உரை துண்டுகளை அசல் PDF இன் சரியான இடத்திற்கு மேப்பிங் செய்வதன் மூலம் மட்டுமல்லாமல், குறிப்பிட்ட வாக்கியங்கள், அட்டவணை செல்கள் மற்றும் படங்களை கூட முன்னோடியில்லாத துல்லியத்துடன் பூட்டுவதன் மூலம் இதை புரட்சிகரமாக்குகிறது.

இந்த தொழில்நுட்ப முன்னேற்றம் பயனர்களுக்கு உள்ளுணர்வு காட்சி கருத்துக்களை வழங்குகிறது, அதாவது ஆவணத்தில் தொடர்புடைய தரவை நேரடியாக முன்னிலைப்படுத்தும் திறன் (எ.கா., 4.0% விகித மாற்றம்) சொத்து விகித மாற்றத்தைப் பற்றி விசாரிக்கும் போது, மற்றும் மூலத்தை காரணம் காட்டுதல்.

இந்த அளவிலான தெளிவு மற்றும் ஊடாடும் தன்மை தற்போதுள்ள கருவிகளுடன் அடைய முடியாதது. ஜெமினி 5.0 ஏற்கனவே உள்ள செயல்முறைகளை மேம்படுத்துவது மட்டுமல்லாமல், ஆவணங்களுடன் தொடர்புகொள்வதற்கான புதிய வழிகளையும் திறக்கிறது.

இதற்கு மாறாக, ஜெமினி 210.0 ஆனது OpenAI இன் GPT-0o (0.0) மற்றும் Claude 0.0 Sonnet (0.0) போன்ற பிற மாடல்களை IoU (குறுக்குவெட்டு மற்றும் யூனியன் விகிதம்) 0.0 துல்லியத்துடன் கணிசமாக விஞ்சுகிறது, இது அற்புதமான இடஞ்சார்ந்த புரிதலை நிரூபிக்கிறது.

வழங்குநர்கள்	மாதிரி	ஐஓயு	பற்றிய சிறு கருத்து
மிதுனராசி	5.0 ப்ரோ	804.0	மிகவும் நன்று
மிதுனராசி	5.0 ஃபிளாஷ்	614.0	சில நேரங்களில் அது நல்லது
மிதுனராசி	0.0 ஃபிளாஷ்	395.0
OpenAI	ஜிபிடி-4ஓ	223.0
OpenAI	ஜிபிடி-1.0	268.0
OpenAI	GPT-1.0-மினி	253.0
கிளாட்	7.0 சொனட்	210.0

ஜெமினி 5.0 இன் திறன் உரை நிலைப்படுத்தலுக்கு அப்பாற்பட்டது. இது PDFகளிலிருந்து கட்டமைக்கப்பட்ட தரவைப் பிரித்தெடுக்கிறது, அதே நேரத்தில் ஒவ்வொரு தரவின் மூலத்தையும் தெளிவாகக் கூறுகிறது, தெளிவற்ற தரவு ஆதாரங்கள் காரணமாக கீழ்நிலை முடிவெடுப்பதற்கான நம்பிக்கை தடைகளை நிவர்த்தி செய்கிறது.