PDF तालिका निकालने के लिए API डेवलपर्स को PDF दस्तावेजों से विश्वसनीय रूप से संरचित तालिका डेटा निकालने और उन्हें JSON, Excel या CSV जैसे मशीन-पठनीय प्रारूपों में परिवर्तित करने की अनुमति देता है यह API पूरी तरह से तालिकाओं की असली निकासी पर केंद्रित है, न कि PDF के सामान्य पाठ विश्लेषण पर यह स्वचालित रूप से PDF के भीतर ग्रिड-आधारित तालिका संरचनाओं का पता लगाती है और शीर्षकों, हैडर, फ़ुटर और पैरा जैसे गैर-तालिका सामग्री को अनदेखा करती है यह स्वचालन, ETL पाइपलाइनों, डेटा इंजेस्टन वर्कफ़्लो और बैकएंड सिस्टम के लिए आदर्श बनाता है जिन्हें साफ और पूर्वानुमानित आउटपुट की आवश्यकता होती है मुख्य क्षमताएँ एक ही PDF से एक या एक से अधिक तालिकाओं का पता लगाना और निकालना कई पृष्ठों में फैली तालिकाओं का समर्थन करता है परिणाम JSON, Excel (.xlsx) या CSV में लौटाता है कई तालिकाएँ के रूप में लौटाई जाती हैं: JSON में एक ऐरे Excel में अलग-अलग स्प्रेडशीट एक ZIP फाइल में पैक किए गए अलग CSV फाइलें निर्धारीत आउटपुट: वही इनपुट हमेशा वही परिणाम देता है प्रत्येक तालिका के लिए वैकल्पिक विश्वास स्कोर स्वचालन और बैकएंड उपयोग के मामलों के लिए डिज़ाइन किया गया यह API क्या करती है डिज़ाइन और संरचना के आधार पर तालिका डेटा की पहचान करती है पंक्तियों और स्तंभों की संरेखण को बनाए रखती है असमान तालिकाओं, खाली सेल और असमान पंक्तियों को संभालती है प्रोग्रामेटिक प्रोसेसिंग के लिए उपयुक्त संरचित आउटपुट लौटाती है यह API क्या नहीं करती तालिकाओं के बाहर मुक्त पाठ नहीं निकालती स्कैन किए गए PDFs पर OCR नहीं करती तालिका सामग्री की अर्थशास्त्र की व्याख्या करने का प्रयास नहीं करती डेटा मूल्य को संशोधित या समृद्ध नहीं करती उपयोग के मामलों के उदाहरण PDF दस्तावेजों से इनवॉइस एंट्री निकालना वित्तीय रिपोर्टों को संरचित डेटा सेट में परिवर्तित करना ग्राहकों द्वारा अपलोड किए गए PDFs से तालिका डेटा इंजेस्ट करना PDF स्रोतों से डेटा पाइपलाइनों को स्वचालित करना कॉपी और पेस्ट करने वाले मैनुअल वर्कफ़्लो को बदलना आउटपुट प्रारूप JSON तालिकाएँ एक ऐरे के रूप में लौटाई गई प्रत्येक तालिका में पंक्तियाँ, पृष्ठ रेंज और विश्वास स्कोर शामिल हैं Excel (.xlsx) प्रत्येक अनुरोध पर एक कार्यपत्रक प्रत्येक तालिका को एक अलग स्प्रेडशीट में रखा गया CSV प्रत्येक तालिका को एक अलग CSV फाइल के रूप में निर्यात किया गया सभी CSV फाइलें एक ZIP फाइल में लौटाई गई API की विशेषताएँ बिना राज्य और गोपनीयता का सम्मान करती है प्रसंस्करण के बाद कोई डेटा संग्रहीत नहीं किया जाता है केवल HTTPS के माध्यम से सुरक्षित संचार उत्पादन कार्यभार के लिए उपयुक्त सीमाएँ PDF के लिए अधिकतम आकार सीमाएँ लगती हैं केवल पाठ-आधारित PDFs (OCR का समर्थन नहीं) तालिकाएँ दृश्य रूप से संरचित होनी चाहिए (ग्रिड या संगत पंक्तियाँ) डेवलपर्स के लिए डिज़ाइन किया गया यह API उन डेवलपर्स के लिए डिज़ाइन की गई है जिन्हें एक विश्वसनीय तालिका निकासी, पूर्वानुमानित आउटपुट और स्वचालित सिस्टम में साफ-सुथरी एकीकरण की आवश्यकता होती है - बिना बड़े व्यावसायिक दस्तावेज़ प्लेटफ़ॉर्म की जटिलता या लागत के संक्षेप में यदि आपको PDF तालिकाओं से संरचित डेटा की आवश्यकता है - न कि पाठ के ब्लॉब, न चित्र और न ही मैनुअल सफाई - तो यह API एक तेज, निश्चित और डेवलपर्स के लिए अनुकूल समाधान प्रदान करती है
{"tables":[{"tableIndex":0,"pageRange":[1,1],"rows":[["Lorem ipsum","","","","","","","",""],["condimentum.","Vivamus","dapibus","sodales","ex,","vitae","malesuada","ipsum","cursus"],["convallis. Maecenas sed egestas nulla, ac condimentum orci.","Mauris diam felis,","","","","","","",""],["ac accumsan nunc vehicula vitae.","Nulla eget justo in felis tristique fringilla. Morbi sit amet","","","","","","",""],["","Maecenas non lorem quis tellus placerat varius.","","","","","","",""],["","Aenean congue fringilla justo ut aliquam.","","","","","","",""],["","Mauris id ex erat.","Nunc vulputate neque vitae justo facilisis, non condimentum ante","","","","","",""],["sagittis.","","","","","","","",""],["","Morbi viverra semper lorem nec molestie.","","","","","","",""],["","Maecenas tincidunt est efficitur ligula euismod, sit amet ornare est vulputate.","","","","","","",""],["12","","","","","","","",""],["10","","","","","","","",""],["8","","","","","","","",""],["Column 1","","","","","","","",""],["6","","","","","","","",""],["Column 2","","","","","","","",""],["4 Column 3","","","","","","","",""],["2","","","","","","","",""],["0","","","","","","","",""],["Row 1","Row 2","Row 3","Row 4","","","","",""]],"rowCount":20,"columnCount":9,"strategyUsed":"stream","warnings":[],"confidence":0.85},{"tableIndex":1,"pageRange":[2,2],"rows":[["velit.","Pellentesque","fermentum","nisl","vitae","fringilla","venenatis.","Etiam","id","mauris","vitae","orci"],["a.","","","","","","","","","","",""],["Lorem ipsum","Lorem ipsum","Lorem ipsum","","","","","","","","",""],["1","In eleifend velit vitae libero sollicitudin euismod.","Lorem","","","","","","","","",""],["2","Cras fringilla ipsum magna, in fringilla dui commodo Ipsum","","","","","","","","","",""],["a.","","","","","","","","","","",""],["3","Aliquam erat volutpat.","Lorem","","","","","","","","",""],["4","Fusce vitae vestibulum velit.","Lorem","","","","","","","","",""],["5","Etiam vehicula luctus fermentum.","Ipsum","","","","","","","","",""],["et","pulvinar","nunc.","Pellentesque","fringilla","mollis","efficitur.","Nullam","venenatis","commodo","",""]],"rowCount":10,"columnCount":12,"strategyUsed":"stream","warnings":[],"confidence":0.85},{"tableIndex":2,"pageRange":[3,3],"rows":[["elit.","","","","","","","","","","",""],["dictum tellus.","","","","","","","","","","",""],["Aliquam","erat","volutpat.","Vestibulum","in","egestas","velit.","Pellentesque","fermentum","nisl","vitae",""],["fringilla","venenatis.","Etiam","id","mauris","vitae","orci","maximus","ultricies.","Cras","fringilla","ipsum"],["et","pulvinar","nunc.","Pellentesque","fringilla","mollis","efficitur.","Nullam","venenatis","commodo","",""]],"rowCount":5,"columnCount":12,"strategyUsed":"stream","warnings":[],"confidence":0.85}],"summary":{"tableCount":3,"pageCount":4}}
curl --location 'https://zylalabs.com/api/11754/pdf+table+extraction+api/22299/extract+data' \
--header 'Content-Type: application/json' \
--form 'image=@"FILE_PATH"'
| हेडर | विवरण |
|---|---|
Authorization
|
[आवश्यक] होना चाहिए Bearer access_key. जब आप सब्सक्राइब हों तो ऊपर "Your API Access Key" देखें। |
कोई लंबी अवधि की प्रतिबद्धता नहीं। कभी भी अपग्रेड, डाउनग्रेड या कैंसल करें। फ्री ट्रायल में 50 रिक्वेस्ट तक शामिल हैं।
एपीआई पीडीएफ दस्तावेज़ों से निकाला गया संरचित तालिका डेटा लौटाता है इसमें कई तालिकाएँ शामिल हैं प्रत्येक को JSON प्रारूप में एक सरणी के रूप में प्रस्तुत किया गया है डेटा को Excel (.xlsx) या CSV प्रारूपों में प्राप्त करने के विकल्पों के साथ
प्रतिक्रिया में मुख्य फ़ील्ड शामिल हैं जैसे `tableIndex`, `pageRange`, `rows`, `rowCount`, `columnCount`, `strategyUsed`, और `confidence` प्रत्येक तालिका का डेटा आसान प्रोग्रामेटिक प्रोसेसिंग के लिए व्यवस्थित किया गया है
प्रतिक्रिया डेटा को एक संक्षेपण अनुभाग में व्यवस्थित किया गया है जिसमें कुल तालिकाओं और पृष्ठों की संख्या शामिल है इसके बाद तालिकाओं का एक संग्रह है प्रत्येक तालिका में इसके पंक्तियाँ पृष्ठ सीमा और विश्वास स्कोर शामिल हैं जिससे नेविगेट करना और उपयोग करना आसान हो जाता है
एंडपॉइंट के लिए प्राथमिक पैरामीटर खुद PDF फ़ाइल है जिसे सीधे अपलोड किया जा सकता है अतिरिक्त पैरामीटर में आउटपुट फ़ॉर्मेट (JSON Excel CSV) के लिए विकल्प और विश्वास स्कोरिंग के लिए सेटिंग्स शामिल हो सकती हैं
डेटा की सटीकता निश्चित आउटपुट के माध्यम से बनाए रखी जाती है जिसका अर्थ है कि वही इनपुट लगातार वही परिणाम उत्पन्न करता है API प्रत्येक तालिका के लिए वैकल्पिक आत्मविश्वास स्कोर भी प्रदान करती है जो निकासी की विश्वसनीयता को दर्शाता है
विशिष्ट उपयोग के मामलों में चालान लाइन आइटम निकालना वित्तीय रिपोर्टों को संरचित डेटा सेट में बदलना डेटा पाइपलाइनों का स्वचालन और ग्राहक द्वारा अपलोड किए गए पीडीएफ से तालिका डेटा का सेवन करना शामिल है डेटा प्रसंस्करण वर्कफ़्लो को सुव्यवस्थित करना
उपयोगकर्ता डेटा पाइपलाइनों, ETL प्रक्रियाओं या बैकएंड सिस्टम में एकीकृत करने के लिए संरचित आउटपुट का लाभ उठा सकते हैं संगठित प्रारूप विभिन्न अनुप्रयोगों में निकाले गए तालिकाओं के आसान हेरफेर और विश्लेषण की अनुमति देता है
उपयोगकर्ता डेटा पैटर्न की अपेक्षा कर सकते हैं जो मूल तालिका संरचना को दर्शाते हैं जिसमें पंक्ति और कॉलम संरेखण शामिल है एपीआई असामान्य तालिकाओं और खाली कोशिकाओं को संभालता है यह सुनिश्चित करते हुए कि आउटपुट संरचित और आगे की प्रोसेसिंग के लिए उपयोगी बना रहे
API विभिन्न प्रकार की संरचित तालिकाएँ निकाल सकती है जिसमें असामान्य लेआउट, खाली सेल और असमान पंक्तियाँ शामिल हैं यह स्वचालित रूप से PDF के भीतर एकल यााधिक तालिकाओं का पता लगाती है यह सुनिश्चित करती है कि केवल ग्रिड-आधारित तालिका संरचनाएँ ही संसाधित की जाएँ
यह एपीआई ऐसी तालिकाओं का समर्थन करता है जो कई पृष्ठों पर फैली होती हैं पूरी तालिका संरचना को सही ढंग से कैप्चर करता है और इसे एकल आउटपुट में लौटाता है प्रत्येक तालिका के पृष्ठ की सीमा को आसान संदर्भ के लिए प्रतिक्रिया में शामिल किया गया है
हाँ, उपयोगकर्ता अपने डेटा अनुरोधों को इच्छित आउटपुट प्रारूप निर्दिष्ट करके अनुकूलित कर सकते हैं: JSON, Excel (.xlsx), या CSV। यह लचीलापन विभिन्न अनुप्रयोगों और कार्यप्रवाहों में एकीकरण की अनुमति देता है
API प्रत्येक निकाले गए तालिका के लिए वैक्षित आत्मविश्वास स्कोर प्रदान करता है जो निकासी की विश्वसनीयता को इंगित करता है यह विशेषता उपयोगकर्ताओं को वापस किए गए डेटा की गुणवत्ता का मूल्यांकन करने में मदद करती है
एपीआई को बिना स्थिति और गोपनीयता-मैत्रीपूर्ण बनाने के लिए डिज़ाइन किया गया है यह सुनिश्चित करता है कि प्रसंस्करण के बाद कोई डेटा संग्रहीत नहीं किया जाता है यह उपयोगकर्ता डेटा को संचरण के दौरान सुरक्षित करने के लिए केवल HTTPS संचार का उपयोग करता है
उपयोगकर्ता एपीआई से अपेक्षा कर सकते हैं कि यह खाली सेल को अच्छी तरह से संभालेगा और तालिका की समग्र संरचना को बनाए रखेगा आउटपुट मूल लेआउट को प्रतिबिंबित करेगा जिससे किसी भी अनुपस्थित मानों के बावजूद सीधे डेटा हेरफेर की अनुमति मिलेगी
विश्वास स्कोर 0 से 1 के बीच होते हैं जो इस बात का संकेत देते हैं कि निकाली गई तालिका सटीक है या नहीं एक उच्च स्कोर अधिक विश्वसनीयता का सुझाव देता है जिससे उपयोगकर्ता यह तय कर सकें कि आगे की प्रक्रिया के लिए कौन सी तालिकाओं पर भरोसा करना है
`strategyUsed` क्षेत्र उन विधियों का संकेत देता है जो API द्वारा तालिका डेटा निकालने के लिए उपयोग की गई हैं यह जानकारी उपयोगकर्ताओं को निष्कर्षण प्रक्रिया को समझने और उनकी विशिष्ट जरूरतों के लिए आउटपुट की उपयुक्तता का आकलन करने में मदद कर सकती है
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
4,104ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
108ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
2,296ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
6,073ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
8,624ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
292ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,045ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
11,634ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
2,350ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
502ms