नॉलेज ग्राफ नोड्स की स्वचालित खोज

नॉलेज ग्राफ नोड्स की स्वचालित खोज

परिचय:

Embibe का नॉलेज ग्राफ एक करिकुलम-अग्नॉस्टिक बहु-आयामी ग्राफ है, जिसमें 75,000 से अधिक नोड्स शामिल हैं। प्रत्येक नोड, शैक्षणिक ज्ञान की एक अलग इकाई को दर्शाता है जिसे कांसेप्ट भी कहा जाता है। नॉलेज ग्राफ और नोड्स के बीच लाखों तरह के अंतरसंबंध होते हैं जो दिखाते हैं कि कांसेप्ट स्वतंत्र न होकर किसी न किसी कांसेप्ट से संबंधित होते हैं।

Embibe जैसे-जैसे अपनी पाठ्य सामग्री का विस्तार कर रहा है, वैसे-वैसे नॉलेज ग्राफ़ भी लगातार विकसित हो रहा है। इस ग्राफ को बेहतर बनाने के लिए विशेषज्ञों के ज्ञान व अनुभव के साथ, स्मार्ट ऑटोमेशन का उपयोग किया गया है। हालांकि, Embibe के द्वारा अनुसंधान में लगातार निवेश किया जा रहा है, ताकि ग्राफ अपने आप नए नोड्स खोज सके। साथ ही, शैक्षणिक ज्ञान से जुड़े अन्य हिस्सों को इसमें शामिल कर ग्राफ का विस्तार किया जा सके। यह, अकादमिक रूप से विभेदित फ्रेज एक्सट्रेक्टर (ADPE) की मदद से नॉलेज ग्राफ में नए नोड्स खोजता है। इस काम के लिए वह लेबल किए गए डेटा सेट और बीईआरटी (BERT) आधारित मॉडल का उपयोग करता है। इस तरह नॉलेज ग्राफ हमें शैक्षणिक पदों और उनकी प्रासंगिकता के स्तर के बारे में भी जानकारी देता है।

अकादमिक रूप से विभेदित फ्रेज एक्सट्रेक्टर:

अकादमिक रूप से विभेदित फ्रेज एक्सट्रेक्टर (ADPE), पुस्तक के महत्वपूर्ण कॉन्सेप्ट को अपने आप हाईलाइट कर देता है। यह ठीक वैसे ही जैसे कि कोई विद्यार्थी, पुस्तक पढ़ते समय महत्वपूर्ण कॉन्सेप्ट को पेंसिल या हाइलाइटर की मदद से रेखांकित कर देता है। इसका प्राथमिक उद्देश्य शब्दों के जाल में उलझे कॉन्टेंट तक पहुंचना है। यह इस परिकल्पना से प्रेरित है कि अधिकांश कॉन्सेप्ट किताबों में फैले को शब्दों का जाल भर हैं।

पाठ्यसामग्री में से महत्वपूर्ण पदों को छांटना और एक इकाई के तौर पर उनकी पहचान करना एक गहन प्रक्रिया है। एआई की मदद से किताबों में से कॉन्सेप्ट को छांटना बेहद चुनौतीपूर्ण कार्य है और इस तरह का काम बहुत ही सीमित स्तर पर हो रहा है। जैसे कि किसी कॉन्सेप्ट को छांटना और यह बताना कि वह किस अध्याय का हिस्सा है, उसका अन्य घटनाओं से क्या संबंध है और संबंधित अध्याय के लिए वह क्यों आवश्यक है। इसके अतिरिक्त, यह नामित इकाई एक्सट्रैक्शन से भी भिन्न होता है, क्योंकि इसका कार्य छोटे टेक्स्ट जैसे वाक्यों से पूर्व-निर्दिष्ट वर्गों (जैसे: स्थान, व्यक्ति, संघठन) से संबंधित संस्थाओं के अलग-अलग उदाहरणों को एक्सट्रैक्ट करने पर केंद्रित होता है, जहाँ पर अद्वितीय, संबंधित कांसेप्ट को एक्सट्रैक्ट करने के हमारे लक्ष्य के विपरीत यह आवश्यक नहीं है कि एक शब्दार्थ पदानुक्रम का गठन किया जाए। हम क्लासिक मशीन लर्निंग और डीप लर्निंग-आधारित पर्यवेक्षित/अपर्यवेक्षित तकनीकों का उपयोग करके ऐसे कार्य फॉर्मूलेशन से प्रेरित तात्विकी-आधारित कॉन्सेप्ट एक्सट्रैक्शन के लिए दृष्टिकोण प्रस्तुत करते हैं।

अनुसंधान दृष्टिकोण:

हमारे प्रयोग, एडीपीई (ADPE) डेटासेटपर प्रदर्शन को बेहतर बनाने के लिए अत्याधुनिक गहन शिक्षण तकनीकों का प्रयोग करते हैं। जैसे कि दो प्राथमिक वर्गीकरण फॉर्मूलेशन में BERT (बाइडायरेक्शनल एनकोडर रिप्रजेंटेशन फ्रॉम ट्रांसफॉर्मर), LSTM (लॉन्ग शॉर्ट-टर्म मेमोरी), CNNs (कन्वेंशनल न्यूरल नेटवर्क)। पहला, नामांकित इकाई पहचान के लिए अनुक्रम टैगिंग है और दूसरा n-ग्राम वर्गीकरण है जो उम्मीदवार n-ग्राम को सांख्यिकीय, अर्थपूर्ण, प्राकृतिक भाषा प्रसंस्करण, टेक्स्ट फीचर के साथ उत्पन्न करता है और उन्हें डीप न्यूरल नेटवर्क का उपयोग करके वर्गीकृत करता है।

हम संवर्धित शब्दावली, वैज्ञानिक पत्रिकाओं और पुस्तक अध्यायों के साथ अनुकूलित BERT अनकेस्ड मॉडल का उपयोग करते हैं। इसके अलावा, सभी एन्कोडर परतों के निरूपण को इनपुट टेक्स्ट से कांसेप्ट ज्ञात करने के लिए एक सीमित-संक्रमण (BIO एन्कोडिंग) CRF (कंडीशनल रैंडम फील्ड) अनुक्रमिक टैगर में दिया जाता है।

CRF (कंडीशनल रैंडम फील्ड) क्यों :

  • CRF अनुक्रम की लॉग संभावना को अधिकतम करता है और अनुक्रम टैग के अधिकतम संभावना अनुमान का उत्पादन करता है।
  • CRF सीमाएँ सुनिश्चित करती हैं कि केवल वैध मल्टीग्राम अनुक्रम लेबल, लेबल एन्कोडिंग द्वारा निर्धारित किए गए हैं – (उदाहरण : BIO एन्कोडिंग अनुक्रम में इकाई विभाजन की गारंटी देता है, लेकिन कुछ व्याकरण के नियम हैं जिनका पालन किया जाना चाहिए।)
  • CRF अनुक्रमिक लॉग संभावना को नुकसान के रूप में उपयोग किया जाता है जो सामान्य रैखिक परत की तुलना में नेटवर्क के (यदि बिना जमे हुए छोड़ दिया जाता है) आउटपुट लॉग को बेहतर ढंग से अनुकूलित करता है जोकि CRF अनुकूलित रैखिक परत के साथ एक साधारण रैखिक परत के आउटपुट की तुलना करके पुष्टि की जा सकती है।

सारांश:

नॉलेज ग्राफ को पूरा करना हमारी प्राथमिकता है, क्योंकि यह Embibe के सभी उत्पादों का मूलाधार है। इस कार्य ने हमें ज्ञान के ग्राफ को बनाए रखने और न्यूनतम मानवीय हस्तक्षेपों के साथ, इसे तेजी से विस्तारित करने में मदद की है।

इस प्रक्रिया में हमारे मॉडल को BERT का उपयोग करके प्रशिक्षित किया जाता है। साथ ही, डाटा प्रोसेसिंग, मॉडलिंग और सत्यापन के लिए अन्य तकनीकों का उपयोग किया जाता है। अकादमिक रूप से विभेदित फ्रेज एक्सट्रेक्टर का उपयोग, शैक्षणिक सामग्री में से महत्वपूर्ण शैक्षणिक शब्दों को रेखांकित करने के लिए किया जा रहा है। इस प्रकार, हमने विभिन्न स्रोतों से प्राप्त टेक्स्ट डेटा से कॉन्सेप्ट खोजने की प्रक्रिया को स्वचालित कर दिया है।

सन्दर्भ:

[1] Devlin Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805 (2018).

[2] Zhiheng Huang, Wei Xu, Kai Yu. Bidirectional LSTM-CRF Models for Sequence Tagging. arXiv preprint arXiv:1508.01991 (2015)

[3] William Cavnar and John Trenkle. N-Gram-Based Text Categorization. In Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval (Las Vegas, US, 1994), pp. 161–175.

[4] Gaur, Manas, Keyur Faldu, and Amit Sheth. “Semantics of the Black-Box: Can knowledge graphs help make deep learning systems more interpretable and explainable?.” IEEE Internet Computing 25, no. 1 (2021): 51-59.