नॉलेज ग्राफ नोड्स के बीच संबंधों का स्वत: वर्गीकरण

नॉलेज ग्राफ नोड्स के बीच संबंधों का स्वत: वर्गीकरण

परिचय :

Embibe का नॉलेज ग्राफ (KG), पाठ्यक्रम अग्नोस्टिक बहु-आयामी ग्राफ है जिसमें 75,000 से अधिक नोड्स हैं। इनमें से प्रत्येक नोड, शैक्षणिक ज्ञान की एक स्वतंत्र इकाई है जिसे कॉन्सेप्ट के नाम से भी जाना जाता है। नॉलेज ग्राफ में नोड्स के बीच अनगिनत अंतरसंबंध होते हैं, जो दर्शाते हैं कि कोई भी कॉन्सेप्ट अपने आप में स्वतंत्र होने के बजाए, एक-दूसरे से संबंधित होते हैं।

नोड्स के बीच परस्पर संबंध इस बात से तय होता है कि वे आपस में किस तरह से जुड़े हुए हैं। अपूर्ण नॉलेज ग्राफ और परस्पर संबंधों की जानकारी का अभाव, शोधकर्ताओं के लिए ज्ञात समस्याओं में से एक है। हालाँकि, Embibe जिस तरह से अपनी अध्ययन सामग्री का विस्तार कर रहा है, उसमें ऑटोमेशन की आवश्यकता है। पिछले 8 वर्षों में नॉलेज ग्राफ कॉन्सेप्ट पर उपलब्ध परस्पर संबंधित डेटा की उपलब्धता ने लाखों विद्यार्थियों को लाभ पहुंचाया है। ग्राफ सिद्धांत और प्राकृतिक भाषा समझ की तकनीक की मदद से संबंधों को एन (N) कक्षाओं में से एक में स्वत: वर्गीकृत करना संभव है।

संबंधों के प्रकार :

Embibe के नॉलेज ग्राफ में, कॉन्सेप्ट के बीच संबंधों को समझने के 16 अलग-अलग तरीके हैं। साथ ही, प्रत्येक कॉन्सेप्ट के बीच एक पूर्वापेक्षित संबंध है। किसी विशेष कॉन्सेप्ट को सीखने से पहले इन पूर्वापेक्षित संबंधों को जानना जरूरी है। खास बात यह है कि हमारे नॉलेज ग्राफ में ये पूर्वापेक्षित संबंध पहले से दिए गए हैं। आम तौर पर, कोई विद्यार्थी किसी भी कॉन्सेप्ट को सीखने से पहले पूर्वापेक्षित संबंधों के बारे में सीखता है। इससे कॉन्सेप्ट को बेहतर ढंग से समझने में मदद ​मिलती है। हम लाखों विद्यार्थियों के द्वारा हल किए गए अरबों प्रैक्टिस और टेस्ट सेट का गहन विश्लेषण करते हैं। इससे पता चलता है कि विद्यार्थी, कॉन्सेप्ट पर महारत हासिल करने और सीखने के लिए कौन सा रास्ता अपनाते हैं। इन पैटर्न का उपयोग कर कॉन्सेप्ट के बीच अनुभवजन्य कार्य-कारण संबंधों को स्थापित करने में मदद मिलती है। इस डेटा में कुछ छिपी हुई विशेषताएं होती हैं। इनके विश्लेषण से पता चलता है कि सीखने और अपने लक्ष्य तक पहुंचने के लिए विद्यार्थियों के द्वारा कौन सा तरीका आम तौर पर अपनाया जाता है। हमने, सीखने के इन तरीकों और स्कोरिंग पद्धति की मदद से पूर्वापेक्षित कॉन्सेप्ट (अवधारणाओं) का पता लगाया है।

शोध की पद्धति :

हम, नॉलेज ग्राफ से मिले ज्ञान और स्टेट ऑफ द आर्ट तकनीक का इस्तेमाल करते हैं ताकि, विद्यार्थिंयों की अवधारणाओं पर महारत हासिल करने के बारे में पूर्वानुमान लगाया जा सके। हम, पुराने अनुभवों के आधार पर कोल्ड स्टार्ट प्रॉब्लम के समाधान के लिए कंडिशनल कॉन्सेप्ट मास्टरी का भी उपयोग करते हैं। विद्यार्थियों के व्यवहार को जांचने और नॉलेज ग्राफ कॉन्सेप्ट पर उसे प्रदर्शित करने की क्षमता के कारण ही Embibe एक अद्वितीय प्लेफॉर्म है। इन कॉन्सेप्ट को समझने के व्यावहारिक लक्षणों को समझने के बाद कॉन्सेप्ट के बीच संबंधों को वर्गीकृत करने में भी आसानी होती है।

नॉलेज ग्राफ का विस्तार :

हमारे पास कॉन्सेप्ट को समझने के लिए अंतरसंबंधों की विविधता पहले से ही मौजूद है। जब भी किसी नए कॉन्सेप्ट को ग्राफ में स्थापित किया जाता है, तो अन्य कॉन्सेप्ट के साथ उसके संबंधों को परिभाषित करने की आवश्यकता होती है। कार्य की जटिलता के कारण यह एक बहुत ही महत्वपूर्ण प्रक्रिया बन जाती है। अंतरसंबंधों को स्थापित करने में किसी भी तरह की गलती के परिणामस्वरूप उपयोग​कर्ता गलत दिशा में जा सकता है।

Embibe, अपने प्रोडक्ट को विभिन्न  पाठ्यक्रमों और भाषाओं में लॉन्च करना चाहता है। नए कॉन्सेप्ट के लिए नॉलेज ग्राफ को और विस्तार देने की जरूरत है। अब तक हम नए कॉन्सेप्ट की खोज और अन्य कॉन्सेप्ट के साथ उनका संबंध स्थापित करने और पहले से मौजदू संबंधों के सत्यापन के लिए, पूरी तरह से अध्यापकों पर निर्भर थे। इस कारण, यह प्रक्रिया बहुत ही थकाने वाली और सुस्त थी। डेटा में लगातार हो रही बढ़ोत्तरी के कारण यह प्रक्रिया बहुत ही चुनौतीपूर्ण बन गई है। साथ ही, डेटा को तैयार करने की पूरी प्रक्रिया में मानवीय पक्षपात की संभावना भी बनी रहती है।

हमने देखा है कि किसी भी कॉन्सेप्ट को सीखने से पहले विद्यार्थी, संबंधित पूर्वापेक्षाएँ सीखते हैं। इसलिए, विद्यार्थियों के अभ्यास क्रम में (प्रश्न को हल करने का क्रम) में कॉन्सेप्ट से पहले पूर्वापेक्षित कॉन्सेप्ट होगा। हम यह जानने की भी कोशिश करते हैं कि प्रश्न को हल करते समय विद्यार्थिंयों के प्रयासों में क्या समानता होती है। इससे विद्यार्थी के जवाब में सटीकता और उसमें सुधार की दिशा में प्रयास किया जा सकता है। यही वजह है कि हम डीकेटी (डीप नॉलेज ट्रेसिंग) (एलएसटीएम) का उपयोग कर रहे हैं। जब हम उपयोगकर्ता के प्रयासों और उसकी सटीकता का आंकलन करते हैं, तो पता चलता है किस कॉन्सेप्ट/प्रयास ने जवाब की सटीकता पर असर डाला है। यह तरीका समस्या के क्रम और उसका वर्गीकरण करने में मदद करता है। अंत में, प्रशिक्षित डीकेटी मॉडल का उपयोग नए कॉन्सेप्ट का पदानुक्रम निर्धारित करने के काम आता है। आगे चलकर यही पदानुक्रम, नॉलेज ग्राफ नोड्स के बीच संबंधों को स्थापित करने का भी सुझाव देता है।

सारांश :

नॉलेज ग्राफ को पूरा करना हमारी प्राथमिकता है, क्योंकि यह Embibe के सभी उत्पादों का मूलाधार है। इस कार्य ने हमें ज्ञान के ग्राफ को बनाए रखने और न्यूनतम मानवीय हस्तक्षेपों के साथ, इसे तेजी से विस्तारित करने में मदद की है।

फिलहाल, हमारी समस्या कॉन्सेप्ट के बीच नए अव्यक्त संबंधों का पता लगाना है। हमने विभिन्न स्रोतों से प्राप्त टेक्स्ट डाटा की मदद से कॉन्सेप्ट को हासिल करने की प्रक्रिया को ऑटोमेशन पर डाल दिया है। आगे चलकर, हम इस तकनीक का उपयोग नए कॉन्सेप्ट और मौजूदा कॉन्सेप्ट के साथ उसके संबंध का पता लगाने के लिए कर सकते हैं। साथ ही, नॉलेज ग्राफ वैलिडेशन के लिए भी इसका प्रयोग किया जा सकता है।

सन्दर्भ :

  1. Chris Piech, Jonathan Spencer, Jonathan Huang, Surya Ganguli, Mehran Sahami, Leonidas J. Guibas, andJascha Sohl-Dickstein. Deep knowledge tracing.CoRR, abs/1506.05908, 2015. URLhttp://arxiv.org/abs/1506.05908.
  1. K. Greff, R. K. Srivastava, J. Koutník, B. R. Steunebrink and J. Schmidhuber, “LSTM: A Search Space Odyssey,” in IEEE Transactions on Neural Networks and Learning Systems, vol. 28, no. 10, pp. 2222-2232, Oct. 2017, doi: 10.1109/TNNLS.2016.2582924.
  1. Faldu, Keyur, Amit Sheth, Prashant Kikani, and Hemang Akabari. “KI-BERT: Infusing Knowledge Context for Better Language and Domain Understanding.” arXiv preprint arXiv:2104.08145 (2021).
  1. Sheth, Amit, Manas Gaur, Kaushik Roy, and Keyur Faldu. “Knowledge-intensive Language Understanding for Explainable AI.” IEEE Internet Computing 25, no. 5 (2021): 19-24.