डेटा नई ताकत है

Embibe, डेटा के इंस्ट्रूमेंटिंग, मापन, एकत्रण, माइनिंग और इसके संग्रहण को लेकर प्रतिबद्ध है। Embibe का स्वयं का अपना डेटा है और हमारा IP इस पर निर्भर करता है। Embibe में, हम तब तक रिलीज में देरी करते हैं जब तक कि यह मापने के लिए पर्याप्त इंस्ट्रूमेंटेशन न हो कि हमारे यूजर हमारे प्रोडक्ट के साथ कैसे इंटरैक्ट करते हैं साथ ही किन कारकों से विशिष्ट परिणाम प्राप्त होते हैं। यह डेटा के प्रति जुनून है जिसने हमें छात्रों के अध्ययन और अपने लक्ष्यों को प्राप्त करने के तरीके पर कई महत्वपूर्ण दृष्टिकोण प्रदान किए हैं। उदाहरण के लिए, एक छात्र की स्कोर करने की क्षमता गुणनखंडों के दो समुच्चयों का एक संयोजन है – उनकी सीखने की क्षमता जो स्कोर करने की समग्र क्षमता का ~ 61% योगदान देती है और उनके व्यवहार संबंधी गुण जो ~ 39% योगदान करते हैं। डेटा-चालित होने पर इस रेजर-शार्प फोकस ने Embibe को ऐसे प्रोडक्ट बनाने में सक्षम बनाया है जो एजुकेशन को पर्सनलाइज़ करते हैं और छात्रों के लर्निंग आउटकम में जबरदस्त सुधार प्रदान करते हैं।

प्रमुख डेटा संग्रहण

डेटा को विभिन्न चरणों और स्थानों पर Embibe के प्लेटफॉर्म पर व्यवस्थित और एकत्र किया जाता है। केवल डेटा को कैप्चर करना ही आवश्यक नहीं है, जितना कि सही प्रकार के डेटा को सही समय पर, सही संदर्भ में, सही बारीकियों के साथ कैप्चर करना है। Embibe पर डेटा कैप्चर बड़े पैमाने पर निम्नलिखित श्रेणियों में आता है:

रिच इवेंट टाइप का इंस्ट्रुमेंटेशन:
- यूजर-इंटरैक्शन एक्सप्लिसिट इवेंट – क्लिक, टैप, होवर, स्क्रॉल, टेक्स्ट-अपडेट
- यूजर-इंटरैक्शन इम्प्लिसिट इवेंट – कर्सर पोजीशन, टैप प्रेशर, डिवाइस ऑरीएन्टैशन, लोकेशन
- सिस्टम-जनरेटेड सर्वर साइड इवेंट – पेज लोड, सेशन रिफ्रेश, API कॉल
- सिस्टम-जनरेटेड क्लाइंट साइड इवेंट – सिस्टम पुश नोटिफिकेशन एंड ट्रिगर
अलग-अलग प्रॉपर्टी के आधार पर विशिष्ट डेटा:
- पेज व्यूज (URL, रेफ़रर, यूजर एजेंट, डिवाइस, IP, टाइमस्टैम्प, ट्रैफ़िक सोर्स, कैम्पेन)
- प्रैक्टिस अटैम्प्ट लेवल डेटा (टाइमस्टैम्प, विज़िट/री-विज़िट, उत्तर विकल्प, पहली बार देखा गया समय, सही उत्तर, बिताया गया समय, देखा गया हल, यूज़ किया गया हिंट) – सत्र स्तर पर एकत्रित किया गया
- लर्न बिहेव्यर डेटा:
  - सर्च इवेंट डेटा (टाइमस्टैम्प, क्वेरी, रिजल्ट सेट)
  - रिजल्ट इंटरैक्शन डेटा (टाइमस्टैम्प, चयनित सुझाए गए परिणाम, रिजल्ट विजेट और कॉन्टेक्स्ट, विजेट पोजीशन)
- टेस्ट अटैम्प्ट ईवेंट लेवल डेटा (टाइमस्टैम्प, विज़िट/री-विज़िट, उत्तर विकल्प, पहली बार देखा गया समय, सही उत्तर, बिताया गया समय, देखा गया फ़ीडबैक) – सेशन लेवल पर एकत्रित किया गया
- प्रश्न पूछें (अकेडमिक फोरम) और उत्तर विवरण, टाइमस्टैम्प, यूजर वोटिंग बिहेव्यर
- भुगतान (यूजर पहचानकर्ता, यूजर ईमेल, थर्ड पार्टी भुगतान गेटवे, भुगतान गेटवे ट्रांजेक्शन पहचानकर्ता, भुगतान का तरीका (कार्ड, वॉलेट, आदि), ऑर्डर रिक्वेस्ट का टाइमस्टैम्प, भुगतान प्राप्ति का टाइमस्टैम्प, कोई भी लागू छूट, ऑर्डर आइटम विवरण)

जब Embibe द्वारा किए गए पैमाने पर डेटा के संग्रह को व्यवस्थित किया जाता है, तब ऐसे कई व्यावहारिक विचार आते हैं जिन पर ध्यान देने की आवश्यकता है। उदाहरण के लिए, हम यह सारा डेटा इकट्ठा करने के लिए कई तरीकों पर भरोसा करते हैं। यूजर इंटरैक्शन इवेंट स्ट्रीम के लॉगिंग को segment.io और Heap जैसे थर्ड-पार्टी प्लगइन्स के साथ एकीकृत करके प्राप्त किया जाता है। सर्वर-साइड पेज लोड और सेशन इवेंट लॉगिंग को इन-हाउस इंस्ट्रूमेंट किया जाता है और इसे NoSQL डेटाबेस में डाल दिया जाता है। प्रैक्टिस और टेस्ट जैसी प्रॉपर्टी पर यूजर एक्टिविटी का दैनिक डेटा DB में फ्रंट एंड द्वारा क्वेरी एग्रीगेशन के लिए संग्रहीत किया जाता है।

डेटा प्रोसेसिंग

एक बार प्राइमरी डेटा संग्रह होने के बाद, इसे क्लीन, एनरिच, माइन और विजुअलाइज़ करने की आवश्यकता होती है। Embibe में, हमारे द्वारा एकत्र किए गए डेटा का उपयोग करने के लिए हमारे पास निम्नलिखित व्यापक दृष्टिकोण हैं:

इन-हाउस रिपोर्टिंग और अनौपचारिक विश्लेषण:
- स्पार्क स्ट्रीमिंग और Hadoop मैप का उपयोग करके लॉग माइनिंग- हमारे यूजर GOV डेटा को जनरेट और अपडेट करने के लिए AWS EMR पर काम को कम करता है जो सेशन स्टार की ऐक्टिविटी के साथ-साथ GAV डेटा को संग्रहीत करता है जो पाठ्य सामग्री के प्रत्येक भाग के विरुद्ध प्रत्येक यूजर के लिए ऐकडेमिक एबिलटी प्रोफाइल संग्रहीत करता है। GOV और GAV डेटा को बड़े पैमाने पर लाने के लिए इलास्टिक सर्च (Elasticsearch) क्लस्टर में संग्रहीत किया जाता है।
- ट्रैफ़िक पैटर्न, यूजर मोनेटाईजेशन, टेस्ट-दर-टेस्ट सुधार, सर्च विफलताओं और अन्य आवश्यकताओं के लिए रिपोर्टिंग डेटा जनरेट करने के लिए लॉग को माइन करें। संशोधित डेटा को फिर से इलास्टिक सर्च में भेज दिया जाता है और किबाना और ग्राफाना डैशबोर्ड का उपयोग करके देखा जाता है।
- अनौपचारिक आधार पर किए जाने वाले किसी भी आवश्यक विश्लेषण के लिए प्राइमरी रॉ डेटा HDFS पर HBase पर संग्रहीत किया जाता है।

चित्र 1: डेटा फ्लो स्टैक की एक उच्च स्तरीय योजना जो उस इंटेलिजेंस को ताकत देती है जो Embibe की डेटा साइंस लैब को डेवलप करती है

बिज़नेस/प्रोडक्ट/मार्केटिंग स्वयं सेवा के लिए थर्ड पार्टी टूल
- हमारे ऑन-पेज और इन-ऐप यूजर इंटरेक्शन डेटा को segment.io (थर्ड पार्टी प्लगइन) का उपयोग करके कैप्चर किया जाता है जो डेटा को विभिन्न बाहरी डेटा विज़ुअलाइज़ेशन प्लेटफॉर्म पर ऑटो-रूट करता है।
- ट्रैफ़िक स्रोतों, जनसांख्यिकीय और स्थान की जानकारी, डिवाइस ब्रेकडाउन, पेज व्यू, बिताया गया समय, रीटेन्शन मीट्रिक सहित बड़े लेवल की ट्रैफ़िक निगरानी के लिए गूगल ऐनलिटिक्स।
- यूजर फ्लो के विश्लेषण और अनुकूलन के लिए हीप एनालिटिक्स। FE को segment.io के माध्यम से सभी यूजर इंटरैक्शन ईवेंट को हीप में पुश करने के लिए वायर्ड किया है। हीप यूजर रूपांतरण फ़नल और फ्लो की सेल्फ-सर्विस स्टाइल डायनामिक सेटिंग की अनुमति देता है।

डेटा नई ताकत है