ડી-ડુપ્લિકેશન: એક ટેકનિકલ નિરીક્ષણ
એડટેક પ્લેટફોર્મ તરીકે, Embibe લર્નિંગ વસ્તુઓના વિશાળ પૂલને ક્યુરેટ કરે છે અને તેનું સંચાલન કરે છે જે વિદ્યાર્થીઓને તેમની લર્નિંગ આવશ્યકતાઓને પરિપૂર્ણ કરવા માટે સેવા આપી શકાય છે. આ કોન્ટેન્ટ પૂલ મુખ્યત્વે કોઈપણ શૈક્ષણિક કોન્સેપ્ટ સાથે યુઝરને શિક્ષિત કરવા માટે વિડિયો સમજાવનાર, ઇન્ટરેક્ટિવ લર્નિંગ ઘટકો જેવા કોન્ટેન્ટ ધરાવે છે. ઉપરાંત, તેમાં એવા પ્રશ્નો છે કે જેને ગેમિફાઇડ પ્રેક્ટિસ અને ટેસ્ટ અનુભવો આપવા માટે બુદ્ધિપૂર્વક એકસાથે બંડલ કરી શકાય છે. Embibe માં, પ્રેક્ટિસ અને ટેસ્ટ સ્ટોરીલાઇન હેઠળ યુઝર એંગેજમેન્ટ અમને નિર્ણાયક શૈક્ષણિક, વર્તણૂક, ટેસ્ટ-ટેકિંગ, ટેસ્ટ-લેવલ અને યુઝર પ્રયત્નો-સંબંધિત વિશિષ્ટતાઓ પુરી પાડે છે જે અમને યુઝરની યાત્રા ચલાવવામાં મદદ કરે છે અને વિદ્યાર્થીને તેમની મહત્તમ સંભાવનાને અનલૉક કરવામાં મદદ કરે છે. પ્રેક્ટિસ અને ટેસ્ટ વિશેષતાઓના મહત્વને જોતાં, અમે મહત્તમ યુઝર જોડાણ અને જાળવી રાખવામાં વિશ્વાસ રાખીએ છીએ.
ત્યાં વિવિધ સ્ત્રોતો છે જેના દ્વારા પ્રશ્નોનો પૂલ તૈયાર કરવામાં આવે છે – ઇન-હાઉસ ફેકલ્ટીઓ અને વિષય નિષ્ણાંતો, શૈક્ષણિક સલાહકારો અને અન્ય વિવિધ કર્મચારીઓ આ પ્રક્રિયામાં સામેલ છે. પૂલમાં પ્રખ્યાત પાઠ્યપુસ્તકો અને સંદર્ભ મટિરિયલના પ્રશ્નો પણ છે. મટિરિયલના પૂલને ચલાવવામાં અનેક સંસ્થાઓની સંડોવણી અને જોડાણને ચલાવવામાં કોન્ટેન્ટના મહત્વને જોતાં, કોન્ટેન્ટની ગુણવત્તા પર નજર રાખવી જરૂરી બની જાય છે. કોન્ટેન્ટ ક્યુરેશન સાથે માપ પર વિવિધ ગુણવત્તા-સંબંધિત મુદ્દાઓ સંકળાયેલા છે, જેમ કે કોન્ટેન્ટ ડુપ્લિકેશન, પ્રશ્નની સચોટતા સમસ્યાઓ, અપૂર્ણ પ્રશ્નો, અયોગ્ય મેટા ટેગિંગ, થોડા નામ. આ લેખમાં, અમે કોન્ટેન્ટ ડુપ્લિકેશનના મુદ્દા અને તેનો સામનો કરવા માટે Embibe માં ઉપયોગમાં લેવાતી બુદ્ધિશાળી સિસ્ટમની ચર્ચા કરીશું.
કોન્ટેન્ટ ડુપ્લિકેશન અને રિઝોલ્યુશન
સિસ્ટમમાં કોન્ટેન્ટ ડુપ્લિકેશન (ટેસ્ટ/પ્રેક્ટિસ પ્રોબ્લમ/પ્રશ્નો) એ એવા મુદ્દાઓમાંથી એક છે જે યુઝરના એન્ગેજમેન્ટ ને પ્રતિકૂળ અસર કરે છે. વધુ સારી રીતે સમજવા માટે, તેની સરખામણી “ફેસબુક અથવા ઇન્સ્ટાગ્રામ સાથે કરી શકાય છે જ્યારે યુઝર સ્ક્રોલ કરવામાં વ્યસ્ત હોય ત્યારે તે જ વિડિઓ/ઇમેજને પુનરાવર્તિત રીતે પ્રદર્શિત કરે છે; તે સ્વીકારો, તે યુઝરની એન્ગેજમેન્ટને અવરોધે છે, અને સૌથી ખરાબ રીતે યુઝર હમેંશા માટે પ્લેટફોર્મમાંથી બહાર નીકળી શકે છે.” તેવી જ રીતે, જો સમાન પ્રેક્ટિસ અથવા પરીક્ષણ સત્રોમાં વિદ્યાર્થીને સમાન પ્રશ્ન આપવામાં આવે છે, તો તે ચોક્કસપણે યુઝરના ડ્રોપ-ઓફમાં ફાળો આપશે.
Embibe માં, આ મુદ્દાને ઉકેલવા માટે, અમે એક હાઇબ્રિડ અભિગમનો ઉપયોગ કર્યો છે જે પ્રશ્નોના ડુપ્લિકેટને ઓળખવા માટે સિન્ટેક્સ (સંપાદિત-અંતર) આધારિત સ્ટેપ અને ડીપ લર્નિંગ-આધારિત (રેસનેટ-18 કન્વેનશનલ ન્યુરલ નેટવર્ક આર્કિટેક્ચર) ડેન્સ વેક્ટર સમાનતાને સમાવે છે. ડિ-ડુપ્લિકેશન પાઇપલાઇનને અમલમાં મૂકવા માટે અમે ઇલાસ્ટિકસર્ચની (લ્યુસીન) મેઈન કાર્યક્ષમતાઓનો ઉપયોગ કરીએ છીએ જેમ કે લખાણ કોન્ટેન્ટ પર પૂર્ણ-લખાણ પ્રશ્ન અને તાજેતરની સ્ક્રિપ્ટ સ્કોર પ્રશ્ન ડેન્સ વેક્ટર ક્ષેત્રો વગેરે. અમારા લર્નિંગ ઓબ્જેક્ટ(પ્રશ્નો)માં લખાણ (પ્રશ્ન ટેક્સ્ટ, જવાબ ટેક્સ્ટ) તેમજ ઇમેજ/ચિત્ર માહિતી (આકૃતિઓ, વગેરે) શામેલ છે અને પાઇપલાઇન મટીરીયલ પૂલમાંથી ચોક્કસ ડુપ્લિકેટ સમકક્ષોને ઓળખવા માટે તે બંનેને ધ્યાનમાં લે છે. અમે સિસ્ટમમાં ડુપ્લિકેટ પ્રશ્નોના નિર્માણ અને ઇન્જેશનને રોકવા માટે સમાન અભિગમની આસપાસ આવરિત રીઅલ-ટાઇમ ઉપયોગિતાને પણ સક્ષમ કરી છે; તે ડુપ્લિકેશન માટે ગેટ-કીપિંગ જેવું કામ કરે છે. નોલેજ અવેર મોડલનો ઉપયોગ કરીને અને ડીપ લર્નિંગ મોડલમાંથી અર્થઘટન કરી શકાય તેવી માહિતીનો ઉપયોગ કરીને લખાણ ની સિમેન્ટીક સમાનતાને વધુ વધારી શકાય છે. સમજાવી શકાય તેવા મૉડલ પરિણામો પર આધાર રાખવા માટે શિક્ષણવિદોમાં વિશ્વાસ વધારી શકે છે.
અમે નીચે દર્શાવવામાં આવેલ ડેટા ફ્લો ડાયાગ્રામ દ્વારા આ પાઇપલાઇનનો સારાંશ આપવાનો પ્રયાસ કરીએ છીએ:

થ્રેશોલ્ડ પસંદગી:
કોન્ટેન્ટ ડિ-ડુપ્લિકેશન પાઇપલાઇન માટે, થ્રેશોલ્ડ પસંદગી/ટ્યુનિંગ સમસ્યાનું મૂળ છે. તે ડુપ્લિકેટ પ્રશ્નોમાંથી સમાન અને બિન-ડુપ્લિકેટ પ્રશ્નોને અલગ કરવામાં મદદ કરે છે. અહીં, યોગ્ય થ્રેશોલ્ડને ઓળખવા માટે, અમે લેબલ થયેલ ડેટાસેટ તૈયાર કરવા વિષય નિષ્ણાંતોની મદદ લીધી છે, જ્યાં તેમને એન્કર પ્રશ્ન અને ઉમેદવારોની યાદી આપવામાં આવી છે. તેઓને જોડીને ડુપ્લિકેટ અથવા નોટ-ડુપ્લિકેટ તરીકે માર્ક કરવાનું કહેવામાં આવ્યું હતું. ઉમેદવાર જનરેશન માટે, ઈમેજ ડેન્સ વેક્ટર પર ઈલાસ્ટિકસર્ચની ફુલ-ટેક્સ્ટ ક્વેરી અને સ્ક્રિપ્ટ સ્કોર ક્વેરીનો ઉપયોગ કરીને કોન્ટેન્ટ પૂલમાંથી ટોપ k ઉમેદવારોની પસંદગી કરવામાં આવી હતી.
હવે, યોગ્ય થ્રેશોલ્ડ મૂલ્ય પસંદ કરવા માટે, લેબલ કરેલ ડેટાસેટ સામે મહત્તમ ચોકસાઈ સ્કોર ઉદ્દેશ્ય સાથે વિવિધ થ્રેશોલ્ડ મૂલ્યો (શ્રેણી: 0.5 થી 1.0, સ્ટેપ-સાઈઝ: 0.05) પર ગ્રીડ સર્ચનો ઉપયોગ કરવામાં આવ્યો હતો. અહીં એન્કર પ્રશ્નો માટે ટોચના k ઉમેદવારો જનરેટ કરવામાં આવ્યા હતા અને ચોકસાઈ નંબરો વિવિધ થ્રેશોલ્ડ મૂલ્યો પર લેવામાં આવ્યા હતા. સમાનતા સ્કોર થ્રેશોલ્ડ જે મહત્તમ ચોકસાઈ આપે છે તે અંતિમ થ્રેશોલ્ડ મૂલ્ય તરીકે પસંદ કરવામાં આવ્યું હતું.
બેન્ચમાર્કિંગ પ્રક્રિયા
હોલ્ડ-આઉટ લેબલવાળા સેટની સામે, ઉલ્લેખિત ડુપ્લિકેટ ઓળખ પ્રક્રિયાનું બેન્ચમાર્કિંગ કરવામાં આવ્યું છે. નીચેના કોષ્ટકમાં વિશિષ્ટતાઓનો ઉલ્લેખ છે:
| ડેટા | માપ સુયોજિત કરો | ચોકસાઈ (યોગ્ય રીતે ચિહ્નિત) | 
| લેબલ કરેલ પ્રશ્નની જોડી જેમાં શામેલ છે: ફક્ત લખાણ, લખાણ + ઇમેજ, ફક્ત ઇમેજ | 5114 | 83.1% (4250) | 
| લેબલ કરેલ પ્રશ્નની જોડી જેમાં સમાવિષ્ટ છે: લખાણ + ઇમેજ, માત્ર ઇમેજ | 2710 | 80.1% (2193) | 
નિષ્કર્ષ અને ભવિષ્યનું કાર્ય
ઘણા મશીન લર્નિંગ કાર્યોમાં 80% + સચોટતા પૂરતી હોવા છતાં, Embibe જે માપ પર કાર્ય કરે છે તેને મેન્યુઅલ વેરિફિકેશનને વધુ ઘટાડવા માટે વધુ સચોટ મોડલની જરૂર છે. સિમેન્ટીક સમાનતા આધારિત ટેક્સ્ટ માઇનિંગમાં વર્તમાન વિકાસ સાથે, Embibe 90%+ ચોકસાઈના લક્ષ્ય સાથે ગાઢ વેક્ટર (ઇમેજ અને લખાણ એમ્બેડિંગ) આધારિત મટીરીયલ સમાનતા અલ્ગોરિધમ વિકસાવી રહી છે.
સંદર્ભ
[1] ફાલદુ, કેયુર, અમિત શેઠ, પ્રશાંત કિકાણી અને હેમાંગ અકબરી. “KI-BERT: વધુ સારી ભાષા અને ડોમેન સમજણ માટે નોલેજ સંદર્ભનો સમાવેશ.” arXiv preprint arXiv:2104.08145 (2021).
[2] ગૌર, માનસ, કેયુર ફાલદુ અને અમિત શેઠ. “બ્લેક-બોક્સના અર્થશાસ્ત્ર: શું નોલેજ ગ્રાફ ડીપ લર્નિંગ સિસ્ટમને વધુ અર્થઘટન કરી શકાય અને સમજાવી શકાય તેવું બનાવવામાં મદદ કરી શકે છે?.” IEEE ઇન્ટરનેટ કમ્પ્યુટિંગ 25, નં. 1 (2021): 51-59.
[3] ગૌર, માનસ, અંકિત દેસાઈ, કેયુર ફાલદુ અને અમિત શેઠ. “નોલેજ ગ્રાફ્નો ઉપયોગ કરીને સમજાવી શકાય તેવું AI.” ACM CoDS-COMAD કોન્ફરન્સમાં. 2020.
 
                 Scan to download the app
Scan to download the app  
    
                                     
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				