પર્સનલાઈઝ સર્ચ માટે રેન્ક મેળવવા માટે – લર્નિંગ
Embibe વિદ્યાર્થીઓને તેમના લર્નિંગ આઉટકમને સુધારવામાં મદદ કરે છે અને તેઓને જોઈતા કોન્ટેન્ટ સર્ચવાની મુખ્ય પદ્ધતિ એ મેનૂ-સંચાલિત નેવિગેશન સિસ્ટમને બદલે Embibe ના પર્સનલાઈઝ સર્ચ એન્જિનનો ઉપયોગ કરે છે. વેબ સર્ચમાં પ્રગતિ સાથે, યુઝર આજે અપેક્ષા રાખે છે કે સર્ચ પરિણામોના પ્રથમ પેજમાં તેઓ જે માહિતી શોધી રહ્યા છે તે ચોક્કસ માહિતી ધરાવે છે.
Embibe પર કોન્ટેન્ટનો જથ્થો વિશાળ છે અને તેમાં અભ્યાસ કોન્ટેન્ટ, વિડિયો, પ્રેક્ટિસ પ્રશ્નો, ટેસ્ટ, લેખો અને સમાચાર આઇટમ, સમગ્ર પરીક્ષાઓ, વિષયો, એકમો, પ્રકરણો, કોન્સેપ્ટનો સમાવેશ થાય છે. યુઝરને શક્ય તેટલી વધુ કાર્યક્ષમ રીતે કોન્ટેન્ટ આપવા માટે, સર્ચ પરિણામો વિજેટ સેટના સ્વરૂપમાં રજૂ કરવામાં આવે છે. દરેક વિજેટ સર્ચ પરિણામોમાંથી પુનઃપ્રાપ્ત પરિણામોના સંગ્રહનું સંબંધિત ક્રિયાયોગ્ય લિંક અને સંકળાયેલ નોલેજ ગ્રાફ નોડ્સ દ્વારા જૂથબદ્ધ પ્રતિનિધિત્વ કરે છે. Embibe પરના તમામ કોન્ટેન્ટ તેમની સાથે સંકળાયેલા વિવિધ વિજેટ પ્રકારો ધરાવે છે, અને સમૂહ-સ્તરની યુઝર લાક્ષણિકતાઓ સાથે, આ અમારા સર્ચ પ્લેસને ~120 મિલિયન ડોક્યુમેન્ટના સંયોજનમાં વિસ્તૃત કરે છે જેમાંથી પસંદ કરવા અને યુઝરને પરત કરવામાં આવે તે પહેલાં ક્રમાંકિત કરવામાં આવે છે. Embibe પર સર્ચ પરિણામો સાથે ઐતિહાસિક યુઝરની ક્રિયાપ્રતિક્રિયાનું વલણ વિશ્લેષણ દર્શાવે છે કે યુઝર પ્રથમ પૃષ્ઠ પર જ ટોચની વિજેટ સ્થિતિઓમાં સૌથી સુસંગત માહિતીની અપેક્ષા રાખે છે. આથી, પરિણામ વિજેટ્સનો ક્રમ અમારા યુઝર માટે સર્ચને વધુ આકર્ષક બનાવવા અને અમારા સર્ચ પરિણામોની ગુણવત્તા સુધારવામાં મહત્વપૂર્ણ ભૂમિકા ભજવે છે.
લર્નિંગ-ટુ-રેન્ક [1] એ નિરીક્ષિત મશીન લર્નિંગ સમસ્યા છે જેનો ઉપયોગ સર્ચ પરિણામો માટે આપમેળે રેન્કિંગ મોડલ બનાવવા માટે થઈ શકે છે. દરેક પ્રશ્ન માટે, બધા સંબંધિત ડોક્યુમેન્ટ એકત્રિત કરવામાં આવે છે. આ ડોક્યુમેન્ટની સુસંગતતા સામાન્ય રીતે માનવીય મૂલ્યાંકનો અથવા ચુકાદાઓના સ્વરૂપમાં તાલીમ ડેટા તરીકે પુરી પાડવામાં આવે છે. આ ડોક્યુમેન્ટની સુસંગતતાનો ઉપયોગ પછી લર્નિંગ-ટુ-રેન્ક મોડલને તાલીમ આપવા માટે કરવામાં આવે છે, જેમાં રેન્કિંગ પરિણામો અને સુસંગતતા ચુકાદા વચ્ચેના તફાવતને ઘટાડવાના ઑપ્ટિમાઇઝેશન ધ્યેય સાથે, તમામ પ્રશ્નો પરના સરેરાશ કાઢવામાં આવે છે.

આકૃતિ 1: Embibe ના પર્સનલાઈઝ કોન્ટેન્ટ સર્ચ એન્જિનના સંદર્ભમાં લર્નિંગ-ટુ-રેન્ક. યુઝર એ Embibe પર પર્સનલાઈઝ કોન્ટેન્ટ સર્ચ એન્જિન માટે પ્રશ્ન પેદા કરે છે. પરિણામો ઈલાસ્ટિકસર્ચ સમૂહમાંથી પુનઃપ્રાપ્ત કરવામાં આવે છે અને પ્રક્રિયા પછીના સ્તર પર મોકલવામાં આવે છે જે પરિણામોમાંથી વિજેટ સેટ બનાવે છે. યુઝર વ્યક્તિકરણ સ્તર યુઝર, પ્રશ્ન અને વિજેટ વિશેષતાઓના આધારે વિજેટ સેટને ફરીથી ક્રમ આપવા માટે લર્નિંગ-ટુ-રેન્ક મોડલનો ઉપયોગ કરે છે. લર્નિંગ-ટુ-રેન્ક મોડલ એ નિરીક્ષણ કરેલ મશીન લર્નિંગ મોડલ છે જે વિજેટ રેન્કિંગની સમસ્યાને પરિણામ વિજેટ્સ પર યુઝરની ક્લિક્સની આગાહી કરતી વખતે રજૂ કરે છે. મોડલને યુઝર દ્વારા કરવામાં આવેલ પ્રશ્નો સામે વિજેટ પર ઐતિહાસિક યુઝર ક્લિક્સનો ઉપયોગ કરીને તાલીમ આપવામાં આવે છે.
Embibe પરના પરિણામોને વિજેટ્સમાં જૂથબદ્ધ કરવામાં આવ્યા હોવાથી, જે પ્રથમ-ક્રમના પરિણામોથી ક્વેરી સુધી વિસ્તૃત થાય છે, તેથી વિજેટ્સ પર રેન્કિંગ કાર્ય પૂરું પાડવાની જરૂર છે. આથી, અમારા ઉપયોગના કિસ્સામાં, કોઈપણ પૂર્વ-અસ્તિત્વમાં રહેલું સર્ચ એન્જિન જે બિલ્ટ-ઇન લર્નિંગ-ટુ-રેન્ક કાર્યક્ષમતા પ્રદાન કરે છે, જેમ કે સ્થિતિસ્થાપક સર્ચ v6.0 ઉપરની તરફ, તે ઉકેલ પ્રદાન કરવામાં સમર્થ હશે નહીં. અમારું પર્સનલાઈઝ સર્ચ એન્જીન જે યુઝરના પ્રશ્નોના આધારે કોન્ટેન્ટ પૂરો પાડે છે, આવા 25 મહત્વના પરિબળોમાં યુઝર કોહર્ટ એસાઇન્મેન્ટ, ઐતિહાસિક સર્ચ વલણો, કોન્ટેન્ટ વપરાશ પેટર્ન, પરીક્ષા-આધારિત કોન્ટેન્ટ મહત્વ અને ભૂતકાળના યુઝરની ક્રિયાપ્રતિક્રિયાના આધારે પ્રથમ-ક્રમના પરિણામોને ક્રમાંકિત કરે છે.
જ્યારે આ અભિગમ સર્ચ પરિણામો પર ભૂતકાળના યુઝર ક્લિક ડેટાના આધારે સારી રીતે કાર્ય કરે છે, તે શંકા-આધારિત યુઝર ક્રિયાપ્રતિક્રિયા અથવા શંકા-ડોક્યુમેન્ટ અથવા શંકા-વિજેટ જોડીને રજૂ કરતું નથી, ખાસ કરીને અમારા ઉપયોગના-કેસમાં. ઉચ્ચ પરિમાણીય જગ્યામાં વપરાશકર્તા પ્રશ્નો અને તેમની સુસંગતતાને પ્રોજેક્ટ કરે છે. લર્નિંગ-ટુ-રેન્ક ફ્રેમવર્ક n-ડાયમેન્શનલ સ્પેસમાં શંકા સામે સેટ કરેલા પરિણામનું પ્રતિનિધિત્વ કરીને અને સમસ્યાને રીગ્રેસન અથવા વર્ગીકરણ જેવી મશીન લર્નિંગ સમસ્યામાં રૂપાંતરિત કરીને અથવા મૂલ્યાંકન મેટ્રિક્સને ઓપ્ટિમાઇઝ કરીને રેન્કિંગ કરીને આ ખામીને દૂર કરે છે.
સામાન્ય રીતે, લર્નિંગ-ટુ-રેન્ક અલ્ગોરિધમ પ્રશ્ન-ડોક્યુમેન્ટ જોડી અથવા યાદીઓ પર કામ કરે છે. અમારા કિસ્સામાં, દરેક પ્રશ્ન વિજેટ પ્રકારોના વિવિધ સેટ ઉત્પન્ન કરશે અને અમે યુઝર માટે રેન્કિંગને પર્સનલાઈઝ કરવા પણ ઈચ્છીએ છીએ, અમે વિશેષતાઓની ત્રણ શ્રેણીઓ ધ્યાનમાં લીધી છે; એટલે કે યુઝર, પ્રશ્ન અને વિજેટ. અમે યુઝરની પ્રોફાઇલ, પ્રશ્ન માહિતી અને પરિણામોમાંથી મેળવેલા ટોચના વિજેટ્સના સંયોજનમાંથી વિશેષતાઓનો ઉપયોગ કરીને યુઝર દ્વારા કરવામાં આવેલા દરેક પ્રશ્ન સામે અમારા ડેટાનું પ્રતિનિધિત્વ કરીએ છીએ. વિજેટ માટેની વિશેષતાઓમાં વિજેટનો પ્રકાર, વિજેટ વર્ટિકલ, ઐતિહાસિક બ્રાઉઝ, લોકપ્રિયતા, પ્રશ્ન શબ્દો વિજેટના નામ સાથે મેળ ખાય છે કે કેમ, વગેરેનો સમાવેશ થાય છે. પ્રશ્ન માટેની વિશેષતાઓમાં ચોક્કસ ઉદ્દેશ્ય શોધી કાઢવામાં આવ્યો હતો કે કેમ, પ્રશ્ન લંબાઈ, પ્રશ્ન, વગેરે શબ્દ આવર્તન-વિપરીત ડોક્યુમેન્ટની વિશેષતાઓનો સમાવેશ થાય છે. યુઝર વ્યક્તિકરણ માટે હિસાબ કરવા માટે, અમે યુઝર જોડાણ સમૂહ, યુઝર પ્રદર્શન સમૂહ, યુઝરનો પ્રાથમિક ધ્યેય, વગેરે જેવી યુઝર વિશેષતાઓનો પણ સમાવેશ કરીએ છીએ. અન્વેષણાત્મક ડેટા વિશ્લેષણ, સહસંબંધ મેટ્રિક્સનો અભ્યાસ, પરસ્પર માહિતી સ્કોર અને પરિમાણીયતામાં ઘટાડાનો ઉપયોગ કરીને બિનજરૂરી વિશેષતાઓ દૂર કરવામાં આવે છે.
અમે લર્નિંગ-ટુ-રેન્કના અનુમાનની સમસ્યા ઘટાડી દીધી છે જેમાં અમે યુઝર, પ્રશ્ન અને વિજેટ વિશેષતાઓને ધ્યાનમાં રાખીને ચોક્કસ વિજેટ પર યુઝરના ક્લિક સંભાવનાનું અનુમાન કરીએ છીએ. ઐતિહાસિક યુઝર પ્રશ્નો અને અનુગામી ક્લિક ક્રિયાપ્રતિક્રિયા ડેટાનો ઉપયોગ કરીને, અમે ક્લિક કરેલ સ્થાન અને ઉપરના વિજેટોને ધ્યાનમાં લઈએ છીએ. આ અમને ડેટા સેટનું પ્રમાણમાં સંતુલિત વિતરણ આપે છે કારણ કે ઐતિહાસિક રીતે, યુઝર ઉચ્ચ વિજેટ પર ક્લિક કરવાનું વલણ ધરાવે છે. વર્ગીકરણ અલ્ગોરિધમનો ઉપયોગ કરીને અમે વિજેટ પર ક્લિકના સંભાવનાનું અનુમાન કરી શકીએ છીએ, અને આ અભિગમ શરૂ કરવા માટે સારી આધારરેખા પુરી પાડે છે જ્યાંથી વધુ પુનરાવર્તનો માટે પરિણામોનું સરળતાથી અર્થઘટન કરી શકાય છે. અમે, તેથી, આ અભિગમ માટે અમારી પ્રથમ પસંદગી તરીકે લોજિસ્ટિક રીગ્રેશન પસંદ કર્યું.
અમારા પ્રયોગો માટે, કાર્ય એ આગાહી કરવાનું હતું કે આપેલ સ્થાન પરના વિજેટને યુઝર અને પ્રશ્ન નાં અમુક સંયોજન માટે ક્લિક કરવામાં આવશે કે નહીં. અમે બ્રાઉઝ લોકપ્રિયતા, પરીક્ષાનું વજન, ક્વેરી લંબાઈ, વગેરે જેવી માત્ર સંખ્યાત્મક વિશેષતાઓનો ઉપયોગ કરીને શરૂઆત કરી છે અને આનો આધારરેખા પ્રદર્શન તરીકે ઉપયોગ કરીએ છીએ. વિજેટ પ્રકાર, યુઝર સમૂહ, પ્રશ્ન ધ્યેયો, અને તેથી વધુ જેવા સ્પષ્ટ ડેટાને ઉન્નત વિશેષતા સમૂહમાં ઉમેરવાથી ક્લિક અનુમાન કાર્ય પર સચોટતા અને ચોકસાઈ બંનેમાં ~6% નો સુધારો થયો. ત્યારબાદ અમે પ્રશ્નોમાંથી કાઢેલ ટોચની 1,500 TF-IDF વિશેષતાઓ ઉમેરી, અને આનાથી મોડલની ચોકસાઈમાં ~1% સુધારો થયો જે દર્શાવે છે કે વધુ સારી કામગીરી માટે પ્રશ્નોમાંથી અન્ય લખાણ વિશેષતાઓ મેળવવાની જરૂર પડી શકે છે. આ અભિગમના પ્રદર્શનનો ઉપયોગ Embibe ના પર્સનલાઈઝ કોન્ટેન્ટ સર્ચ એન્જિન માટે લર્નિંગ-ટુ-રેન્ક પર વધુ પુનરાવૃત્તિઓ માટે આધારરેખા તરીકે કરવામાં આવશે.
સંદર્ભો:
- લિયુ ટી., “માહિતી પુનઃપ્રાપ્તિ માટે રેન્ક કરવાનું શીખવું.”, ફાઉન્ડેશન્સ એન્ડ ટ્રેન્ડ્સ® ઈન ઇન્ફોર્મેશન રિટ્રીવલ 3.3 (2009): 225-331.
- ક્રાસ્કોવ એ., સ્ટૉગબાઉર કે. અને ગ્રાસબર્ગર પી., “એસ્ટીમેંટિંગ મ્યુચલ ઇન્ફોર્મેશન.”, ફિઝિકલ રીવ્યુ E 69.6 (2004): 066138
- કોક્સ ડી.આર., “ધ રીગ્રેશન એનાલિસિસ ઓફ બાઈનરી સિક્વન્સ.”, જર્નલ ઓફ ધ રોયલ સ્ટેટિસ્ટિકલ સોસાયટી. શ્રેણી B (મેથોડોલોજિકલ) (1958): 215-242.
 
                 Scan to download the app
Scan to download the app  
    
                                     
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				 
				