توسعه ی تکنيک های وب کاوی به منظور شخصی سازی اطلاعات در موتورهای جستجو wordفهرست مطالب

چکیده.......1

فصل اول(کلیات).....2

1-1 مقدمه......3

1-2 بیان مسئله و اهمیت آن......4

1-3 اهمیتوضرورتانجامتحقیق.....6

1-4 ساختار پایان نامه......7

1-5 فصلدوم(مبانی و مفاهیم پایه)......8

2-1 مقدمه.........9

2-2 وب‌کاوی........10

2-3 تکامل تاریخی از وب‌کاوی....................................................................................................................11

2-4 مشکلات کاربران در استفاده ازوب.......................................................................................................13

2-5 شباهت ها و تفاوت های وب‌کاوی و داده کاوی...................................................................................14

2-6 الگوریتم های وب‌کاوی........................................................................................................................15

2-7 دسته بندی وب‌کاوی...........................................................................................................................16

2-7-1 محتوا کاوی وب.........................................................................................................................17

2-7-1-1 دیدگاه های محتوا کاوی وب............................................................................................17

2-7-1-2 داده‌های محتوا کاوی وب.............................................................................................. 17

2-7-1-3 رويکردها و تکنيک هاي محتواکاوی وب.......................................................................18

2-7-1-4 انواع محتواکاوی وب…………………………………………………………….. 19

2-7-2 ساختارکاوی وب........................................................................................................................20

2-7-2-1 دسته های ساختار کاوی وب بر اساس نوع داده ساختاری................................................21

2-7-2-2 مدل هاي بازنمايي ساختار وب.........................................................................................21

2-7-2-3 کاربردهاي ساختارکاوی وب........................................................................................... 23

2-7-3 کاربردکاوی وب.........................................................................................................................25

2-7-3-1 فازهای کاربرد کاوی وب.................................................................................................25

2-7-3-2 انواع داده‌هاي کاربردکاوی................................................................................................26

2-7-3-3 کاربردهاي کاربردکاوی وب..............................................................................................28

2-8 کاربردهای وب‌کاوی...........................................................................................................................29

2-9 چالش هاي وب کاوي.........................................................................................................................30

2-10 موتور جستجو...................................................................................................................................31

2- 11 تاریخچه موتورهای جستجو..............................................................................................................31

2-12 موتورهايجستجوراازلحاظپشتیبانی هايمالیونیرويانسانی.....................................................32

2-12-1 موتورهايجستجويآزمایشی.................................................................................................32

2-12-2 موتورهايجستجويتجاري...................................................................................................33

2-13 معماريکلیموتورهايجستجووکارکردآن‌ها.................................................................................33

2-13-1 درون کاو(خزنده)..................................................................................................................34

2-13-2 کنترلدرون کاو......................................................................................................................35

2-13-3 انباره يصفحات....................................................................................................................35

2-13-4 ماجولشاخص دهی..............................................................................................................35

2-13-5 ماجول ………....……….…….……………...………………..Collection Analysis36

2-13-6 Utility Index.....................................................................................................................36

2-13-7 موتورپرس‌و‌جو..................................................................................................................36

2-13-8 ماجولرتبه بندي..................................................................................................................37

2-14 اهمیتموتورهايجستجو...............................................................................................................37

2-15 مشکلاتموتورهايجستجودرارائهنتایج......................................................................................37

2-16 بهینه سازی موتور جستجو..............................................................................................................38

2-17 هدف SEO.....................................................................................................................................39

2-18 مزیت بهینه سازی وب سایت برای موتور‌های جستجو..................................................................39

2-19 فرآیند بهینه سازی موتورها­ی جستجو...........................................................................................40

2-20 نتیجهگیري....................................................................................................................................41

فصلسوم(شخصی سازی موتورهای جستجو)...........................................................................................42

3-1 مقدمه...............................................................................................................................................43

3-2 علت شخصی‌سازی موتور جستجو..................................................................................................43

3-3 تعریف شخصی‌سازی.................................................................................................................44

3-4 مراحل شخصی‌سازی...................................................................................................................44

3-4-1 شناخت کاربر........................................................................................................................45

3-4-1-1 روش‌های کمک به کاربران در جستجو در وب............................................................45

3-4-1-1-1 خوشه‌بندی کد آماده- وب.................................................................................45

3-4-1-1-2 شخصی‌سازی فهرست رتبه‌بندی شده- مسطح از نتایج پرس‌و‌جو......................46

3-4-1-2 راه حل های مشکل خوشه‌بندی کد آماده وب......…………..........………………47

3-4-1-2-1 خوشه بندي مسطح..............................................................................................47

3-4-1-2-1-1 کلمات تنها و خوشه بندي مسطح................................................................47

3-4-1-2-1-2 جملات و خوشه بندي مسطح.....................................................................47

3-4-1-2-2 خوشه‌بندی سلسله مراتبی....................................................................................48

3-4-1-2-2-1 کلمات تنها و خوشه‌بندی سلسله مراتبی..................................................48

3-4-1-2-2-2 جملات و خوشه‌بندی سلسله مراتبی........................................................48

3-4-1-3 معرفی اسنکت..........................................................................................................50

3-4-1-4 شرح معماری اسنکت...................................................................................................51

3-4-1-4-1 انتخاب جمله و رتبه‌بندی....................................................................................52

3-4-1-4-2 خوشه بندي سلسله مراتبی...............................................................................55

3-4-1-4-3 شخصی‌سازی نتایج جستجو.............................................................................57

3-4-1-5 مرور اسناد سلسله مراتب براي استخراج اطلاعات......................................................59

3-4-1-6 مرور اسناد سلسله مراتب براي انتخاب نتايج..............................................................59

3-4-1-7 اصلاح پرس‌و‌جو.........................................................................................................59

3-4-1-8 رتبه‌بندی شخصی‌سازی شده.......................................................................................61

3-4-1-9 واسطه شخصی‌سازی شده وب...................................................................................62

3-4-1-10 نتایج تجربی .............................................................................................................63

3-5-1-10-1 پيمايش هاي کاربران……..……......….…….…………………………..64

3-4-1-10-2 مجموعه داده اسنکت و شواهد حكايتي……........…..………….…………65

3-4-1-10 -3 ارزیابی اسنکت……….……………….………………………………66

3-4-1-10 -3 - 1 مزایای استفاده از DMOZ....………….......……..…………….....67

3-4-1-10 -3 -2 مزایای استفاده از شاخص محکم متن…………….………….……67

3-4-1-10 -3 -3 مزایای استفاده از موتورهای چندگانه……...………….….………..68

3-4-1-10 -3 -4 مزایای استفاده از جملات فاصله داربه عنوان برچسب‌های پوشه……69

3-4-1-10 -3 -5 تعداد کدهای آماده وب موجود در پوشه‌ها………...……….….….70

3-4-2 مدل سازی کاربر………….…………...……..……………………………………...71

3-4-2-1 مدلسازیصريحکاربر………………..……..….……………………………..71

3-4-2-2 مدلسازیضمنیکاربر………….……………...…………….…...….……..…72

3-4-2-2-1 Caption Nemo........…...….……....……………….…………………...74

3-4-2-2 -1-1 فضاهای جستجوی شخصی……...….…………………………….75

3-4-2-2 -1-1-1 مدل شخصی بازیابی………….…...………..……..………….. 76

3-4-2-2 -1-1-2 سبکارائه شخصی………....…………....……….……..……. 76

3-4-2-2 -1-1-3 موضوع مورد نظر شخصی……………..……….………………77

3-4-2-2 -1-2 پیاده سازی سیستم……..…..………….………………………….79

3-4-2-2 -1-2-1 رتبه‌بندی..…...…………....……………………………….81

3-4-2-2 -1-2-2 طبقه‌بندی سلسله مراتبی صفحات وب بازيابي شده....…....……83

3-4-2-2 -1-3 مطالعه کاربر…….……..……..…………....…….……………… 86

3-4-2-2 -1-3 -1 آزمایش..….…….………......……………….…………......86

3-4-2-2 -1-3 -2 آزمایش 2……………………………………………......87

3-4-2-2 -3 شخصی‌سازیالگوریتمرتبه‌بندی صفحه….…………………..………...88

3-4-2-2 -4 الگوریتم LTIL.………...…….…………………………….……......89

3-4-2-2 -5 روش IA.…………..….…………………………….………….......89

3-4-3 اجرای سیستم شخصی‌سازی………………....….…………………………….……91

3-4-3-1 روشقطعی……….………...…………………………….………………….91

3-4-3-2 روشفازی………....……….…………………………….………………….91

3-4-3-3 شخصی‌سازی موتورهای جستجو با استفاده از شبکه های مفهومی فازی و ابزارهای داده کاوی……………………..……………………………………………………………..91

3-4-3-3 -1 پیش زمینه……………………....…………….……….....……………….91

3-5-3-3 -2 روش پیشنهادی………………...…………….…………….….………….95

3-4-3-3 -3 ارزیابی سیستم و بررسی نتایج به‌دست آمده….…..……………..…………..97

3-5 نتیجه گیري…….……….…..………....………………………….…………………… 100

فصل چهارم(مدل پیشنهادی برای شخصی‌سازی موتورجستجوونتایج بدست آمده از آزمایش ها).....101

4-1 مقدمه………....….………….…………………………….……………………………102

4-2 شرحآزمایشهاوتجزیهمسئله. ……...………………….…………………………….…..102

4-3 نتیجه گیری………....…….….…….…………………………….……………………..154

فصل پنجم(رابط کاربری موتور جستجو)………..…………....….………………………………155

5-1 مقدمه……..…...…………….…………………………….……………………………156

5-2 رابط کاربری موتور جستجوی شخصی‌سازی شده PSEFiL….………………………….....156

5-3 اهمیت موتور جستجوی شخصی‌سازی شده PSEFiL………..…………………………...159

5-4 نتیجه گیری....................................................................................................................................159

فصل ششم(نتیجه گیری) …………………………….………………….........……………….160

6-1 مقدمه………………………….…………………………….………………………….161

6-2 مروری بر فصول گذشته…………………….…..…….....…………………….………….161

6-3 موتور جستجوی پیشنهادی شخصی‌سازی شده PSEFiL……….………………….……….161

6-4 نتیجه گیری……………..……….….…………………………….……………………. 164

6-5 پیشنهادات و مطالعات آتی……………..……….….…………………………….………..164

 

مقالات مستخرج از پایان نامه………......………......….…………………………….………….. 165

 

فهرست منابع………………..……….……………………………...………………………… 166

چکیده انگلیسی……..………………….………………..…………….………………....…..…172

 فهرستجداول

فصل اول……………..…….………….…………………….………………………………...2

فصل دوم …………………………….…....………………...……….………………………..8

جدول2-1.مراحل تکامل وب‌کاوی ……………...….…………….…………………………….12

جدول2-2.مقایسه وب‌کاوی و داده کاوی………………….….…………...…………………… 15

جدول2-3.انواع محتواکاوی وب. ………………………..……………..…………….………...20

جدول2-4.فاز های کاربردکاوی وب……………………….………………..……......….……...26

فصلسوم……………………….………………..…………..………………………………42

جدول3-1طبقه‌بندی راه حل های موجود……………………………..............…….……….......50

جدول 3-2مدل بازیابی شخصی…………………………......…………..…………………….82

جدول 3-3نتایج آرا توسط موتورهای جستجو………………………..…………..…………….83

جدول 3-4نتیجه رای های Captain nemo……………………………..………..…………....83

جدول 3-5 سلسله مراتب موضوعی تعریف شده توسط کاربر و درصد نتایج پرس‌و‌جوي به درستی طبقه‌بندی شده…………………………….….……….…………..…………………………………....87

جدول3-6.زمان تعیین صفحه وب های مربوط برای پرس‌و‌جوهای داده شده……….……….……..88

جدول3-7.رتبه‌بندی نتایج موتور جستجوی گوگل توسط کاربران………….………………..…….98

جدول3-8.رتبه‌بندی شخصی‌سازی شده نتایج موتور جستجوی گوگل توسط سیستم….……..…...…99

جدول3-9.معیار ارزیابی d برای موتور جستجوی گوگل…………………………...……………..99

جدول3-10.رتبه‌بندی نتایج موتور جستجوی یاهو توسط کاربران……..……………………….….99

جدول3-11.رتبه‌بندی شخصی‌سازی شده نتایج موتور جستجوی یاهو توسط سیستم….….…….…100

جدول 3-12.معیار ارزیابی d برای موتور جستجوی یاهو……….…………….….……………..100

فصل چهارم…….………….…….…………………………….………………………….. 101

جدول4-1.تعدادی از پرس‌و‌جوهاوموتورهايجستجويموردآزمایش…………...…..……...…103

جدول 4-2 زیر طبقه های کلمه ی Data base…………..………….…………......……….....104

جدول 4-3.استخراج داده فیلتر شده لینک برای پرس‌و‌جوی "Web mining"……….….…......….107

جدول 4-4.استخراج داده فیلتر شده لینک برای پرس‌و‌جوی " Operated system "…….............…108

جدول 4-5.استخراج داده فیلتر شده لینک برای پرس‌و‌جوی " Neural network "……..………....109

جدول 4-6.استخراج داده فیلتر شده لینک برای پرس‌و‌جوی " Computer architecture"….…...…110

جدول 4-7.استخراج داده فیلتر شده لینک برای پرس‌و‌جوی " Data base "………………....……111

جدول 4-8.استخراج داده فیلتر شده لینک برای پرس‌و‌جوی " Jaguar"…………………....……..112

جدول 4-9.استخراج داده فیلتر شده لینک برای پرس‌و‌جوی "Java".………………….…......…...113

جدول 4-10.استخراج داده فیلتر شده لینک برای پرس‌و‌جوی "Beetle"………….…..……....…...114

جدول 4-11.استخراج داده فیلتر شده لینک برای پرس‌و‌جوی "Puma"…….….………….……...115

جدول 4-12.استخراج داده فیلتر شده لینک برای پرس‌و‌جوی "Platform"………..……………....116

فصل پنجم……………...…..………….…………………………………………………… 155

فصل ششم…….………………..……..………………..……………………………………160

 

 

 

فهرستاشکال

فصل اول..……………………………….………………...………….…………………………2

فصل دوم……………………………..……………...………….………………………………8

شکل 2-1. مراحل وب‌کاوی………………..……….……………...……….……………………10

شکل2-2.دسته بندی وب‌کاوی…………………………..…………….………………...………16

شکل2-3.داده‌های محتواکاوی وب………………………...………………………..………….....18

شکل2-4.رویکردهای محتواکاوی وب…………….………………..…………...……….………..18

شکل2-5.دسته های ساختار کاوی وب بر اساس نوع داده ساختاری…………….……..….…..…...21

شکل2-6.مدل های بازنمایی ساختار کاوی وب…………………………...………...……...….…..22

شکل2-7مدل هاي گراف تک گره اي…………………….……………..…………..……….…...22

شکل2-8. مدل هاي گراف چند گره اي………………….……………...…………..………….…23

شکل2-9.کاربردهای ساختارکاوی وب………………….…………..…………..……….………..24

شکل 2-10.داده‌های کاربرد کاوی وب. ……………….………………...…………..……………26

شکل2-11.کاربردهای کاربردکاوی وب……………………….……………………..……….…...28

شکل2-12.معماری کلی موتورهای جستجو……………….…………......……...…...……………34

فصلسوم……………….………..…………..…………….………………………………..…42

شکل 3-1.معماری اسنکت………………..………..………...……….…………..………….….52

شکل3-2. گزارش پیچیدگی زمانياسنکت و پیچیدگی زماني موتورهای دیگر..………….....………57

شکل 3-3استخراج اطلاعات برای ……………………………………………………..."jaguar"58

شکل 3-4مرور سلسله مراتب برای "آلرژی……………………………………………………."60

شکل 3-5 .اسنکتدر پرس‌و‌جوي "جاوا………………………………………………………"61

شکل 3-6 .اسنکت شخصی‌سازی شده………………………………………………………….62

شکل 3-7.مدت زمان (ثانیه)اسنکت برای بازیابی و خوشه بندي تعداد رو به رشد کدهای آماده بر روی "داده کاوی" پرس‌و‌جو………….…………….………...…………………………………………….67

شکل 3-8. چپ:قضاوت نتایج اسنکت،راست :تنظیمات کاربر.………………………..……....……66

شکل 3-9.P @ N با استفاده از شاخص DMOZ ….………………….………….........……....…67

شکل3-10.P @ N با استفاده از شاخص محکم………………...…………..……….......................68

شکل 3-11.تعداد سطوح پوشه بالا………………....………...……………..…….…….….....…..68

شکل 3-12.توزیع-ورود جفت کلمات مرتبط…………………....………………..…….….……..69

شکل 3-13.P @ N در مجموعه داده ………………...………………..…….….…...……….…70

شکل3-14.تعداد پرس‌و‌جوهای تولیدکنندهN برچسب سطح بالا در مجموعه داده‌ها(TopLabels @ N).70

شکل 3-15.P @ N روی کدهای آماده برای "divx’....…… ………………....…….………......71

شکل 3-16.نتایج گروه بندی شده موضوع مورد علاقه……………….………….………………...78

شکل 3-17سلسله مراتب موضوعات مورد علاقه شخصی……………….……………....…..……..79

شکل 3-18معماری سیستم Captain nemo………………….………….……………………….79

شکل 3-19 سلسله مراتب غنی شده…………..……….……..………………….………….…….85

شکل3-20. گرافدوبخشیازارتباطمیانصفحاتوبوپرسوجوها……….……………………90

شکل3-21. شبکه مفهومی فازی….……………………………………………………………...92

شکل 3-22.معماری پیشنهادی برای موتور جستجوی شخصی‌سازی شده…..………………………95

فصل چهارم……….…………………………………………….……………………………101

شکل 4-1.معماری موتور جستجویپیشنهادی PSEFiL….………........………………………...105

شکل4-2.نمایش درختی پرس‌و‌جوی "Web mining"…….…………………………….………117

شکل4-3.نمایش درختی پرس‌و‌جوی "Operated system"……….……………………………..117

شکل4-4.نمایش درختی پرس‌و‌جوی "Neural network "……....………………………………118

شکل4-5.نمایش درختی پرس‌و‌جوی "Computer architecture"……….…………………….…118

شکل4-6.نمایش درختی پرس‌و‌جوی "Data base "……….……………………………………118

شکل4-7.نمایش درختی پرس‌و‌جوی "Jaguar"………….…………………………………...…119

شکل4-.8نمایش درختی پرس‌و‌جوی "Java"…………….…………………………………..…119

شکل4-.9نمایش درختی پرس‌و‌جوی "Beetle"……….……………………………………,,,…119

شکل4-.10نمایش درختی پرس‌و‌جوی "Puma"……….………………………………………..120

شکل4-11. نمایش درختی پرس‌و‌جوی "Platform"……….……………………………………120

شکل 4-12.استخراج بخشی ازنتایج PSEFiL برای زیر طبقه "Concept "از"Web mining"…...….121

شکل 4-13.استخراج بخش از نتایج PSEFiL برای زیر طبقه "Business tools "از"Web mining"...122

شکل 4-14.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Course "از"Web mining"….……123

4-15.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Concept "از"Operated system"…….…124

شکل 4-16.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Type "از"Operated system"….…125

شکل 4-17.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Course "از"Operated system"..…126

شکل 4-18.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Concept "از"Neural network"..…128

شکل 4-19.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Usage-Application "از"Neural network"...................................................................................................................................................128

شکل 4-20.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Course "از"Computer architecture"....129

شکل 4-21.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Usage "از"Computer architecture".....130

شکل 4-22.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Business "از"Computer architecture".131

شکل 4-23.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Concept "از"Data base"………...…...132

شکل 4-24.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Commerical tools "از"Data base"...…133

شکل 4-25.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Course "از"Data base"………..……..134

شکل 4-26.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Car "از"Jaguar"…………..…….……135

شکل 4-27.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Animal "از"Jaguar"……………....….136

شکل 4-28.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Music tools "از"Jaguar"………....…..137

شکل 4-29.استخراج بخشی از نتایج PSEFiL برای زیر طبقه " others "از"Jaguar"……………...…...137

شکل 4-30.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Programing language"از"Java"….….138

شکل 4-31.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Usage-Application-Hardware"اززیر طبقه "Programing language"از"Java"....................................................................................................................................139

شکل 4-32.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Concept"اززیر طبقه "Programing language"از"Java"....................................................................................................................................140

شکل 4-33.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Course"اززیر طبقه "Programing language"از"Java"……..…......…………………………………………………………………141

شکل 4-34.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Island"از"Java"………………..…142

شکل 4-35.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Car"از"Beetle"………………...…143

شکل 4-36.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Insect"از"Beetle"…………...……144

شکل 4-37.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Game"از"Beetle"……………...…145

شکل 4-38.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Music tools"از"Beetle"…………..146

شکل 4-39.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Others"از"Beetle"………………..146

شکل 4-40.استخراج بخشی از نتایج PSEFiL برایزیر طبقه"Shoes,clothing and sport wea Company"از"Puma"………………………………………………………………………….147

شکل 4-14.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Animal"از"Puma"………………..148

شکل 4-42.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Web server"از"Puma"……………149

شکل 4-43.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Others"از"Puma"…………………149

شکل 4-44.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Computer platform"از"Platform"...150

شکل 4-45.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Concept"از"Platform"……………151

شکل 4-46.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Game"از"Platform"………………152

شکل 4-47.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Arts group"از"Platform"…………152

شکل 4-48.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Co-operative Bank"از"Platform"…153

شکل 4-49.استخراج بخشی از نتایج PSEFiL برای زیر طبقه "Others"از"Platform"……………...153

فصل پنجم……………………………………………………………………………………...155

شکل5-1.قسمت جستجوی موتورجستجوی ……………………………………………..PSEFiL156

شکل5-2. جستجوی "Web mining" توسط موتورجستجوی ……………………………PSEFiL158

شکل5-3.نمایش درختی "Web mining" توسط موتورجستجوی ………………………...PSEFiL157

شکل5-4.نمایش درختی "Puma" توسط موتورجستجوی ………………………………..PSEFiL158

شکل5-5.لینک هاواسنیپت های طبقه "Concept" از"Web mining"توسط موتورجستجوی...PSEFiL158

شکل5-6.لینک هاواسنیپت های طبقه"Shoes-Sport wear"از"Puma"توسط موتورجستجوPSEFiL......159

فصل ششم…...…………………....……………………………………………………………160

شکل 6-1.معماری موتور جستجویپیشنهادی …...….……………………………………PSEFiL162

 چکیده

ماهیت پویای شبکه جهانی و ابعاد رو به رشد آن، بازیابی دقیق اطلاعات را دشوار ساخته است. پاسخ های نادرست برگشت داده شده به وسیله ی موتورهای جستجو، خصوصا برای عبارات پرس‌و‌جو با معانی مختلف، باعث نارضایتی کاربران وب شده‌است که نیاز به پاسخ های دقيق برای تقاضاهای اطلاعاتی خود دارند. امروزه موتورهای جستجو تلاش می‌کنند تا درخواست کاربران را از طریق مطالعه سابقه جستجو و یا حتی شرکت دادن کاربران در فرایند جستجو به منظور روشن ساختن آنچه که آن‌ها واقعا نیاز دارند، دريابند. این روند بخشی از تلاش موتورهای جستجو برای شخصی‌سازی است.

یکی از موتورهای جستجوی شخصی‌سازی شده ی خوش تعريف و خوش ساخت، اسنکت[1] است که از مشارکت کاربر برای فرایند شخصی‌سازی استفاده می‌کند. در این تحقیق بر اساس الگوریتم شخصی‌سازی شده اسنکت، یک معماری از موتور جستجوی شخصی‌سازی شده جديد پيشنهاد شده در اين پایان نامه به نام PSEFiL ارائه شده‌است که با دخالت دادن کاربر و فيلتر سازی لینک ها پاسخ هایی با کمترین ميزان یا عدم وجود انحراف موضوع به منظور غنی سازی مجموعه جواب، به کاربران تحویل می‌دهد. علاوه بر این، مجموعه جواب مستحکم است زیرا هر لینک موجود در مجموعه نتایج، يا دارای رتبه بالایی از ساير موتورهای جستجو است و یا کمترین انحراف موضوع را با یک فرایند اسکن دستی دقيق داراست. بعلاوه هر لینک به روشنی برای هر معنی ذهنی موجود از یک عبارت پرس‌و‌جو طبقه‌بندی شده‌است. یکی از اهداف PSEFiL، آماده سازی و تحويل پاسخ های دقیق است نه تحويل مجموعه پاسخی با لینک های بیشتر که ممکن است محتوایشان دقت کم داشته و یا دقیق نباشند.

 کلمات کلیدی

موتور جستجو، بهینه سازی موتور جستجو، شخصی‌سازی موتور جستجو، ساختارکاوی وب, محتوا کاوی وب

 

فصل اول

کلیات

 1-1مقدمه

وب، محيطي وسيع، متنوع و پويا است که کاربران متعدد، به انتشار اسناد خود در آن مبادرت می ورزند. با توجه به حجم وسيع اطلاعات و با توسعه سيستم هاي اطلاعاتي، داده به يکي از منابع پراهميت سازمان‌ها بدل گشته است. از اين رو در سال های اخیر، روش‌ها و تکنيک‌هاي دستيابي کارا به داده‌ها، به اشتراک گذاری داده‌ها و استخراج اطلاعات از داده‌ها به شدت مورد نياز جامعه ی اطلاعاتی و کاربران آن مي باشد.اهميت مديريت و دسته بندی موثر انواع گوناگون داده‌ها به منظور استفاده و تحليل کارآمد آن‌ها برای کاربران عام و همچنين کارمندان دانشی[2] از کسی پوشيده نيست. در اين بين، ماهيت وب دربردارنده ی چالش های بسياری است که دسته بندی و مديریت داده‌ها را مشکل می سازد. از آن جمله می توان به دشوار بودن یافتن اطلاعات مورد نیاز در وب به دلیل دقت تحليلی پايين موتورهای جستجو، عدم خصوصی سازی اطلاعات، طولانی بودن زمان پاسخ درک شده توسط کاربر، عدم رضايت کاربر در کيفيت پاسخ دريافتی، گوناگونی داده‌های موجود در وب و ... اشاره کرد.

درموتورجستجو[3]کاربرکلیدواژهیراواردکردهوماژولجستجودربانکاطلاعاتیخودبهجستجومی‌پردازدوسایتهایمرتبطباموضوعشمارانمایشخواهدداد زمانیکهکاربرازیکموتورجستجوبرایبیاندرخواستخوداستفادهمی‌کند،نتایجارائهشدهازسویموتورجستجو،تنهابهیکلیستازنتایجمنتهینمی‌شودبلکهاکثرموتورهایجستجودرکنارآننتایج،امکاناتدیگریرابهکاربرارائهمی‌دهندکهمی‌تواننددررساندنکاربربهدرخواستحقیقیاشبسیارمفیدباشند.

روش‌هایمختلفیبهمنظوربازیابیاطلاعاتمورداستفادهقرارمی‌گیرندکهعمدتامبتنیبرمحتواوساختارندوازالگوریتم هایمختلفیبهاینمنظوراستفادهمی‌کنند مطالعاتنشانمی‌دهندکلماتپرس وجوکوتاهومتفاوتندوهرکاربرمنظورخاصیازیکپرس وجویمشابهدارد،درواقعهمیشهنتایجارائهشدهآنچیزینیستکهکاربرانتظارآنرادارد،کاربرانسلایقمتفاوتیدارنداماموتورجستجونتیجهیکسانیرابرایهمهآن‌هاارائهمی‌دهد. اگربتوانازسلایقکاربراندرجستجواستفادهکردمطمئنانتایجرضایتبخشتریحاصلمی‌شود. درواقعدرچنینساختاری،دوکاربرنتایجمتفاوتیراازیکپرس‌وجوییکساندریافتمی‌کنند.یکیازمباحثمطرحوپرطرفداردرامربازیابیاطلاعات،شناخترفتارکاربر[4] واستفادهازسابقهرفتاریاودرمشاهدهصفحاتوبدرگذشتهاستتاازاینرو،نتایجحاصلازموتورجستجوهرچهبیشتربهسلایقکاربرنزدیکباشدوباعثرضایت‌مندیبیشترکاربرانشوددرواقعفرایندشخصی‌سازی[5]موتورجستجووبهبودنتایجحاصلازجستجویکاربران،اززمینه‌هایپژوهشیوبازدراینحوزهاستکهپژوهشگرانفراوانیرابهسویخودجذبکردهوتداعی گرنتایجارزشمندیتابهامروزاست.

وب‌کاوی[6] به عنوان زيرشاخه ای تخصصی شده از دانش داده کاوی به فرایند کشف اطلاعات و دانش ناشناخته و مفید از داده‌های وب اطلاق می‌شود که در زمینه‌های گوناگون کاربرد دارد ودر سال های اخير و همگام با توسعه ی وب،این شاخه مورد توجه بسياری از پژوهشگران بوده است. وب‌کاوی نه تنها به معنی استفاده از تکنیک های داده کاوی[7] برای داده‌های ذخیره شده در صفحات وب است بلکهالگوریتم های آن به منظور پاسخگويي به خواسته های کاربران از وب از نظر زمان پاسخگويي و قدرت تحليل وب اصلاح می شوند.


خرید و دانلود توسعه ی تکنيک های وب کاوی به منظور شخصی سازی اطلاعات در موتورهای جستجو word

افزایش فالوور اینستاگرام