اینکه مفاهیم حیات وحش و طبیعت با دنیای وب تلفیق بشه اصلا چیز عجیبی نیست. به هر حال توضیح مفاهیم با اسامی و تشبیه هایی که برای ما آشناست، می توانند به درک درست آن ها بهتر کمک کنند. یکی از همین موارد خزنده ها (Crawler) و عنکبوکت ها (Spider) می باشند. اشتباه نکنید، عنوان ما فقط قرار است یک چیز درباره تفاوت crawler و spider بگوید و در ادامه می خواهیم هم به چیستی این مفاهیم بپردازیم و هم درباره کارکرد های آن ها بیشتر صحبت کنیم. کارکرد هایی که گاهی آنقدر پیچیده هستند که شاید نشود آن ها را در یک مقاله جای و داد و در عین حال آنقدر ساده هستند که با دانستن بخشی از آن ها، می توانید موارد دیگر را نیز حدس بزنید. پس در این مقاله همراه ما باشید تا با این دو مفهوم بیشتر آشنا شویم.
تفاوت crawler و spider
اگر تنها اینجا آمده اید که تفاوت crawler و spider را متوجه شوید، بگذارید از همین حالا خیال شما را راحت کنیم حرف آخر را اول بزنیم. برای کسانی که صرفا این موضوع برایشان در مباحث سئو سایت سوال پیش آمده است و احتمالا همین حالا هم با سئو سایت درگیر هستند باید بگوییم که این دو مفهوم شاید در دنیای واقعی با یکدیگر خیلی متفاوت باشند (در واقع یکی زیر مجموعه دیگری باشد) اما در دنیای وب هردو درباره یک مفهوم صحبت می کنند. عنکبوت (Spider) یک خزنده (Crawler) است و تنها تفاوت crawler و spider در دنیای وب این است که شکل نوشتن آن ها متفاوت است و یک سری از یکی استفاده می کنند و دیگری استفاده از آن یکی را ترجیح می دهند. در هر حالت این دو درباره یک مفهوم صحبت می کنند. پس هیچ تفاوتی عملا با یکدیگر ندارند.
حال چرا در بحث سئو سایت و کلا دنیای وب از کلمه spider استفاده می شود؟ بیایید به کلمه Web یا عبارت World Wide Web برگردیم که همان www ای هستش که ما اول هر سایتی قرار می دهیم. (در حال حاضر دیگر آن کار را هم انجام نمی دهیم) حال شما اگر دنیای وب را یک تار عنکبوت (همان معنی لغوی Web) تصور کنید، Spider ها همان Crawler هایی هستند که در این دنیای وب گشت و گذار می کنند و سایت ها را بررسی می کنند. درست است که این تار یا همان دنیای وب را خودشان نتنیده اند، اما تنها مفاهیمی هستند که می توانند به راحتی در آن با سرعت همه جا سفر کنند و محتوای سایت ها را آنالیز کنند. حال که تفاوت crawler و spider را که رسما هیچ تفاوتی نبود فهمیده اید، باید به سراغ مفهوم آن ها برویم.
مفهوم crawler و spider
“مفهوم crawler و spider” شاید به ظاهر ساده باشد و بشود به راحتی آن را گفت. اما زمانی که جلوتر متوجه کارکرد های این مفاهیم (که حالا می دانیم تفاوت crawler و spider دیگر وجود ندارد) می فهمیم که چقدر این کراولر ها کار های جالبی انجام می دهند و چقدر کاری که انجام می دهند حتی در مدیوم دنیای وب هم پیچیده است. یک وب کراولر یا وب اسپایدر که به آن ها Search Engine Bot هم می گویند کار این است که در فضای وب بچرخد و محتوا های آن را دانلود کند و آن ها را در موتور جست و جو ایندکس کند. به عبارت دیگر کار آن ها این است که هرچیزی که در دنیای وب وجود دارد را درباره صفحات وب یاد بگیرند و دریافت کنند تا در زمان لازم این اطلاعات را بازیابی کنند.
این ربات های خزنده همیشه در حال کار کردن برای موتور های جست و جو می باشند. همانطور که می دانید وقتی یک کلمه را در موتور های جست و جو سرچ می کنید، پاسخی که دریافت می کنید چند لینک به ترتیب منظم در صفحه نتایج است. این لینک ها را همین کراولر ها ایندکس کرده اند و با وسواس بسیار طبق الگوریتم های موتور جست و جو به هرکدام رتبه ای داده اند. این کراولر ها به سایت شما هم سر می زنند و شاید همین حالا هم در سایت شما باشند و دارند بررسی می کنند که محتوای سایت شما چقدر با استاندارد های موتور جست و جو همخوانی دارد تا آن ها را ایندکس کنند و در صفحه موتور جست و جو قرار دهند. اما Index شدن یک سایت دقیقا چیست و این Crawler ها دارند چه کاری انجام می دهند؟
Indexing چیست؟
حال که فهمیدیم تفاوت crawler و spider در واقع تفاوت چندانی نیست لازم است که درباره اصلی ترین کارشان هم صحبت کنیم. Indexing یا ایندکس کردن در واقع ساخت یک کتابخوانه از محتوای وب است که موتور جست و جو برای نمایش محتوا از آن کتابخانه استفاده کند. ایندکس کردن Crawler ها یا Spider های عزیز ما تمرکزش روی محتوای متنی صفحه و متادیتا ها است که این موارد را معمولا کاربران نمی بینند. جالب است البته یک نکته را هم بگوییم که این کراولر ها حروف اضافه ای مانند “a/an” و “the” را که کلمات معرفی کننده مفاهیم هستند را در نظر نمی گیرد و باقی کلمات را مورد بررسی قرار می دهد.
درباره متا دیتا هم قبلا توضیحاتی را ارائه کرده ایم اما لازم است بگوییم Metadata در مفهوم ایندکس سازی، داده ای هستش که بوسیله آن موتور جست و جو متوجه می شود که موضوع محتوا چیست. اغلب عنوان صفحه و توضیحات متا به عنوان نماینده ای از صفحه ما، جزو متا دیتا هایی هستند که در صفحات موتور جست و جو به نمایش در می آیند.
Crawler یا Spider چگونه کار می کند؟
همانطور که متوجه شدیم crawler و spider در مفهوم تفاوتی با هم ندارند، تفاوت crawler و spider در کارشان نیز وجود ندارد. اینترنت پر از محتوای گوناگون در سرتاسر خود می باشد. چون نمی شود درست تخمین زد که چند صفحه وب در اینترنت وجود دارد، خزندگان وب کارشان را از صفر و با لیستی از URL های شناخته شده انجام می دهند. آن ها بین صفحات وب این URL ها می خزند و لینک های داخل این URL ها را پیدا می کنند و در نتیجه وارد URL های دیگر می شوند تا لیستی درست کنند که بعدا باید به سراغ چه صفحاتی از وب بروند. به همین ترتیب از طریق همین لینک ها وارد URL های مختلف برای ایندکس کردن می شوند.
این خزنده ها یا عنکبوت ها از یک سری سیاست های خاصی برای ایندکس کردن و رتبه بندی سایت ها استفاده می کنند. اینکه چه صفحاتی چگونه ایندکس شوند برایشان تعریف شده است و اگر یک صفحه ای بروز رسانی شود، خبردار می شوند که باید به آن صفحه دوباره سر بزنند.
نمونه هایی از کارکرد های Crawler ها
تشخیص اهمیت هر صفحه وب
بیشتر Crawler ها به سراغ هر چیزی که در اینترنت در دسترس است نمی روند. همانطور که در مفهوم crawler و spider توضیح دادیم، این خزنده ها بیشتر به سراغ صفحاتی می روند که صفحات دیگر، بیشترین لینک را به آن ها داده اند. همین موضوع یکی از فاکتور های کراول کردن آن هاست و فاکتور دیگر این است که چقدر محتوای مهم و حیاتی در این صفحات وجود دارد.
اینکه به یک صفحه چقدر لینک داده شده است نشان می دهد که آن صفحه هم از قدرت بالایی برخوردار است و هم اینکه احتمالا محتوای مهمی دارد که این همه صفحه به آن رجوع کرده اند. پس این موضوع خیلی برای Crawler ها مهم است و کارشان را برای ایندکس کردن راحت می کند. به این خاطر که موتور جست و جو اولویتش رضایت کاربر است و حدس می زند که این صفحه ها بهتر می توانند رضایت کاربر را جلب کنند. پس در نتیجه هم نسبت به ایندکس سریعتر آن ها اقدام می کند و هم معمولا بر حسب کیفیت صفحه، رتبه بهتری را به این صفحات می دهد.
بازدید دوباره از صفحات وب
اگر یک بازرس اماکن یک بار به یک مغازه سر بزند، دلیل نمی شود که بار دیگر به سراغ آن نرود. محتوای صفحات وب هم همیشه در حال به روز شدن هستند و گاهی ممکن است پاک شوند یا به مکان دیگری انتقال پیدا کنند. برای همین هم لازم است که این خزندگان دوباره به سراغ این صفحات بروند و مطمئن شوند که آخرین بروزرسانی این صفحات ایندکس شده باشد تا کاربر بتواند محتوای جدید را هم ببیند. گاهی ممکن است برای همین به روز رسانی، کراولر ها رتبه سایت را بالاتر یا متاسفانه پایین تر نیز بیاورند که همه چیز بستگی به کیفیت بروزرسانی شما دارد.
توجه به فایل robot.txt
خزنده های وب همچنین بر پایه پروتکل robot.txt تصمیم می گیرند که خزیدن خود را در فضای وب به چه صورت انجام دهند. قبل از اینکه آن ها یک صفحه را کراول کنند، فایل robot.txt سایت مورد نظر را چک می کنند. این فایل یا پروتکل در واقع فایل متنی ای هستش که قوانین کراول کردن را برای کراولر ها تعیین می کنند. این robot.txt به کراولر ها می گوید که صفحه چگونه باید کراول شود و کدام لینک های آن باید دنبال شوند. همچنین اگر قرار باشد صفحه ای کراول و ایندکس نشود، همین پروتکل به این ربات های خزنده می گوید که فعلا بیخیال صفحه مورد نظر بشوند.
سخن پایانی : پس تفاوت crawler و spider یک دروغ است؟
موضوع اینجاست که آنقدر تفاوت crawler و spider مطرح شده است که همه فراموش کرده اند که این دو مفهوم، هر دو به یک موضوع اشاره دارند و تفاوتی با هم ندارند. اما چون یک سری این بات ها را spider و یک سری (اکثریت) crawler می نامند، این سوء تفاوهم که این دو، دو مفهوم جدا از یکدیگر هستند بوجود آمده است در حالی که در واقع این دو مفهوم هیچگونه تفاوتی با یکدیگر در دنیای وب ندارند. ممنون که در این مقاله همراه ما بودید و امیدواریم که مورد توجه شما واقع شده باشد.
منبع: