ربات های Crawler موتور های جست و جو در فضای وب می چرخند و سایت های شما را بررسی می کنند. اگر صفحه شما صفحه خوبی باشد آن را ایندکس می کنند و رتبه ای را در گوگل به آن اختصاص می دهند. تا اینجا به نظر همه چیز خوب می رسد تا اینکه بحث خطاهای crawl وسط می آید که در اینجا می خواهیم به خطاهای رایج crawl بپردازیم و تعدادی از آن ها که از همه معمول ترند را مورد نقد و بررسی قرار دهیم. احتمالا اگر سئو کار یا توسعه دهنده سایت باشید این مقاله کاملا به درد شما خواهد خورد اما اگر به تازگی وارد وارد مبحث سئو سایت شده اید، پیشنهاد می شود که اول موارد مربوط به سئو تکنیکال را فرا بگیرید. با ما همراه باشید.
خطاهای رایج crawl
تصور کنید هنوز سایت شما در موتور های جست و جو خصوصا گوگل ایندکس نشده است و تازه سایت شما راه اندازی شده است. حال کراولر های موتور های جست و جو به سراغ سایت شما می آیند که ببینند اصلا چه خبر است و شروع به بررسی سایت شما می کنند. حال تصور کنید که این Crawler ها به هر دلیل نتوانند این کار را انجام بدهند یا اگر هم امکانش باشد، این کار به درستی انجام نگیرد. چه اتفاقی می افتد؟ مسلما سایتی که کراولر ها نتوانند ببینند ایندکس نمی شود و در نتایج موتور جست و جو نمایش داده نمی شود. پس اینجاست که ممکن است تصور کنید همه زحمات شما به هدر رفته و دیگر کاری نمی شود کرد. اما نگران نباشید، خطاهای رایج crawl چیز هایی نیستند که قابل حل کردن نباشند.
اینجاست که اول از همه بحث سئو تکنیکال به میان می آید. می دانید که در سئو سایت، یکی از مهمترین موارد سئو تکنیکال می باشد. این موارد عبارتند از مواردی که به بخش های تکنیکال و پیچیده شما مرتبط می شوند تا بتوانید سایت خودتان را برای موتور های جست و جو بهینه کنید. “ارورهای رایج crawl” و به طور کلی هر موضوعی که به بخش Crawl و Googlebot مرتبط باشد، به سئو تکنیکال منتهی می شود. حال در بحث خطاهای رایج crawl ما می خواهیم قبل از هرچیزی به سراغ این برویم که اصلا ماهیت این خطاها چیست؟ چرا ممکن است این موارد پیش بیایند؟ بعد از این ها هم مستقیم به سراغ این خطاها خواهیم رفت که به بررسی آن ها بپردازیم و راه حلی برای رفعشان ارائه دهیم.
خطای crawl چیست؟
خطاهای رایج کراول در واقع مشکلاتی هستند که موتور های جست و جو در هنگام دسترسی به سایت شما با آن ها رو به رو می شوند. این خطاها به ربات های موتور جست و جو اجازه نمی دهند که سایت شما را بخوانند و آن را ایندکس کنند.
این خطاها به دو بخش عمده تقسیم بندی می شوند:
خطاهای سایت: این ارور ها به گوگل بات اجازه دسترسی به کل سایت شما را نمی دهند.
خطاهای URL: این ارور ها زمانی اتفاق می افتند که گوگل بات به یک URL خاص در سایت شما نمی تواند دسترسی پیدا کند.
در آپدیت جدید Google Search Console این خطا ها به صورت URL به URL در بخش Index Coverage گزارش داده می شوند.
همچنین Google Search Console در بخش ایندکس کاوریج موارد زیر را هم ترک می کند و به شما نشان می دهد که چقدر:
-خطا را گوگل بات با آن مواجه شده
-چه صفحاتی در گوگل ایندکس شده اند
-صفحاتی که گوگل با آن ها رو به رو شده ولی ایندکس نکرده
-صفحات درستی که گوگل ایندکس کرده ولی همچنان ارور دارند
حال می خواهیم به سراغ این ارور ها برویم و آن ها را بررسی کنیم.
خطاهای crawl مرتبط با سایت
خطاهای سایت از جمله خطاهای رایج در crawl ، در سطح سایت شما اتفاق می افتند. این “خطاهای رایج crawl” وجودشان به این معناست که کاربران شما و گوکل به هیچکدام از صفحات شما دسترسی ندارند. مسلم است که نباید به سادگی از کنار این خطاها گذشت مگر نه؟ 3 تا از این ارور ها را با یکدیگر بررسی خواهیم کرد.
خطای DNS
از خطاهای رایج crawl می شود خطای DNS را نام برد. DNS مخفف Domain Name System می باشد که اشاره به IP شما از زنجیره هایی از حروف و شماره های قابل استفاده دارد. در واقع DNS همان چیزیست که به ما اجازه می دهد بدون دانستن IP یک سایت، آن را پیدا کنیم و وارد آن شویم.
ساخت یک دسترسی خوب به DNS جزو موارد واجب سایت به شمار می رود و اگر گوگل نتواند به DNS شما دسترسی پیدا کند، نمی تواند وارد سایت شما هم بشود. این خطاها به دو صورت زیر می باشند:
DNS timeout: سرور DNS شما به درخواست گوگل سریع پاسخ نداده است.
DNS Lookup: گوگل به سایت شما نمی تواند دسترسی پیدا کند به این خاطر که سرور DNS نمی تواند نام دامنه شما را پیدا کند.
زمانی که این مشکلات پیش می آیند تنها کاری که شما می توانید بکنید این است که به شرکتی که DNS شما را فراهم می کند خبر بدهید.
خطاهای سرور
خطاهای سرور از خطاهای رایج crawl با خطای دی ان اس فرق می کنند. به این معنا که گوگل توانسته است URL شما را در سرور دی ان اس پیدا کند، منتها به دلیل مشکلات سرور قادر به بارگذاری سایت شما نبوده است. این موضوع معمولا به این معناست که زمان زیادی طول می کشد که سرور به در خواست گوگل پاسخ بدهد. گوگل هم زیاد برای پاسخ گرفتن صبر نمی کند و اگر سرور زود پاسخ ندهد، بات گوگل تسلیم می شود و پی سایت دیگری می رود.
راه حل رفع این ارور ها بسته به نوعشان دارد:
Timeout: طول می کشد که سرور پاسخ درخواست گوگل بات را بدهد.
Truncated Header: سرور اتصال خود را قبل از فرستاده شدن کامل هدر سایت بسته است.
Connection Reset: گوگل توانسته است به سایت شما وصل بشود اما چیزی دریافت نکرده است به این خاطر که اتصال در حین پاسخگویی ریست شده است.
Truncated Response: اتصال قبل از اینکه گوگل پاسخ کامل بگیرد قطع شده است.
Connection refused: سرور شما قبول نکرده است که با گوگل بات کانکت شود.
Connect Timeout: خیلی طول کشیده است که اتصال پردازش شود.
No Response: اتصال با سرور شما قبل از اینکه پاسخی دریافت شود قطع شده است.
برای رفع این مشکلات می توانید از Google’s help article کمک بگیرید.
شکست ربات ها در فرایند
اینکه گوگل نتوانسته باشد فایل robot.txt سایت شما را بخواند هم از خطاهای رایج crawl محسوب می شود. خواندن این فایل قدم سوم بعد از DNS و سرور است که گوگل برای کراول یک سایت باید بردارد. گوگل نمی خواهد صفحه ای را که شما نمی خواهید ایندکس شود را ایندکس کند در نتیجه اگر به فایل robot.txt دسترسی نداشته باشد، کراول آن صفحه را به وقت دیگری موکول می کند.
اگر با این مشکل رو به رو شدید باید موارد زیر را بررسی کنید:
-آیا این فایل به درستی ساخته شده است؟
-آیا دسترسی به homepage شما مجوزش از سمت شما صادر شده است؟
-آیا robot.txt وضعیت 200 را دارد یا خطای 404 می دهد؟
-آیا خط Disallow: / که برای قطع دسترسی گوگل به صفحات شما هستش را چک کرده اید؟
با بررسی این موارد شما می توانید این مشکل را حل کنید و بهترین کار تعمیر و بررسی عملکرد درست فایل robot.txt شما می باشد.
خطاهای crawl مرتبط با URL
خطاهای مربوط به URL از خطا های رایج crawl با خطا های سایت فرق می کنند و فقط مختص به یک یا چند صفحه از سایت شما می شوند. به این معنا که گوگل خواسته است یک صفحه خاصی از سایت شما را ببیند ولی به آن دسترسی ندارد.
خطای Soft 404
اسم soft 404 ممکن است کمی گمراه کننده باشد. این ها صفحاتی نیستند که ارور 404 دارند بلکه وضعیت آن ها 200 و درست است. منتهی مشکل اینجاست که این صفحه ها خالی هستند. گوگل به خوبی می تواند محتوا را تشخیص بدهد و پیدا کند. پس اگر یک URL محتوایی نداشته باشد صفحه را یک صفحه خالی تصور می کند و آن را کراول نمی کند. بهترین راه این است که یا به این صفحات محتوا اضافه کنید یا تگ noindex را به آن ها اضافه کنید که اصلا گوگل به سراغ آن ها نرود.
خطای Not found
این خطای رایج در crawl اشاره به همان ارور 404 دارد. گوگل درخواست صفحه ای از شما را کرده است که اصلا وجود ندارد. وجود URL هایی که “not found” هستند در سایت شما خیلی خوب نیست اما اینطور نیست که پیش نیاید و آنقدر هم مشکل حل نشدنی ای محسوب نمی شود. همانطور که گوگل هم گفته است ارور های 404 در رتبه بندی و ایندکس سایت شما تاثیر نمی گذارد. بیشتر ارور های 404 نیاز به رفع شدن ندارد ولی اگر می خواهید این کار را بکنید در نظر داشته باشید که:
-آیا URL مورد نظر لینک های خارجی با کیفیتی دارد یا خیر؟
-آیا ترافیک زیادی دریافت می کند؟
-آیا این صفحه از آن صفحاتیست که کاربران انتظار حضورش را دارند یا خیر؟
خطای Access denied
این خطا از خطا های رایج در crawl زمانی پیش می آید که گوگل به یک صفحه خاص از سایت شما می تواند دسترسی پیدا کند به دلایل زیر:
-صفحه با پسوورد محافظت می شود.
-توسط فایل robot.txt مجوز دسترسی آن داده نشده است.
-شرکت فراهم کننده هاست شما گوگل بات ها را بلاک کرده است.(بله ممکن است این اتفاق بیفتد!)
اگر همچین مشکلاتی پیش آمد نیازی به رفع آن ها نیست به این خاطر که احتمال زیاد این صفحه ها اصلا نباید که crawl شوند و بسته بودن دسترسی آن ها لازم است. با این حال روش های رفع این ارور به شرح زیر است:
-موارد مربوط به لاگین کردن برای وارد شدن به صفحه را حذف کنید.
-URL را از فایل robot.txt بردارید.
-به شرکت ارائه دهنده هاستتان تماس بگیرید و بگویید که صفحه مورد نظر را دسترسی بدهد.
نتیجه گیری
از خطاهای رایج در crawl این موارد بیشتر مشاهده شده است. هرچند که ممکن است موارد دیگری هم وجود داشته باشد که در آینده به آن ها اشاره خواهیم کرد که البته باید بگوییم این موارد وجود دارند و در دنیای سئو تکنیکال همیشه چیز های جدیدی هستش که باید با آن ها سر و کله زد. باز هم به شما یاد آوری می کنیم که موارد سئو تکنیکال را جدی بگیرید و کار های لازم را برای آن انجام دهید تا بتوانید رتبه خوبی در موتور های جست و جو دریافت کنید یا لااقل مطمئن شوید که صفحه هایی که می خواهید، در ایندکس موتور جست و جو قرار بگیرند. ممنون که با ما همراه بودید.
منبع: