خطای کراول زمانی رخ میده که یه موتور جستجو میخواد به صفحهای از وب سایت شما دسترسی پیدا کنه تا اون رو خزش کنه اما موفق نمیشه. به عبارتی، چیزهایی این وسط به نام خطا هستن که مانع خزش گوگل میشن و کار گوگل و همچنین سایت شما رو مختل میکنن.
خزش یا خزنده گوگل فرایندی است که موتور جستجو سعی میکنه از طریق ربات به هر صفحهای از وب سایت شما مراجعه کنه و اون رو اصطلاحاً خزش کنه.
خزش به طور خلاصه به این صورته که ربات موتور جستجو پیوندی به وب سایت شما پیدا کرده و شروع به یافتن تمام صفحات عمومی شما از اونجا میکنه. در ادامه، ربات صفحات رو کراول میکنه و تمام محتوای مورد استفاده در Google رو ایندکس یا فهرستبندی میکنه. به علاوه، تمام پیوندهای موجود در این صفحات رو به صفحاتی که هنوز در حال خزش شدن هستن انتقال میده.
هدف اصلی شما به عنوان یه مالک وب سایت این هست که مطمئن بشین ربات موتور جستجو میتونه به تمام صفحات سایت شما دسترسی پیدا کنه. شکست در فرایند خزنده گوگل میشه همون خطایی که قراره در ادامه بیشتر باهاش آشنا بشین؛ یعنی خطای کراول .
همچنین در ادامه شما باید مطمئن بشین که پیوندهایی که در صفحات سایت شما قرار دارن، به سایت های واقعی منتهی میشن. این پیوندها ممکنه از نوع ریدایرکت 301 باشن، اما همیشه باید صفحه در انتهای اون پیوند پاسخ سرور 200 ok رو به همراه داشته باشه.
الان وقتشه که شما با انواع خطای کراول به درستی آشنا بشین تا بتونین از پس رفع کردن اونها بر بیاین. با این عمل، گوگل و سایت شما میتونن بدون هیچ اختلالی به کار خودشون ادامه بدن.
انواع خطای کراول
Google خطای Crawl رو به دو گروه تقسیم میکنه:
- خطاهای سایت. شما قطعاً از این خطاها خوشتون نمیاد چون مانع خزش شدن سایت شما توسط گوگل کراولر میشن. درضمن، این خطاها انواع دارن که در ادامه با اونها آشنا میشیم.
- خطاهای URL. واضحه که هیچ مالک سایتی حاضر نیست این نوع از خطای کراول رو هم ببینه. اما خبر خوب اینه که این خطا چون مربوط به یه URL خاص هست، نگهداری و رفع اون نسبت به خطاهای سایت سادهتره.
اجازه بدین این موارد رو برای شما باز کنیم تا درک واضحتری از این خطا داشته باشین:
1. خطاهای سایت
خطاهای سایت همه Crawl Error هستن که از دسترسی ربات موتور جستجو به وب سایت شما جلوگیری میکنن.
خطاهای سایت میتونن دلایل مختلفی داشته باشن که شایعترین اونها موارد زیر هستن:
خطاهای DNS
خطای DNS در خطای خزش به این معناست که موتور جستجو قادر به برقراری ارتباط با سرور شما نیست. به عنوان مثال ممکنه DNS خراب شده باشه و در نهایت سایت شما توسط مخاطبان بازدید نشه.
اما این خطای DNS معمولاً یه مسئله موقتی است. چون Google بعداً به وب سایت شما برمیگرده و سایت شما رو هر جوری که شده جستجو میکنه تا بتونه اون رو کراول کنه. بنابراین اگه در کنسول جستجوی Google خود خطای خزش مشاهده کردین احتمالاً به این معنیه که Google چندین بار برای خزش تلاش کرده و هنوز هم نتونسته به سایت شما وارد بشه.
اولین روشی که گوگل برای رفع خطای DNS پیشنهاد میده استفاده از Fetch as Google هست که به شما میگه Googlebot چطور در صفحات سایت شما جستجو و خزش میکنه. حالا وقتی که شما فقط دنبال خطای DNS با سرعت بالا هستین میتونین عمل fetch رو بدون render انجام بدین.
گاهی اوقات هم میشه که حتی این مورد هم جواب نمیده و شما برای رفع خطای DNS باید به سراغ DNS Provider یا ارائه دهنده DNS برین تا بتونین مشکل رو پیدا و رفع کنین.
خطاهای سرور
اگه کنسول جستجوی شما خطاهای سرور رو نشون میده یعنی ربات گوگل قادر به دسترسی به وب سایت شما نبوده. در واقع موتور جستجو سعی در بازدید از سایت شما داشته اما بارگیری سایت مدت زیادی طول کشیده و سرور پیام خطای خزش رو به شما ارائه داده.
همچنین، خطاهای سرور از سری خطای کراول ، در صورت بروز نقص در کد هم اتفاق میفتن که میتونن از بارگیری یه صفحه از سایت جلوگیری کنن.
علاوه بر این، خطای سرور میتونه به این معنی باشه که سایت شما بازدیدکنندگان زیادی داره اما سرور سایت، توانایی مدیریت تمام درخواستها رو نداره و ارور میده. بسیاری از این خطاها بصورت کدهای وضعیت 5xx بازگردونده میشن، مانند کدهای وضعیت 500 و 503.
در رفع خطای سرور هم گوگل باز Fetch as Google رو برای اطمینان از دسترسی کامل ربات گوگل به سایت شما پیشنهاد میده. اگه این ابزار هیچ مشکلی در صفحه اصلی شما نشون نده، شما مطمئن میشین که موتور جستجو گوگل به صفحه شما هم دسترسی خواهد داشت.
اما لازمه که شما در کنار توضیحات بالا با انواع مختلفی از مشکلات خطای سرور هم آشنا باشین تا بتونین در زمان وقوع خطا اونها رو به درستی تشخیص بدین و حل کنین.
انواع این خطاهای سرور شامل موارد زیر هستن:
- وقفه زمانی
- عدم پاسخ
- هدرهای ناقص
- وقفه اتصال
- تنظیم مجدد اتصال
- اتصال ناموفق
- پاسخ ناقص و عدم اتصال
خطاهای رباتی
قبل از خزیدن، Googlebot سعی میکنه فایل robots.txt سایت شما رو هم خزش کنه. خزش این فایل فقط برای اینه که مناطق ترجیحی شما برای ایندکس نشدن مشخص بشه.
حالا اگه اون ربات نتونه به پرونده robots.txt برسه، Google خزیدن رو به تأخیر میاندازه تا زمانی که این خطای Crawl رفع بشه و بتونه به پرونده robots.txt دسترسی پیدا کنه. بنابراین همیشه باید از موجود بودن این فایل و درست خزش شدن اون اطمینان حاصل کنین.
برای رفع مشکل فایل robots.txt ابتدا باید ساختاربندی مناسب فایل robots.txt رو تعیین کنین. در واقع، صفحاتی رو که میخواین Googlebot اونها رو کراول نکنه رو تعیین کنین تا مشکل و خطایی از سری خطای خزش در کار کروال گوگل اتفاق نیفته. چون در غیر این صورت ربات گوگل به طور پیشفرض شروع به خزندگی کل صفحات شما میکنه.
علاوه بر این، شما باید وجود بند Disallow رو در پرونده robots.txt بررسی کنین و مطمئن بشین که اصلاً این بند برای عدم خزش فایل وجود نداره.
اگه فایل شما هیچ مشکلی نداشت، اما سرور شما هنوز هم ارور کراول داره، از ابزاری که به عنوان header_server جستجو میکنه استفاده کنین تا بفهمین آیا پرونده robots.txt خطای 404 یا 200 رو نشون میده یا نه.
توضیحاتی که تا الان داده شد مربوط به بخشی از خطای کراول یعنی خطاهایی مربوط به کل سایت بود. اما بخش بعدی از ارور خزش مربوط به بخش دیگهای از این خطاها یعنی خطاهای مربوط به صفحات سایت است.
2. خطاهای URL
همونطور که در ابتدا گفته شد، خطاهای URL هم جزئی از ارور کراول هستن. این خطاها هنگامی که یه ربات موتور جستجو میخواد صفحه خاصی از وب سایت شما رو جستجو کنه، رخ میدن.
هنگامی که ما در مورد خطاهای URL صحبت میکنیم ، تمایل داریم که در مورد خطا های خزش مانند soft 404 هم بحث کنیم. چون شما باید مرتباً این نوع خطاها رو از طریق Google Search Console یا Bing webmaster tools بررسی کرده و اونها رو برطرف کنین.
یعنی اگه یه روزی یه جایی صفحهای رو از سایت خودتون حذف کردین، برای جلوگیری از خطای URL باید پیوندهای ورودی به اون صفحه رو هم در صفحات دیگه سایت پاک کنین. چون این پیوندها دیگه هیچ استفادهای ندارن. به عبارتی، اگه اون لینکی که به صفحه پاک شده داده شده، سر جاش بمونه، یه ربات اون لینک رو پیدا میکنه، دنبال میکنه و به بنبست میرسه. و اون کاری که نباید بشه، میشه!
یکی دیگه از خطاهای رایج URL خطایی است که submitted URL در عنوان صفحه وجود داره. آگاه باشین که در صورت وجود این URL در عنوان، گوگل به سرعت این خطا رو تشخیص میده و مانع خزش سایت میشه. دلیل این امر اینه که شما از یه طرف با این URL دارین میگین که میخوام این صفحه ایندکس بشه اما گوگل چون داره این خطا رو میبینه این اجازه رو صادر نمیکنه.
البته وجود پرونده robots.txt در مسدود کردن صفحه یا مارک noindex خوردن صفحه در برچسب متا یا سر تیتر HTTP یعنی HTTP Header هم در ایندکس نشدن صفحه بی تاثیر نیستن.
بنابراین یادتون باشه که تا این خطاها برطرف نشن و بچسبها پاک نشن، خبری از خزش و ایندکس سایت شما توسط گوگل نیست.
همچنین نوع دیگه ای از خطاهای URL هست که ممکنه یه خطای DNS یا خطای سرور برای اون URL خاص باشه. پس URL رو باید دوباره بررسی کنین و ببینین که آیا خطا از بین رفته یا نه. همونطور که قبلاً هم گفتیم، برای رفع این خطاها میشه از ابزار Fetch Google استفاده کنین و اونها رو در کنسول جستجوی گوگل رفع کنین.
علاوه برای این خطاهای URL از Crawl Error ، ما یه سری خطای URL خاصی هم داریم که شامل موارد زیر هستن:
- خطاهای URL خاص تلفن همراه. این خطای URL به خطای کراول در صفحات خاصی برمیگرده که در گوشیهای هوشمند اتفاق میفتن.
- خطاهای بد افزار Melware) Malicious software). این خطا وقتی رخ میده که Bing یا Google با بدافزاری در URL مواجه بشه.
- خطاهای اخبار گوگل. یه سری خطای Google News وجود دارن که در واقع خطرات احتمالی هستن و ممکنه شما وقتی در Google News هستین با این نوع از ارور خزش مواجه بشین.
امیدواریم که با این مقاله تونسته باشیم کمک کنیم تا خطای کراول رو بهتر بشناسین و برای رفع اونها قدمی بردارین.
یادتون باشه که خطای خزش رو بدون رفع کردن رها نکنین. چون شانس خزش و ایندکس شدن سایت و صفحات خودتون رو از دست میدین و کم کم سایت شما از دور رقابت کنسول جستجوی گوگل خارج میشه. پس باید حسابی مواظب ارور خزش سایت و صفحات خود باشین.
منتظر نظرات و سوالات شما درباره خطای کروال هستیم.