مقالات آموزشی

کنترل کرال و ایندکس موتور جستجو + کنترل کراولر گوگل

مفید بود؟

ایندکس و کرال موتور جست و جو چی هستن اصلاً؟ شده تا به حال به این فکر کنین؟ ما اینجا هستیم تا به شما در مورد کنترل کرال و ایندکس موتور جست و جو اطلاعاتی بدیم. اگه بخوایم به شکل خلاصه درباره ایندکس و کرال به شما بگیم، با انتقال تنظیمات ترجیحی خود به موتورهای جست و جو می‌تونین روند کرال و ایندکس خود رو کنترل کنین. این مسئله به اونها کمک می‌کنه تا بفهمن چه قسمت‌هایی از وب سایت شما رو متمرکز کنند و چه قسمت‌هایی رو نادیده بگیرن. در اینجا سوالی که مطرح میشه اینه که:

پرسش
روش‌های زیادی برای انجام این کار وجود داره. بنابراین چه زمانی باید از کدام روش استفاده کرد؟

در این مقاله ما قصد داریم که در مورد زمان استفاده از هر روش بحث کنیم و موارد مثبت و منفی رو برجسته تر نشون بدیم.

موتورهای جست و جو هر روزه میلیاردها صفحه رو کرال می‌کنن. صفحات کمتری هم ایندکس می‌کنن و حتی صفحات کمتری رو در نتایج جست و جو خود نمایش می‌دهند. شما می‌خواید که صفحات شما در بین ایندکس شده ها و نمایش داده شده ها باشه. بنابراین چطوری می‌تونین کنترل ایندکس موتور جست و جو رو در دست بگیرین؟ و رتبه بندی خود رو بهبود بدین. برای یافتن جوابی برای این دسته از سوال‌های خودتون، ابتدا باید به چگونگی روند کرال و ایندکس نگاه کنیم. بعد ما در مورد تمامی روش‌هایی که می‌تونین برای کنترل کرال و ایندکس موتور جست و جو و کنترل کرال انجام بدین، صحبت می‌کنیم.

 

نحوه کار کرال

خزنده‌های موتور جست و جو وظیفه دارن تا جایی که ممکنه آدرس‌های اینترنتی رو پیدا کنن و کرال کنن.

پرسش
روش‌های زیادی برای انجام این کار وجود داره بنابراین چه زمانی باید از کدام روش استفاده کرد؟ چرا این کار رو انجام میدن؟

این URLها می‌تونن آدرس‌های جدید و URLهایی باشن که از قبل در مورد اونها اطلاع داشتن. با استفاده از صفحاتی که قبلاً می‌دونستن، URLهای جدید پیدا می‌شن. اونها بعد از کرال نتایج خود رو به ایندکس منتقل می‌کنن. به صفحاتی که موتورهای جست و جو اجازه کرال دارن، اغلب خزنده گفته میشه. در اینجاست که کنترل ایندکس و کرال موتور جست و جو حائز اهمیت میشه.

نحوه کار ایندکس

ایندکسرها محتوای URLها رو از کرالرها یا خزنده‌ها دریافت می‌کنن. ایندکسرها سعی می‌کنن با تجزیه و تحلیل اون (از جمله پیوندها در صورت وجود) این محتوا رو درک کنن. ایندکسر URLهای متعارف رو پردازش می‌کنه و خوب بودن هر URL رو تعیین می‌کنه. به صفحاتی که موتورهای جست و جو اغلب ایندکس می‌کنن، فهرست‌پذیر می‌گن. کنترل کرال و ایندکس موتور جست و جو بعد از شناخت ایندکس مهمه. با ما باشین تا اطلاعات بیشتری در این مورد کسب کنین.

کنترل ایندکس و کرال موتور جست و جو

با روشن کردن تنظیمات برگزیده خود برای موتورهای جست و جو، کنترل کرال و ایندکس موتور جست و جو رو می‌تونین به دست بگیرین. همونطور که قبلاً گفتیم با این کار به اونها کمک می‌کنین تا بفهمن چه بخش‌هایی از وب سایت شما برای شما مهم‌ترینه. در این بخش ما تمامی روش‌هایی که برای کنترل ایندکس و کنترل کرال لازمه بدونین رو به شما آموزش می‌دیم. در آغاز بذارین چند تا از مفاهیم رو برای شما توضیح بدیم:

  • خزنده: آیا موتورهای جست و جو قادر به کرال URL هستن؟
  • ایندکس: آیا موتورهای جست و جو برای ایندکس URL تشویق می‌شن؟
  • محتوای تکراری: آیا این روش از مشکل محتوای تکراری جلوگیری می‌کنه؟
  • تلفیق سیگنال‌ها: آیا موتورهای جست و جو برای ادغام ارتباط موضعی و سیگنال‌های URL، همونطور که توسط محتوای URL و پیوندها تعریف شده؛ تشویق می‌شن؟

علاوه بر اینها مهمه که جواب این سوال رو بدونین:

پرسش
روش‌های زیادی برای انجام این کار وجود داره بنابراین چه زمانی باید از کدام روش استفاده کرد؟ چرا این کار رو انجام میدن؟ بودجه کرال چیه؟

شما میخواید این بودجه رو عاقلانه خرج کنن. پس باید برای این کار به اونها دستورالعمل بدین.

روش‌های کنترل کرال و ایندکس موتورهای جست و جو

فایل robots.txt یه مکان مرکزیه که قوانین اساسی رو برای کرال‌ها فراهم می‌کنه. ما به این قوانین اساسی بخشنامه می‌گیم. اگه می‌خواید که کرال‌ها از خزیدن URLهای خاص جلوگیری کنن؛ robots.txt بهترین راه برای انجام این کاره. این بات می‌تونه کنترل کرال موتور جست و جو رو به دست شما بده.

نکته
اگه کرالرها مجاز به کرال URL و درخواست محتوای اون نباشن، ایندکس هرگز نمی‌تونه محتوا و پیوندهای اون رو تجزیه و تحلیل کنه.

این می‌تونه از محتوای تکراری جلوگیری کنه و همچنین به این معنیه که URL مورد نظر هرگز قادر به رتبه بندی نخواهد بود. همچنین به یاد داشته باشین که وقتی موتورهای جست و جو نمی‌دونن چی در صفحه است، نمی‌تونن سیگنال‌های مربوط به موضوع و کیفیت رو تلفیق کنن؛ بنابراین این سیگنال‌ها از بین میرن.

مثالی برای استفاده از robots.txt

بخش سرپرست یه سایت مثال خوبیه که میخواید فایل robots.txt رو برای جلوگیری از دسترسی کرال‌ها به اون اعمال کنین. شما می‌تونین دسترسی کرالرها به این بخش رو با استفاده از دستورالعمل زیر در robots.txt خود مسدود کنین. این برنامه برای کنترل کرال موتور جست و جو مورد استفاده قرار می‌گیره.

یادداشت مهم

لطفاً توجه داشته باشین که URL هایی که امکان جست و جوی اونها توسط موتورهای جست و جو وجود نداره، همچنان می‌تونن در نتایج جست و جو ظاهر بشن. این اتفاق زمانی می‌افته که URLها از صفحات دیگه به اون پیوند خورده باشن. بعد موتورهای جست و جو قطعه‌ای به شما نمایش میدن که صفحه از طریق robots.txt غیرقابل دسترسیه. این برنامه نمی‌تونه مشکلات محتوای تکراری موجود رو حل کنه. موتورهای جست و جو هم به دلیل این که نمی‌تونن به اون دسترسی پیدا کنن، URL رو فراموش نمی‌کنن. به این شیوه کنترل کرال رو به دست بگیرین.

افزودن یه URL متعارف یا یه ویژگی robot meta noindex به یه URL که از طریق robots.txt مسدود شده، اون رو از رده خارج نمی‌کنه. موتورهای جست و جو هرگز از درخواست شما برای deindexing اطلاع نخواهد داشت، چون فایل robots.txt شما رو از کشف این اطلاعات باز میداره. پرونده robots.txt ابزاری اساسی در بهینه سازی بودجه کرال در وب سایت شما است.

در حقیقت با استفاده از این فایل می‌تونین به موتورهای جست و جو بگین که قسمت‌هایی از وب سایت شما رو که برای اونها بی ربطه جست و جو نکنن. این خود به نوعی کنترل کرال و ایندکس موتور جست و جو است.

فایل robots.txt چه کاری انجام خواهد داد؟

  • موتورهای جست و جو رو از کرال قسمت‌های خاصی از وب سایت شما، باز می‌داره. در نتیجه بودجه خزیدن یا کرال رو حفظ می‌کنین. این خود نوعی کنترل کرال موتور جست و جو محسوب میشه.
  • اگه هیچ پیوندی به موتورهای جست و جو ندارین، بخش‌های خاصی از وب سایت شما رو ایندکس نمی‌کنه.
  • از بروز مطالب تکراری جدید جلوگیری می‌کنه.

فایل robots.txt چه کاری انجام نمیده؟

  • تلفیق سیگنال‌های مربوط به موضوع و کیفیت.
  • حذف مطالبی که از قبل ایندکس شدن.

“در حالی که گوگل از دستورالعمل noindex پشتیبانی می‌کنه و URLها رو از فهرست خود حذف می‌کنه. استفاده از این روش توصیه نمی‌شه چون این یه استاندارد غیر رسمیه.” فقط وقتی نمی‌تونین از دستورالعمل‌های ربات‌ها و URLهای متعارف استفاده کنین، از اون استفاده کنین. در آخر باید بگیم که این بات می‌تونه تا حدودی کنترل کرال و ایندکس موتور جست و جو رو به دست شما بده.

دستورالعمل‌های ربات‌ها

با خوندن این بخش کنترل کرال و ایندکس موتور جست و جو رو می‌تونین به دست بگیرین. دستورالعمل‌های ربات‌ها به موتورهای جست و جو می‌آموزه که چطوری صفحات رو ایندکس کنن در حالی که صفحه رو برای بازدیدکنندگان در دسترس نگه می‌دارن. این دستورالعمل‌ها غالباً برای موتورهای جست و جو استفاده می‌شن تا ایندکس صفحاتی خاص. اجرای دستورالعمل‌های ربات‌ها به طور کلی با درج اون در منبع با استفاده از برچسب ربات‌های متا انجام می‌شه. برای اسناد دیگه مثل پی دی اف یا تصاویر، این کار از طریق X-Robots-Tag HTTP header انجام میشه.

مثالی برای استفاده از دستورالعمل‌های ربات‌ها

بگین برای بازدید از گوگل ادورد ترافیک بالایی دارین. شما مطالب رو از صفحات دیگه کپی کرده و سپس کمی تنظیم کردین. شما این نمی‌خواید این صفحات ایندکس بشن چون این امر باعث ایجاد محتوای تکراری می‌شه؛ بنابراین دستورالعمل‌های ربات‌ها رو با ویژگی noindex درج می‌کنین. این در کنترل کرال و ایندکس موتور جست و جو به شما کمک می‌کنه.

یادداشت مهم

دستورالعمل‌های ربات به شما کمک می‌کنه تا از محتوای تکراری جلوگیری کنین اما توجه کنین که ارتباط موضوعی و کیفی رو به URL دیگه‌ای نسبت نمیده. دستورالعمل‌های ربات علاوه بر این که به موتورهای جست و جو دستور نمیدن که صفحه‌ای رو ایندکس کنن، موتورهای جست و جو رو از کرال صفحه منصرف می‌کنن. برخی از بودجه‌های کرال به همین دلیل حفظ می‌شن.

برخلاف نام اون دستورالعمل‌های ربات، ویژگی nofollow بر کرال صفحه‌ای که دارای همین ویژگی هست؛ تاثیری نداره. با این حال زمانی که دستورات ربات، این ویژگی رو تنظیم می‌کنن؛ خزنده‌های موتور جست و جو از لینک‌های این صفحه برای کرال سایر صفحات استفاده نمی‌کنن و قطعاً اختیاراتی به صفحات دیگه نمیدن.

دستورالعمل ربات‌ها چه کاری انجام میدن؟

  • موتورهای جست و جو رو از ایندکس قسمت‌های خاصی از وب سایت شما دور نگه می‌دارن. ( کنترل ایندکس )
  • از مشکلات محتوای تکراری جلوگیری می‌کنن.

دستورالعمل‌های ربات‌ها چه کاری انجام نمیدن؟

  • با حفظ بودجه کرال، موتورهای جست و جو رو از قسمت‌های خاصی از وب سایت شما کرال نمی‌کنن. ( کنترل کرال موتور جست و جو رو با حفظ بودجه ندارن)
  • بیشتر سیگنال‌های کیفی مربوطه رو تلفیق می‌کنن.

URLهای متعارف

یه URL متعارف، نسخه متعارف یه صفحه رو به موتورهای چست و جو ارتباطه میده و موتورهای جست و جو رو تشویق می‌کنه تا نسخه متعارف رو ایندکس کنن. URL متعارف می‌تونه به خود یا سایر صفحات مراجعه کنه. اگه برای بازدیدکنندگان مفیده که می‌تونن به چندین نسخه از یه صفحه دسترسی پیدا کنن بنابراین شما میخواید که موتورهای جست و جو با اونها به عنوان یه نسخه رفتار کنن. URL متداول راهی برای پیشبرد این روش هست. وقتی یه صفحه با استفاده از URL متعارف به یه صفحه دیگه ارجاع داده میشه، بیشترین ارتباط موضوعی و کیفی اون به URL مورد نظر نسبت داده میشه.

مثالی برای استفاده از URL متعارف

بگین که شما یه وب سایت تجارت الکترونیکی دارین که محصولی در سه دسته داره. این محصول از طریق سه URL مختلف قابل دسترسیه. این مسئله برای بازدیدکنندگان خوبه اما موتورهای جست و جو فقط باید روی کرال و ایندکس یه URL متمرکز بشن. یکی از دسته‌ها رو به عنوان دسته اصلی انتخاب کنین و دو دسته دیگه رو به صورت عامیانه در اون قرار بدین. این برای کنترل کرال و ایندکس موتور جست و جو می‌تونه پاسخ خوبی باشه.

یادداشت مهم

اطمینان حاصل کنین که 301 URL رو که دیگه هدفی برای بازدیدکنندگان نداره به نسخه متعارف هدایت کنین. این به شما این امکان رو میده که تمام ارتباط موضوعی و کیفی اونها رو به نسخه متعارف نسبت بدین. این مسئله همچنین کمک می‌کنه تا وب سایت‌های دیگه به نسخه متعارف لینک بدن. یه URL متعارف یه راهنماست نه یه بخشنامه! موتورهای جست و جو می‌تونن اون رو نادیده بگیرن.

استفاده از URL متعارف، هیچ بودجه کرالی رو حفظ نمی‌کنه. چرا؟ چون از کرال صفحات توسط موتورهای جست و جو جلوگیری نمی‌کنه بلکه از ادغام اونها برای درخواست‌های جست و جو به دلیل تلفیق اونها در نسخه متعارف URL جلوگیری می‌کنه.

URL متعارف چه کاری انجام میده؟

  • موتورهای جست و جو رو از ایندکس قسمت‌های خاصی از وب سایت دور نگه می‌داره. ( کنترل ایندکس )
  • از مشکلات محتوای تکراری جلوگیری می‌کنه.
  • بیشتر سیگنال‌های کیفی مربوطه رو تلفیق می‌کنه.

آنچه URLهای متعارف انجام نمیدن

  • از موتورهای جست و جو جلوگیری کنه تا صفحات شما رو کرال نکنن و در نتیجه بودجه کرال شما حفظ بشه.

در این مقاله سعی کردیم شما رو با مفاهیم کرال و ایندکس آشنا کنیم. به شما روش‌هایی برای کنترل کرال و ایندکس موتور جست و جو آموزش دادیم. معایب و مزایای هر روش رو برای کنترل کرال و کنترل ایندکس گفتیم. اگه سوالات متدوالی در مورد کنترل ایندکس و کرال در ذهنتون هست با خوندن این مقاله به جواب خیلی از سوالات خود رسیدین. نظرات و مشکلات خود رو با ما در میون بزارین. اگه سوالی در این مورد دارین بپرسین. متشکرم که تا پایان این مقاله با ما همراه بودین.

Author

مدیریت سایت

Leave a comment

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


The reCAPTCHA verification period has expired. Please reload the page.