مقالات آموزشی

علت مهم بودن فایل robot.txt و لزوم داشتن آن چیست؟

مفید بود؟

این فایل به عنوان صادر کننده مجوز به ربات ها فعالیت می‌کند. زمانی که یک سایت بخواهد توسط ربات ها مورد بررسی قرار گیرد، ابتدا فایل robot.txt فراخوانی و بررسی می‌شود. در این فایل، دستوراتی اجرا می‌شود که به ربات اجازه دسترسی به صفحات خاصی را می‌دهد. یعنی ربات ها، قادر به بررسی هر صفحه ای نیستند و دسترسی آن ها توسط این فایل داده می‌شود. یکی از مهم ترین ربات هایی که در حال حاضر وجود دارد، ربات های جستجوگر گوگل است.

لزوم داشتن فایل  robot.txt

از مهم ترین ملزوماتی که صاحب هر وبسایتی باید داشته باشد، ابزار کنترل‌گری است که ورود ربات ها را کنترل کند. البته این کنترل کردن نیز بی دلیل نیست و دلایل مربوط به خود را دارد. بگذارید برایتان مثالی بزنیم. هیچکدام از صفحات وب سایت، با هم از لحاظ ارزش و اهمیت، برابر نیستد و تفاوت هایی دارند.

 دسترسی های ربات ها به صفحات وب سایت

حتی وب مستران، علاقه ای ندارند که پنل مدیریتی آن ها در دسترس کاربران قرار بگیرد. یا اگر یک سایت پر بازدیدی دارید، ممکن است نگران این باشید که ظرفیت سایت شما از جمله پهنای باند آن، برای بازدید ربات ها مصرف شود. در این صورت، فایل robot.txt به کمک شما خواهد آمد.

 

 

این فایل باعث می‌شود تا دسترسی های ربات ها به صفحات وب سایتمان محدود شود یا توسط آن دسترسی های مخصوص خود را داشته باشد. برای مثال اگر یک ربات بخواهد روزی پانصد بار از صفحه سایت ما بازدید کند، توسط فایل robot.txt مانع این کار می‌شویم و تعداد دفعات بازدید آن را کاهش می‌دهیم

آیا فایل robot می‌تواند نتایج جستجو را پاک کند؟

یکی از کار هایی که تا به امروز برای جلوگیری از نمایش یک صفحه از وب سایت خود انجام می‌دادید، استفاده از دستور No index بود. این دستور باعث می‌شد تا صفحه مورد نظر وب سایت، از دید و دسترس ربات ها دور باشد. ولی یکی از مشکلات این دستور این است که صفحه مد نظر ما را از نتایج جستجو گوگل، پنهان و حذف نمی‌کند و همچنان در نتایج باقی می‌ماند.

 مخفی سازی نتایج جستجو

اخیرا گوگل اعلام کرده است که به هیچ عنوان از فایل robot.txt جهت حذف نتایج جستجو استفاده نشود. البته فعلا این فایل برای خارج کردن فایل های مدیا از نتایج جستجو می‌توان استفاده کرد. ولی برای صفحات وب، راه خوبی نیست. در ادامه به معرفی بهترین راه های جایگزین برای مخفی سازی نتایج جستجو و حذف آن ها از گوگل را معرفی خواهیم کرد. پس با ما همراه باشید.

دلیل اهمیت فایل robot.txt

این فایل اهمیت هایی دارد که در ادامه به آن ها اشاره می‌کنیم.

1- جلوگیری از مصرف بیشتر ترافیک توسط ربات ها

برای این که ربات ها از ترافیک وب سایت، بیش از اندازه استفاده نکنند، فایل robot.txt می‌تواند این کار را انجام دهد. زیرا عده ای از ارائه دهنده های سرور، پهنای باند کمی دارند و اگر از این اشغال سازی بیش از حد جلوگیری نشود، ممکن است با مشکل رو به رو شویم. این مشکل می‌تواند کاهش سرعت وب سایت یا عدم بارگذاری بعضی از صفحات باشد.

2- جلوگیری از نمایش بعضی از صفحات و فایل ها در جستجوی گوگل

البته این موضوع را خاطر نشان شویم که هیچ تضمینی بر روی این نتیجه وجود ندارد که فایل ها یا صفحاتی که توسط فایل robot.txt محدود به بازدید توسط ربات ها شده اند، حتما عمل خواهد کرد. ممکن است که همان صفحات، توسط ربات ها دوباره ایندکس شوند. به همین دلیل گفتیم که برای جلوگیری از نمایش صفحات در نتایج جستجو بهتر است از دستور No index استفاده شود.

 

 

اگر وب سایت شما به صورت دستی طراحی شده است، با قرار دادن این دستور در قسمت کد های head می‌توانید این کار را انجام دهید. یا اگر توسط وردپرس، وب سایت خود را طراحی کرده اید می‌توانید توسط افزونه های مخصوص، نسبت به مخفی سازی صفحات مورد نظر خود اقدام کنید.

3- مدیریت ربات خزنده 

زمانی که وب سایت شما دارای صفحات زیادی باشد، ربات ها زمان کافی برای خزیدن در بین صفحات را نخواهند داشت. به همین دلیل ممکن است که رتبه وب سایت شما در گوگل کاهش یابد. یک اصطلاحی به نام  Crawl Budget وجود دارد که در آن ربات گوگل در طی مدت یک روز، صفحاتی را  بررسی است. این ربات می‌تواند آمار زیادی از وب سایت شما به دست آورد که باز هم توسط فایل robot.txt می‌توانید آن را محدود کنید.

فایل robot.txt چه محدودیت هایی دارد؟

زمانی که شما دستور العملی را در داخل فایل robot.txt استفاده می‌کنید، ممکن است که توسط عده ای از ربات های موتور جستجو، اطاعت نشوند. زیرا ساختار آن ها با یکدیگر متفاوت است. به عنوان مثال ممکن است که این دستورات توسط ربات های موتور گوگل اجرا شوند ولی به احتمال زیاد این دستورات در موتور های جستجوی دیگری مانند Bing اجرا نشوند.

نتایج در جستجوی گوگل ایندکس

مشکل دیگری که ممکن است برای ربات ها به هنگام اجرای این فایل، پیش بیاید این است که شاید بعضی از ربات ها، دستوراتی را نتوانند اجرا کنند. یا به عبارتی ممکن است قابل فهم برای ربات دیگری نباشد. یکی دیگر از محدودیت هایی که شامل حال فایل robot.txt می‌شود این است که ممکن است با وجود دستور عدم بررسی بعضی از صفحات توسط ربات ها، باز هم نتایجی پس از جستجو در گوگل ایندکس شوند. حتی اگر شما دستور No Index را در فایل robot استفاده کنید، باز هم نتایج در جستجوی گوگل ایندکس خواهند شد.

 

دستورات فایل robot.txt 

به صورت کلی، 4 دستور در فایل robot.txt وجود دارد که در ادامه به آن ها اشاره خواهیم کرد.

  • 1- دستور User-agent : این دستور، رباتی را مشخص می‌کند که دستورات برای آن نوشته شده است.
  • 2- دستور Disallow : توسط این دستور، به ربات فهمانده می‌شود که قسمت هایی که ذکر شده، نباید بررسی شوند.
  • 3- دستور Allow : این دستور به ربات اجازه دسترسی به بخش های مورد نظر را می‌دهد.
  • 4- دستور Sitemap : توسط این دستور، آدرس فایل نقشه سایت به ربات ها ارائه می‌شود

در این نوشته کردیم تا کاربرد فایل robot.txt را برایتان شرح دهیم و نحوه کارکرد آن را نیز برایتان آشکار کنیم. امیدواریم که این مطلب برایتان مفید واقع شده باشد.

Author

مدیریت سایت

Leave a comment

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


The reCAPTCHA verification period has expired. Please reload the page.