مقدمه
امروزه سئو یکی از بهترین روش های بازاریابی در دنیاست و برخی از کسب و کار ها (همچون دیجی کالا) ماهیانه میلیارد ها تومان فقط از سئو درآمد زایی دارند! به همین خاطر است که در مقاله پیش رو یکی از بخش های سئو یعنی robots.txt (به فارسی: ربات تی اکس تی) و اهمیت آن را توضیح می دهیم و به سوالاتی مثل ربات تی اکس تی در کجای هاست هست، نیز پاسخ روشنی دهیم!
نکته: سئو به معنای محبوبیت سایت یا پلتفرم شما نزد موتور های جستجو است! به عبارتی ساده تر زمانی که گوگل وبسایت یا شبکه های اجتماعی شما را در نتایج جستجوی خودش نشان می دهد، بدین معنی است که قوانین سئو را به خوبی رعایت کرده اید.
توصیه می کنیم مقاله آموزش راهنمای ایجاد گوگل آنالیتیکس برای چند سایت را مطالعه نمایید
معرفی robots.txt
یک فایل robots.txt به کراول های موتورهای جستجو می گوید که به کدام URL ها در سایت شما می توانند دسترسی داشته باشند. این ربات عمدتا برای جلوگیری از بارگیری بیش از حد درخواست ها استفاده می شود. و مکانیسمی برای دور نگه داشتن یک صفحه وب از گوگل نیست. برای دور نگه داشتن یک صفحه وب از Google، دسترسی به سایت یا صفحه را با noindex مسدود کنید یا صفحه را با رمز عبور غیر قابل دسترس کنید.
نکته: کراول (crawl) یا کراول به ربات هایی از موتور های جستجو گفته می شود که مسئول بررسی وبسایت شما هستند.
فایل robots.txt برای چه مواردی استفاده می شود؟
قبل از اینکه به این سوال بپردازیم که ربات تی اکس تی در کجای هاست هست، بیایید از کاربرد آن صحبت کنیم. فایل robots.txt عمدتاً برای مدیریت ترافیک کراول های سایت ها و معمولاً برای بررسی نشدن برخی فایل ها توسط گوگل، به وجود آمده است.
درک محدودیت های فایل robots.txt
قبل از ایجاد یا ویرایش فایل robots.txt، باید محدودیتهای این روش مسدود کردن URL را بشناسید. بسته به اهداف و موقعیت خود، ممکن است بخواهید مکانیسم های دیگری را در نظر بگیرید تا مطمئن شوید URL های شما در وب قابل جستجو یا پیدا شدن نیستند.
• دستورات ربات تی اکس تی احتمال دارد توسط همه موتورهای جستجو پشتیبانی نشود!
دستورالعملهای موجود در فایلهای robots.txt نمیتوانند کراول ها را وادار به انجام کاری در سایت کنند. این به خود کراول بستگی دارد که از دستورات پیروی کند یا خیر. در حالی که Googlebot و سایر کراولهای وب معتبر از دستورالعملهای فایل robots.txt پیروی میکنند، کراولهای دیگر ممکن است این کار را نکنند. بنابراین، اگر میخواهید اطلاعات را از کراولهای وب مخفی نگه دارید، بهتر است از روشهای مسدودسازی دیگر مانند محافظت از فایلهای خصوصی با رمز عبور روی هاست خود استفاده کنید.
• کراول های مختلف شکل ظاهری کدها را متفاوت تفسیر می کنند.
اگرچه کراولهای وب معتبر دستورالعملهای موجود در فایل robots.txt را دنبال میکنند، اما هر کراول ممکن است دستورالعملها را متفاوت تفسیر کند. شما باید ظاهر کدی مناسب برای آدرس دادن به کراول های وب مختلف را یاد بگیرید زیرا برخی کراول ها ممکن است دستورالعمل های خاصی را درک نکنند.
• صفحهای که در robots.txt غیرمجاز تلقی شده اند، در صورت لینک به سایتهای دیگر همچنان میتواند ایندکس شوند!
اگرچه Google محتوای مسدود شده توسط یک فایل robots.txt را بررسی و ایندکس نمیکند، اما گوگل ممکن است URL که قرار بوده بررسی نشود را در صورتی که از مکانهای دیگر وب به آن لینک داده شده باشد، پیدا کرده و ایندکس کند. در نتیجه، آدرس URL و احتمالاً سایر اطلاعات عمومی در دسترس مانند anchor text در لینک های صفحه همچنان می توانند در نتایج جستجوی Google باشند. برای جلوگیری از نمایش URL خود در نتایج جستجوی Google به درستی، از فایل های سرور خود با رمز عبور محافظت کنید، از متا تگ noindex کمک بگیرید و یا صفحه را به طور کامل حذف کنید.
حال بیایید نحوه ایجاد فایل ربات تی اکس تی و اینکه ربات تی اکس تی در کجای هاست هست را بیاموزیم.
نحوه ایجاد ربات تی اکس تی در هاست
نکته: از آنجایی که بیشتر وبسایت ها با وردپرس و php ساخته شده اند در این آموزش، پنل هاست، سی پنل در نظر گرفته شده است.
برای ایجاد فایل robots.txt خود (اگر قبلاً چنین فایلی ندارید)، مراحل زیر را دنبال کنید:
1. وارد حساب سی پنل خود شوید.
2. به قسمت FILES رفته و روی File Manager کلیک کنید.
3. از File Manager به دایرکتوری وب سایت (به عنوان مثال public_html) بروید، سپس روی “New File” کلیک کنید >>”robots.txt” تایپ کنید >> و روی “Create New File” کلیک کنید.
4. اکنون می توانید با دوبار کلیک کردن روی فایل ساخته شده، محتوای این فایل را ویرایش کنید.
توجه: شما می توانید تنها یک فایل robots.txt برای هر دامنه ایجاد کنید. دو ربات تی اکس تی در مسیر ریشه هاست مجاز نیستند. هر دامنه یا زیر دامنه باید حاوی فایل robots.txt خودش باشد.
نمونه هایی از نحوه کدنویسی در ربات تی اکس تی
معمولاً یک فایل robots.txt حاوی یک یا چند دستور است که هر کدام در خطی جداگانه هستند. هر قانون دسترسی به یک کراول مشخص را به یک مسیر فایل معین یا کل وب سایت مسدود می کند و یا بالعکس به این مسیر ها اجازه دسترسی موتور های جستجو را می دهد.
• همه کراول ها را از دسترسی به logs و فهرست های SSL مسدود کنید:
User-agent:*
Disallow: /logs/
Disallow: /ssl/
• همه کراول ها را از بررسی یا ایندکس کل سایت منع کنید:
• User-agent: *
• Disallow: /
به تمامی کاربران اجازه دهید، به سایت تان دسترسی داشته باشند:
User-agent: Bot1
Disallow: /
به یک کراول مشخص اجازه ایندکس و بقیه را از ایندکس کردن سایت منع می کند:
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
در قسمت User-agent: می توانید نام کراول خاص را تایپ کنید. شما همچنین می توانید تمام کراول ها را به سادگی با تایپ علامت ستاره (*) بجای نام یکی از آنها انتخاب کنید. دقیقا با این دستور می توانید تمام کراول ها را به جز کراول های AdBot که باید به صراحت از آنها نام ببرید فیلتر کنید. می توانید لیستی از تمام کراول ها را در اینترنت پیدا کنید.
علاوه بر این، برای اینکه دستورات Allow و Disallow فقط برای یک فایل یا پوشه خاص کار کنند، باید همیشه نام آنها را بین “/” قرار دهید.
توجه کنید که چگونه هر دو دستور به حروف بزرگ و کوچک حساس هستند؟ به خصوص مهم است که بدانید، تنظیمات پیشفرض عوامل کراول به گونهای است که اگر توسط دستور Disallow: مسدود نشده باشد، میتوانند به هر صفحه یا فهرستی دسترسی داشته باشند.