سئو مثه یه دریای خیلی بزرگ و عمیق هست. حالا به نظرتون چرا ما سئو رو اینجوری توصیف می کنیم؟ هر کسی که با طراحی وب یا وبمستری آشنایی داشته باشه، میدونه که سئو پر از اصطلاحات و تعاریف مختلفه. برای درک کامل سئو، باید برخی از اصطلاحات اساسی و پایه ای سئو رو بدونیم.
در واقع به جرات میتونیم بگیم که تمام دنیای وب بر پایه این دو تا عبارت بنا شده و به اونها وابسته هست. اگه فردی هستین که با مفهوم این عبارات آشنایی کامل نداره یا دوست دارین اطلاعات خودتون رو در این زمینه افزایش بدین، در ادامه با ما همراه باشین. ما در این مقاله، مفصل براتون میگیم که ایندکس گوگل چیه و بهترین روش های دستیابی به google index چی هستن؟ بهتون پیشنهاد می کنیم همچنین برای آشنایی بیشتر با google crawling از مطلب زیر استفاده کنین.
ایندکس گوگل دقیقا چیه؟
به طور کلی گوگل برای ایجاد نتایج از صفحات وب، سه مرحله اصلی رو دنبال میکنه:
- Crawling
- Indexing
- Serving (and Ranking)
اولین مرحله، فهمیدن اینه که چه صفحاتی در وب موجود هستن. از اونجایی که یه رجیستری مرکزی برای تمام صفحات وب وجود نداره، بنابراین گوگل باید دائما صفحات جدید رو جستجو کنه و اونها رو به لیست صفحات شناخته شده و معروف خودش اضافه کنه. تعدادی از صفحات، شناخته شده هستن چون گوگل قبلا از اونها بازدید کرده. وقتی گوگل یه لینک رو از یه صفحه شناخته شده به یه صفحه جدید دنبال میکنه، سایر صفحات نیز کشف میشن. همچنین، اگه یه مالک وبسایت یه لیست از صفحات سایت خودش (sitemap) رو به گوگل پیشنهاد بده، گوگل اون صفحات رو هم به نتایج خودش اضافه میکنه. در صورتی که از یه هاست وب مدیریت شده مثه Wix یا Blogger استفاده کنین، اونها به گوگل اطلاع میدن که هر صفحه ای رو که به روز رسانی میکنین یا هر صفحه ی جدیدی رو که ایجاد میکنین، جستجو و یا crawl کنه.
وقتی که گوگل، URL یه صفحه رو کشف میکنه، از اون بازدید میکنه و اونو crawl میکنه تا بفهمه دقیقا در مورد چیه. گوگل، صفحه رو ترجمه میکنه و متن و محتوای غیرمتنی و طرح کلی تصویری اونو تجزیه و تحلیل میکنه تا تصمیم بگیره در نتایج جستجو اون صفحه کجا باید نشون داده بشه. در کل هر چی google بهتر بتونه سایتتون رو بفهمه و بشناسه، بهتر میتونین سایت رو با افرادی که به دنبال محتوای شما هستن، تطابق بدین.
بعد از تمامی این کارها، نوبت به Google Indexing میرسه. همونطور که گفته شد گوگل بعد از کشف یه صفحه، تلاش میکنه که بفهمه اون صفحه درباره چیه. به این کار گوگل، Indexing یا فهرست بندی گفته میشه. گوگل محتوای صفحه رو آنالیز میکنه، تصاویر و فایل های ویدئویی قرار داده شده در صفحه رو فهرست بندی میکنه، و علاوه بر این سعی میکنه به درک و فهم درستی از صفحه دست پیدا کنه. تمامی این اطلاعات در Google Index (یه دیتابیس عظیم ذخیره شده در تعداد خیلی زیادی کامپیوتر) ذخیره میشه. وقتی شخصی یه چیزی رو در گوگل سرچ میکنه، از گوگل میخواد که تمامی صفحات مرتبط رو از google index نشون بده. از اونجایی که ممکنه میلیون ها صفحه مرتبط با سرچ وجود داشته باشن، الگوریتم رتبه بندی گوگل یا Google’s ranking algorithm به بهترین شکل عمل میکنه تا صفحات رو جوری مرتب سازی کنه که ابتدا بتونین بهترین و مرتبط ترین نتایج رو مشاهده کنین. تا اینجای کار احتمالا متوجه شدین که ایندکس گوگل چیه و چه جوری تعریف میشه. در ادامه به توضیحات بیشتری در این باره میپردازیم.
فهرست جستجوی گوگل یا Google Search Index حاوی صدها میلیارد صفحه وب با اندازه و حجمی بیش از صد میلیون گیگابایت هست. Google برای اینکه بتونه محتوا و مفهوم هر صفحه رو بفهمه از Googlebot استفاده میکنه. این ربات میتونه محتوای متنی، ویژگی ها و برچسب های محتوای کلیدی مثل برچسب (title) و ویژگی alt، تصاویر، ویدئوها و چیزهای خیلی بیشتری رو پردازش کنه. Googlebot نمیتونه همه انواع محتوا رو پردازش کنه، اما تعداد زیادی از اونها رو میتونه. به عنوان مثال، قادر به پردازش محتوای تعدادی از فایل های رسانه ای مهم نیست.
یه جایی بین crawling و indexing، گوگل میتونه تشخیص بده اگه یه صفحه کنونیکال نباشه. اگه مشخص بشه که یه صفحه کپی هستش، اون صفحه خیلی کمتر crawl میشه و در واقع گوگل خیلی کمتر ازش استفاده میکنه. صفحات کنونیکال همگی با همدیگه در یه Document گروه بندی میشن، و یه گروه که شامل 1 یا تعداد بیشتری از صفحات هست، یه صفحه یکسان (به عنوان ویژه ترین از گروه) و تعدادی صفحات کپی رو شامل میشه.
از کجا بفهمیم که وبسایت ما در گوگل ایندکس شده یا نه؟
در واقع هر وبسایتی خواهان اینه که در نتایج سرچ گوگل قرار داشته باشه و بتونه در اون، جایگاه خودش رو کسب کنه. همونطور که گفته شد بعد از crawling نوبت به indexing میرسه و اگه گوگل شما رو ایندکس نکنه، صفحات و وبسایتتون شانس خیلی کمتری برای دیده شدن دارن و اصن انگار وجود ندارن. پس همیشه سعی کنین که به ایندکس شدن در گوگل اهمیت زیادی بدین. حالا برای اینکه مطمئن بشین که آیا صفحات وبسایت شما در گوگل ایندکس شده یا نه، ما دو تا روش رو در اختیارتون قرار میدیم. توجه داشته باشین که روش دوم فقط برای کاربران Google Search Console قابل استفاده هست.
1. استفاده از سرچ سایت گوگل
- به سایت Google برین، سپس در باکس جستجو آدرس وبسایت خودتون رو به این شکل وارد کنین: site:your website.com (در بخش your website آدرس وبسایت خودتون رو قرار بدین_ در تصویر زیر ahrefs به عنوان یه وبسایت برای مثال قرار گرفته)
- عددی که در تصویر بالا بهش اشاره شده نشون میده که تقریبا چه تعدادی از صفحات شما در گوگل ایندکس شدن.
- اگه قصد دارین که وضعیت ایندکس یه URL خاص رو چک کنین، مجداد مثل قبل آدرس رو به این شکل وارد کنین: site:your website.com/web-page-slug
- در صورتی که هیچ نتیجه ای نشون داده نشد، به این معنیه که صفحه و URL مورد نظر شما ایندکس نشده.
2. استفاده از کنسول سرچ گوگل
اگه شما کاربر Google Search Console هستین، میتونین با استفاده از گزارش Coverage، اطلاعات دقیق تری از وضعیت ایندکس وبسایت خودتون بدست بیارین.
- در Google Search Console به بخش Index وارد بشین و بعد به بخش Coverage برین.
- به شماره صفحات Valid نگاه کنین. تعداد صفحات Valid با هشدار یا بدون هشدار رو هم توجه کنین (Valid with warnings,Valid without warnings).
- اگه مجموع این دو عدد هر چیزی به غیر از صفر باشه، گوگل حداقل تعدادی از صفحات وبسایتتون رو ایندکس کرده. اما در صورتی که مجموع دو عدد صفر باشه، شما با مشکل جدی روبرو هستین چون که هیچ کدوم از صفحات وبساییتون ایندکس نشده.
- همچنین میتونین با استفاه از کنسول سرچ، یه صفحه خاصی رو چک کنین که آیا ایندکس شده یا نه؟ برای انجام این کار URL مورد نظر خودتون رو در قسمت URL Inspection پیست کنین.
- اگه صفحه مورد نظرتون ایندکس شده باشه، این پیغام براتون ارسال میشه: URL is on Google
- اگه صفحه مورد نظرتون ایندکس نشده باشه، چنین پیغامی براتون فرستاده میشه: URL is not on Google
چه جوری در گوگل Index بشیم؟
اگه بعد از انجام مراحل بالا متوجه شدین که صفحات یا وبسایتتون در گوگل ایندکس نشدن، ما بهترین روش های دستیابی به google index رو در ادامه بهتون ارائه میدیم. باید طبق مراحل زیر پیش برین و کاری کنین که گوگل صفحات شما رو هم ایندکس کنه.
- به Google Search Console برین.
- وارد ابزار Inspection tool بشین.
- URL مورد نظرتون که قصد دارین در گوگل ایندکس بشه رو در بخش سرچ پیست کنین.
- مدتی منتظر بمونین تا گوگل، URL وارد شده رو بررسی کنه.
- سپس بر روی Request indexing کلیک کنین.
این فرآیند یه تمرین خوب هست برای وقتی که شما یه پست یا یه صفحه جدید رو منتشر میکنین. در واقع از این راه به طور مؤثر به گوگل میگین که یه چیز جدیدی رو به سایتتون اضافه کردین و اونها باید یه نگاهی بهش بندازن. با این وجود، درخواست ایندکس شدن یا همون Request indexing به احتمال خیلی کم مشکلات اساسی که گوگل از ایندکس شدن صفحات قدیمی جلوگیری میکنه رو میتونه حل کنه. در این صورت برای تشخیص و برطرف کردن مشکلات، موارد زیر رو دنبال کنین.
1. حذف کردن موانع Crawl در فایل robots.txt
اگه همچنان گوگل کل وبسایت شما رو ایندکس نکرده این میتونه به علت یه مانع crawl یا crawl block در چیزی که بهش فایل robots.txt گفته میشه، باشه.
برای بررسی کردن این موضوع ابتدا باید به این لینک برین: yourdomain.com/robots.txt. پس از ورود به لینک به دنبال دو تا کد به شکل زیر بگردین.
هر دوی این کدها به Googlebot میگن که اونها اجازه به crawl هیچ صفحه ای از وبسایت شما رو ندارن. برای رفع این مشکل، این کدها رو حذف کنین و از بین ببرین. به همین سادگی (:
اگه گوگل یه صفحه از وب رو ایندکس نکنه، یه مانع crawl در robots.txt هم میتونه مقصر باشه. برای بررسی کردن اینکه آیا چنین موردی وجود داره یا نه، باید در قسمت Inspection tool موجود در کنسول سرچ گوگل، URL رو پیست کنین. سپس بر روی Coverage برای نشان دادن جزئیات بیشتر کلیک کنین و به دنبال این خطا بگردین: Crawl allowed?No:blocked by robots.txt. این خطا آشکار میکنه که صفحه شما در robots.txt مسدود شده. در این صورت، فایل robots.txt خودتون رو مجددا چک کنین و هر جا که قوانین <> مربوط به صفحه یا زیرمجموعه مرتبط مشاهده کردین، اونها رو حذف کنین.
2. حذف کردن برچسب های بی ارزش noindex
گوگل در صورتی که بهشون بگین تعدادی از صفحات مورد نظر وبسایت شما رو ایندکس نکنه، این کار رو انجام میده و اون صفحات رو ایندکس نمیکنه. این کار برای خصوصی نگه داشتن بعضی از صفحات وب سودمند هست. حالا دو تا راه برای انجام این کار وجود داره:
- روش meta tag
- روش X-Robots-Tag
1. روش meta tag
صفحاتی که هر کدوم از meta تگ ها رو در قسمت خودشون داشته باشن، توسط گوگل ایندکس نمیشن. تصویر زیر یه تگ meta robots هست، و این تگ به موتورهای جستجو میگه که آیا اونها میتونن صفحه رو ایندکس کنن یا نه (Index or Noindex)
برای اینکه بفهمین کدوم صفحات در وبسایت شما دارای یه متا تگ noindex هستن، باید از طریق Site Audit وبسایت خودتون یه crawl ایجاد کنین: your website.com/site-audit. سپس به قسمت گزارش Indexability برین و به دنبال خطاهای صفحات ایندکس نشده یا Noindex page بگردین. وقتی این گزینه رو پیدا کردین، روی اون کلیک کنین تا مشاهده کنین چه تعدادی از صفحات وبسایتتون این تگ رو دارن. متا تگ noindex رو از صفحاتی که نمیخواین این برچسب رو داشته باشن و در واقع تمایل دارین که در گوگل ایندکس بشن، حذف کنین. از این طریق میتونین به صفحات ساییتون کمک کنین که در گوگل ایندکس بشن.
2. روش X-Robots-Tag
خزنده ها یا Crawlers همچنین به قسمت پاسخ X-Robots-Tag HTTP توجه میکنن. برای این کار میتونین از یه زبان برنامه نویسی مخصوص سرور مثل PHP استفاده کنین یا در فایل htaccess خودتون یا با تغییر در پیکربندی سرور خودتون این کار رو انجام بدین. URL inspection tool در بخش کنسول سرچ بهتون میگه که آیا گوگل یه صفحه رو به علت header یا عنوانش crawling نمیکنه. URL خودتون رو وارد کنین و در صورتی که مشاهده کردین در پاسخ به سوال <> با خطایی به شکل زیر مواج شدین، نشون میده که صفحاتتون ایندکس نشدن.اگه میخواین این مسئله رو در کل سایتتون حل کنین، از طریق Site Audit وبسایتتون یه crawl ایجاد کنین، در صفحه اکسپلور گزینه << Robots information in HTTP header>> انتخاب کنین. به توسعه دهنده خودتون بگین که صفحاتی که قصد دارین ایندکس بشن از این قسمت بازگشت یا returning header رو در نظر نگیره تا اون صفحات امکان ایندکس شدن در گوگل رو داشته باشن.
تا اینجا قطعا با اهمیت ایندکس گوگل برای بالا رفتن بازدید صفحات سایت خودتون آشنایی پیدا کردین و جواب سوال «ایندکس گوگل چیه؟» رو هم پیدا کردین. اگه به هر دلیلی متوجه شدین که صفحات وبسایتتون در گوگل ایندکس نشدن، سعی کنین که از روش های دستیابی به گوگل ایندکس استفاده کنین و تمام تلاشتون رو بکنین تا صفحات شما در گوگل ایندکس بشن تا بتونین بهتر دیده بشین. هر سوالی که در این زمینه دارین و یا هر تجربه ای که از Google Indexing دارین در کامنت ها با ما به اشتراک بذارین.