خطای crawl گوگل وبمستر تولز

 ﺳﻪشنبه 19 آبان 1394

یکی از کاربران سایت پرسیده است :

با سلام و خسته نباشید و ممنون از مقالات ارزشمند.سایت من اصلا صفحات جدید ایندکس نمیکند و اصلا فایل robots.txt نساختم و چند روز یه پیغام ارور در بخش crawel نیز داده شده که به این صورت Google couldn't crawl your site because we were unable to access your site's robots.txt file ممنون از راهنمایی شما

در پاسخ به سوال فوق لازم است در مورد فایل robots.txt توضیحاتی داده شود: این فایل در شاخه اصلی وب سایت باید قرار داده شود و در این فایل دستوراتی قرار میگیرند که ما به روباتهای جستجوگر اعلام می کنیم که به کدام بخش از سایت ما دسترسی ندارند. در واقع ما دسترسی ایندکس شدن مطالب سایت خود در بخش های مختلف سایت را از موتورهای جستجو سلب می کنیم.

به عنوان مثال ما تمایلی نداریم اطلاعات بخش مدیریت سایت، یا بخش کاربران سایت در گوگل و سایر موتورهای جستجو ایندکس شود و با قراردادن دستور زیر اجازه نمی دهیم که اطلاعات بخش admin سایت ایندکس شود :

User-agent: *
Disallow: /admin

در گذشته طراحان سایت ایندکس کردن بخش هایی مرتبط با جاوا اسکریپت و css را نیز غیرفعال میکردند، اما با تغییر مرورگر گوگل از Lynx به مرورگر مدرنی که برای تحلیل کارکرد سایت در موبایل طراحی شده است، این کار نباید انجام شود و در صورت انجام چنین کاری خطا دریافت خواهید کرد.

علاوه بر فایل robots.txt برای غیر فعال کردن دسترسی روبات گوگل می توان از متا تگ nonindex نیز استفاده کرد که به صورت زیر می تواند در بخش head سایت تعریف شود :

<meta name="robots" content="noindex">

بخش نام متا تگ robots تعریف شده و در بخش content نیز مقدار noindex قرار می گیرد. در پاسخ به سوالی که این دوست عزیز پرسیده است باید گفت که در چنین حالتی دو اتفاق ممکن است رخ داده باشد : اتفاق اول اینکه دسترسی روبات گوگل از طریق متا تگ محدود شده است، در حالت دوم که به ندرت اتفاق می افتد، شخصی که در وبمسترتولز به عنوان مدیر سایت تعریف شده از بخش remove url صفحه اصلی سایت را حذف کرده است، که در این حالت برای حل مشکل از طریق وبمسترتولز باید اقدام کرد.

مطالب مرتبط
مطالب من را در شبکه های اجتماعی دنبال کنید:
دیدگاه خود را با ما در میان بگذارید
امتیاز:
captcha