به لطف بخش Not indexed در گزارش Pages کنسول جستجوی گوگل، می توانید اطلاعات زیادی درباره وب سایت خود و نحوه تعامل Googlebot با آن بیاموزید. این موضوع می تواند به شما کمک کند تا مسائل فنی مختلف سئو را قبل از تبدیل شدن به یک فاجعه واقعی، شناسایی کنید. کنسول جستجوی گوگل به شما امکان می دهد به وب سایت خود از دید گوگل نگاه نمایید و اطلاعاتی در مورد عملکرد آن و جزئیات مربوط به تجربه کاربری صفحات، مسائل امنیتی، خزیدن یا ایندکس شدن، دریافت کنید.
بخش Not indexed در گزارش Pages کنسول جستجوی Google، اطلاعاتی در مورد وضعیت ایندکس شدن صفحات وب سایت شما، ارائه می دهد. در ادامه مقاله، مشکل صفحات Not indexed یا ایندکس نشده را در سرچ کنسول گوگل و نحوه رفع آنها، بیان شده است.
گزارش بخش Pages چیست؟
گزارش Pages در Google Search Console، اطلاعات دقیقی در مورد وضعیت ایندکس شدن صفحات وب سایت شما، ارائه می دهد.
صفحات وب شما می توانند در یکی از دو دسته زیر قرار گیرند:
- Indexed: صفحاتی که گوگل ایندکس می نماید.
- Not indexed: صفحاتی که گوگل نمی تواند ایندکس کند. شما باید این بخش از گزارش را بررسی کنید.
تصویر(1)
منظور از صفحات Not indexed یا "ایندکس نشده" چیست؟
گوگل صفحات موجود در دسته Not indexed را ایندکس نخواهد کرد و تصور میکند این صفحات باید از نتایج جستجوی گوگل حذف شوند و هدف کاربر نیز همین است. عنوان صفحات غیرقابل ایندکس شدن که به Google نیز ارسال نشده اند، به شکل زیر خواهند بود:
تصویر(2)
با این حال، گوگل همیشه این کار را به درستی انجام نمی دهد و صفحاتی که باید ایندکس شوند، گاهی اوقات در بخش Not indexed قرار می گیرند. خوشبختانه کنسول جستجوی گوگل، دلیل قرار دادن صفحات در بخش های خاص و مشکل صفحات Not indexed یا ایندکس نشده را مشخص می کند. به همین دلیل، بررسی دقیق صفحات موجود در بخش های مختلف، مهم است.
دلایل احتمالی حذف صفحات از نتایج جستجو
15 دلیل احتمالی وجود دارد که صفحات شما از گوگل حذف شوند. در ادامه هر یک از آنها به صورت دقیق بررسی شده اند.
Excluded by ‘noindex’ tag
این صفحات، آدرسهایی می باشند که دارای تگ noindex هستند. گوگل تصور می کند که شما می خواهید این صفحات را از نتایج جستجو حذف کنید زیرا آنها را در نقشه سایت XML قرار نداده اید. به عنوان مثال، برخی از آنها می توانند شامل صفحات ورود، صفحات ناحیه کاربری یا صفحات نتایج جستجو باشند.
تصویر(3)
اقدامات پیشنهاد شده:
- این URL ها را بررسی کنید تا مطمئن شوید که آیا می خواهید آنها را از نتایج جستجو گوگل حذف نمایید یا خیر.
- بررسی کنید که آیا برچسب "noindex" هنوز در آن URL ها وجود دارد یا خیر.
Crawled - currently not indexed
گوگل این صفحات را خزیده اما هنوز آنها را ایندکس نکرده است.
همانطور که گوگل در مستندات خود ذکر می کند، URL های موجود در این بخش ممکن است در آینده ایندکس شوند یا نشوند. نیازی به ارسال مجدد درخواست خزیدن برای این URL ها نیست. بسیاری از متخصصان سئو متوجه شده اند که اگر تعداد زیادی از صفحات معمولی و قابل ایندکس شدن، در بخش Crawled - currently not indexed قرار گیرند، نشان دهنده مشکلات کیفی جدی در سایت است. گزارش مشکل صفحات Not indexed یا ایندکس نشده می تواند به این معنی باشد که گوگل این صفحات را خزیده اما تصور نمی کند که ارزش کافی برای ایندکس شدن، داشته باشند.
تصویر(4)
اقدامات پیشنهاد شده:
- وب سایت خود را از نظر کیفیت و E-A-T بررسی کنید.
Discovered – Currently Not Indexed
بر اساس مستندات گوگل، صفحات Discovered – Currently Not Indexed، توسط گوگل پیدا شده اما هنوز خزیده نشده اند. گوگل این صفحات را به دلیل بالا رفتن بیش از حد لود سرور، نمی خزد. اگر تعداد مشکل صفحات Not indexed یا ایندکس نشده زیادی از صفحات سایت در این بخش قرار گیرند، می تواند نشان دهنده این باشد که سایت شما با مشکل نرخ خزش مواجه است.
تصویر(5)
اقدامات پیشنهاد شده:
- سلامت سرور خود را بررسی کنید.
(Not Found (404
مشکل صفحات Not indexed یا ایندکس نشده در این بخش این است که در پاسخ به درخواست گوگل، کد وضعیت 404 را برگشت داده اند. صفحات موجود در این بخش، به Google ارسال نشده اند (یعنی در نقشه سایت XML موجود نیستند) اما در عوض، گوگل این صفحات را یافته است.
تصویر(6)
اقدامات پیشنهاد شده:
- این صفحات را بررسی نموده و یک ریدایرکت 301 به صفحه مرتبط تنظیم کنید.
Soft 404
Soft 404 در بیشتر موارد، یک صفحه خالی است که کد وضعیت (OK (200 را برمی گرداند.
از طرف دیگر، میتواند صفحهای ساده باشد که بدون محتوا یا حاوی محتوای کم است و از کلماتی مانند «متاسفم»، «خطا»، «یافت نشد» و غیره استفاده کند.
تصویر(7)
اقدامات پیشنهاد شده:
- در صورت وجود مشکل صفحات Not indexed یا ایندکس نشده در این بخش، حتماً کد وضعیت 404 را برگردانید.
- برای صفحات با محتوای کم، محتوای منحصر به فرد اضافه کنید تا به Google در تشخیص این URL ها به عنوان یک صفحه مستقل، کمک نمایید.
Page With Redirect
تمامی صفحات ریدایرکت شده در وب سایت شما، در بخش Not indexed قرار می گیرند. جایی که می توانید تمام صفحات ریدایرکت شده ای را که Google در وب سایت شما شناسایی کرده، مشاهده کنید.
تصویر(8)
اقدامات پیشنهاد شده:
- صفحات ریدایرکت شده را بررسی کنید تا مطمئن شوید که ریدایرکت ها ناخواسته ایجاد نشده باشند.
- برخی از افزونههای وردپرس هنگام تغییر URL ها، به طور خودکار ریدایرکت تنظیم می کنند، بنابراین پیشنهاد می شود این بخش را به طور منظم بررسی کنید.
Duplicate Without User-Selected Canonical
مشکل صفحات Not indexed یا ایندکس نشده در این بخش این است که گوگل تصور می کند این URL ها تکراری هستند و بنابراین نباید ایندکس شوند. همچنین شما تگ canonical این آدرس های اینترنتی را تنظیم نکردهاید و Google آن را بر اساس نشانه های دیگر، انتخاب کرده است.
اقدامات پیشنهاد شده:
- این URL ها را بررسی کنید تا متوجه شوید که گوگل کدام آدرس ها را به عنوان canonical این صفحات، انتخاب کرده است.
Duplicate, Google Chose Different Canonical Than User
تصویر(9)
در این مورد از مشکل صفحات Not indexed یا ایندکس نشده، شما یک آدرس canonical برای صفحه موردنظر تنظیم کرده اید اما با این وجود، گوگل آدرس دیگری را به عنوان canonical انتخاب کرده است. در نتیجه، canonical انتخاب شده توسط Google ایندکس خواهد شد و آدرس تنظیم شده از سمت کاربر، ایندکس نمی شود.
اقدامات احتمالی قابل انجام:
- آدرس را بررسی کنید تا متوجه شوید که Google کدام صفحه را به عنوان canonical انتخاب کرده است.
- نشانه های احتمالی که Google را وادار به انتخاب یک canonical متفاوت کرده است، مورد بررسی قرار دهید.
Duplicate, Submitted URL Not Selected As Canonical
در این وضعیت، شما یک URL را بدون اعلام آدرس canonical، برای ایندکس شدن در گوگل ارسال خواهید کرد اما گوگل تصور می کند که یک URL متفاوت، canonical بهتری دارد. در نتیجه، canonical منتخب گوگل به جای URL ارسالی شما، ایندکس می شود.
اقدامات پیشنهاد شده:
- URL را بررسی کنید تا بررسی کنید Google چه چیزی را متعارف انتخاب کرده است.
Alternate Page With Proper Canonical Tag
این صفحات تکراری از صفحات دیگر هستند که گوگل آنها را به عنوان URL های canonical شناخته است. این URL ها حاوی یک آدرس canonical هستند که به آدرس canonical صحیح اشاره می کند.
اقدامات پیشنهاد شده:
- در بیشتر موارد، هیچ اقدامی لازم نیست.
Blocked By Robots.txt
این مشکل صفحات Not indexed یا ایندکس نشده شامل صفحاتی می شود که توسط فایل robots.txt مسدود شده اند. هنگام بررسی این قسمت، به خاطر داشته باشید که اگر گوگل از سایر سایت ها ارجاعی به این آدرس ها بیابد، همچنان می تواند این صفحات را ایندکس کند و آنها در بخش مشکلات نیز نمایش دهد.
اقدامات پیشنهاد شده:
- با استفاده از تست کننده robots.txt، بررسی کنید که آیا این صفحات مسدود شدهاند یا خیر.
- اگر می خواهید صفحات ایندکس نشوند، به جای حذف از طریق robots.txt، یک تگ noindex به آنها اضافه کنید.
Blocked By Page Removal Tool
این گزارش صفحاتی را فهرست می کند که حذف آنها توسط ابزار Removals درخواست شده است. به خاطر داشته باشید که این ابزار صفحات را به طور موقت (90 روز) از نتایج جستجو حذف می کند.
اقدامات پیشنهاد شده:
- بررسی کنید که آیا صفحات ثبت شده در ابزار Removals باید به طور موقت حذف شوند یا برچسب "noindex" داشته باشند.
(Blocked Due To Unauthorized Request (401
در مورد این URL ها، Googlebot به دلیل درخواست اطلاعات ورود، امکان دسترسی به صفحات را نداشت (کد وضعیت 401). اگر این صفحات بدون مجوز در دسترس باشند، نیاز است تا مشکل را بررسی و رفع کنید. در غیر این صورت نیازی به انجام کاری نیست.
تصویر(10)
اقدامات پیشنهاد شده:
- بررسی کنید که آیا این صفحات واقعاً به اطلاعات ورود نیاز دارند یا خیر.
(Blocked Due To Access Forbidden (403
این کد وضعیت معمولاً نتیجه برخی از خطاهای سرور است. 403 زمانی برگردانده می شود که مجوزهای ارائه شده صحیح نبوده و دسترسی به صفحه امکان پذیر نباشد. همانطور که در مستندات گوگل آمده است:
"Googlebot هرگز مجوزی ارائه نمیکند. بنابراین سرور شما این خطا را به اشتباه برمیگرداند. این خطا یا باید برطرف شود یا صفحه توسط robots.txt یا noindex مسدود گردد."
چه چیزی می توانید از صفحات ایندکس نشده بیاموزید؟
افزایش ناگهانی و گسترده یک بخش خاص از صفحات Not indexed، ممکن است نشان دهنده یک مشکل جدی در سایت باشد.
در ادامه سه نمونه از علائم ذکر شده که می توانند نشان دهنده مشکلات جدی در وب سایت شما باشند:
- افزایش ناگهانی (Not Found (404 ممکن است نشان دهنده ریدایرکت ناموفق باشد که در آن URL ها تغییر کرده اند اما ریدایرکت به آدرس های جدید اجرا نشده است. این مشکل می تواند در آینده نیز اتفاق بیفتد. به عنوان مثال یک فرد بیتجربه، slug پستهای وبلاگ را تغییر داده و در نتیجه URL تمامی پست های وبلاگ، تغییر کرده است.
- یک نشانه مشخص از افزایش گزارش های Discovered – currently not indexed یا Crawled – currently not indexed، می تواند این باشد که سایت شما هک شده است. حتماً چند نمونه از صفحات را بررسی کنید تا متوجه شوید که آیا این صفحات واقعاً صفحات شما هستند یا در نتیجه هک ایجاد شده اند.
- افزایش گزارش 'Excluded by 'noindex نیز ممکن است نشان دهنده دسترسی و ریدایرکت ناموفق باشد. این موضوع اغلب زمانی اتفاق میافتد که یک سایت جدید همراه با برچسبهای noindex، از مرحله تست به مرحله اجرا انتقال یابد.
به صورت کلی می توان بیان نمود که نباید اجازه دهید محتوای شما نادیده گرفته شود. لذا مشکل صفحات Not indexed یا ایندکس نشده در گزارش Pages پروفایل Google Search Console اطلاعات کسب کرده و وضعیت سایت خود را اصلاح کنید.