چرا وب سایت ایندکس نمی شود
مقاله

چرا وب سایت ایندکس نمی شود

منظور از ایندکس شدن وب سایت چیست؟ چرا وب سایت ایندکس نمی شود؟

وقتی یک وب سایت یا یک صفحه از آن ایندکس شده است بدین معنا می باشد که آن  سایت یا صفحه در نتایج جستجوی گوگل قابل مشاهده بوده و به نوعی توسط گوگل فهرست شده است. در واقع هر چيزي که شما در حافظه خود داريد و آن را به خاطر مي آوريد، در حافظه تان ايندکس شده و ایندکس صفحات و وب سایت ها در گوگل نیز به همین معنا است.

از مهم ترین دلایل ایندکس نشدن یک وبسایت می توان به موارد زیر اشاره نمود:

1- وبسایت به تازگی راه اندازی شده و گوگل هنوز آن را پیدا نکرده است

2- بررسی صفحات سایت با تگ noindex برای موتور های جستجوگر مسدود شده است

3- دسترسی خزنده های موتور جستجوگر به صفحات وب سایت، توسط تنظیمات فایل robots.txt مسدود شده است

4- وبسایت به اندازه کافی backlink معتبر ندارد

5- وبسایت یا صفحه مدنظر از لحاظ بهینه سازی و سئو با معیار های گوگل سازگار نیست

6- وبسایت با مقادیر جستجو شده توسط کاربران مطابقت ندارد

7- مطالب وبسایت تکراری است و پیش تر توسط وبسایت دیگری در گوگل ایندکس شده است

8- وبسایت توسط تیم گوگل پنالتی شده است

حال چطور می توان متوجه شد که وب سایت موردنظرتان در نتایج گوگل فهرست شده و می تواند آن را نمایش دهد؟ برای این مورد کافی است نام دامنه مدنظر را مانند مثال زیر در گوگل جستجو نمایید:

site:example.com

در این روش تمامی لینک های وب سایت که توسط گوگل ایندکس شده است، نمایش داده می شود.

اگر به دنبال ایندکس شدن یک مقاله یا نوشته خاص از وب سایتتان هستید می بایست آدرس آن را همانند مثال زیر در گوگل وارد نمایید:

site:example.com/page-name

توجه نمایید که به جای عبارت page-name می بایست آدرس صفحه مدنظرتان را وارد کنید. برای مثال، صفحه فروشگاه وبسایتتان مانند مثال زیر خواهد بود :

site:example.com/shop

ایندکس نشدن سایت

تصویر(1)

حال اگر وب سایت یا صفحه مدنظر در گوگل ایندکس نشده باشد می بایست چه اقدامی صورت گیرد؟

برای این کار نیاز است وب سایت به گوگل معرفی شود. جهت معرفی وب سایت به گوگل می بایست از ابزار search console استفاده کنید. اگر پیش تر در سرچ کنسول، وب سایت خود را ثبت نکرده اید، از آموزش زیر می توانید استفاده نمایید:

نحوه ثبت و بهینه سازی سایت در گوگل

پس از ثبت وب سایت در search console باید یک sitemap ایجاد نمایید. sitemap یک فایل .xml است که شامل آدرس تمامی صفحات وب سایت و آخرین زمان بروز رسانی آنها می باشد. این مورد برای معرفی وب سایت به موتورهای جستجو استفاده می‌ شود. در نظر داشته باشید تمامی صفحاتی که برایتان مهم است را در sitemap قرار دهید تا ایندکس شوند، قرار ندادن صفحات در sitemap به این معنا است که این صفحات ارزشی نداشته و گوگل به سختی آن ها را ایندکس می کند. 

برای سایت های وردپرسی می توان از افزونه هایی مانند yoast seo جهت ایجاد sitemap استفاده نمود پس از ورود به سرچ کنسول می بایست sitemap را به گوگل معرفی نمایید:

ایندکس نشدن سایت

تصویر(2)

حال نیاز است منتظر بمانید تا نتیجه بررسی sitemap در بخش coverage نمایش داده شود. در نظر داشته باشید، پس از ثبت سایت در سرچ کنسول یک الی سه روز ممکن است زمان ببرد تا نتایج در بخش coverage نمایش داده شوند. پس از گذشت یک الی سه روز به بخش Coverage مراجعه نمایید:


تصویر(3)

دو تب Error و Excluded صفحاتی را نشان می دهند که ایندکس نشده اند. صفحاتی که به هر دلیلی ایندکس نشده و گوگل نمی تواند آن ها را ایندکس نماید در بخش error و اگر صفحات crawl شده و گوگل تصمیم گرفت آن ها را ایندکس نکند، در بخش Excluded قرار می گیرند. 

ایندکس شدن صفحات بخش warning نیز به تصمیم گوگل بستگی دارد اما با رفع هشدارها می‌توانید احتمال ایندکس شدن این صفحات را افزایش دهید. بخش valid نیز شامل صفحاتی می شود که بدون مشکل ایندکس شده اند.

ایندکس نشدن سایت

تصویر(4)

بعد از مشخص شدن گزارشات بخش coverage نیاز است مطابق توضیحات زیر مشکلات و خطاهای صفحات خود را بررسی نمایید تا مشکل ایندکس نشدن آن ها برطرف شود.

بررسی صفحات error :

همانطور که پیشتر اعلام شد صفحاتی که با مشکل روبرو هستند و امکان ایندکس آن ها وجود ندارد در این بخش قرار می گیرند. در ادامه انواع خطاهایی که ممکن است در این بخش مشاهده کنید و نحوه رفع آنها ذکر شده است.

Server error

اگر در زمان بررسی آدرس مورد نظر یکی از خطاهای دسته 5xx رخ داده است، جهت بررسی ابتدا آدرس مربوطه را در یک تب جداگانه باز نموده و از دسترس بودن آن اطمینان حاصل نمایید. چنانچه صفحه مربوطه بدون مشکل بارگذاری شد مشخص می گردد مشکل موقت بوده و در حال حاضر برطرف شده است. این مورد می تواند به دلیل قطعی موقت سرور میزبان سایت یا خطاهای اسکریپتی مانند 503 و 504 و حتی خطاهای مربوط به cdn مانند 524 نیز رخ دهد لذا پیشنهاد می گردد ابتدا از پایداری سرور میزبان سایت خود اطمینان حاصل نموده و سپس مصرف منابع هاست و خطاهای اسکریپت که معمولا در فایل error_log ذخیره می شوند را بررسی و رفع نمایید تا مجدد با این مشکل روبرو نشوید.

Redirect error

آدرس مربوطه با ریدایرکت های متعدد یا تو در تو روبرو است که این مشکل در اکثر مواقع به دلیل تغییر دامنه اصلی سایت رخ می دهد، برای مثال آدرس http://example.com به http://www.example.com تغییر مسیر داده و سپس http://www.example.com به https://www.example.com ریدایرکت شده است. گوگل علاقه ای به بررسی چنین لینک هایی ندارد و به سرعت از آن ها عبور می کند. برای بررسی این موضوع از وب سایت redirect-checker.org استفاده نموده و اطمینان حاصل نمایید که صفحه مدنظر با کمتر از دو الی سه ریدایرکت به محتوای اصلی ختم می شود.

Submitted URL blocked by robots.txt

صفحه مذکور با دستورات فایل robots.txt محدود شده است. جهت رفع مشکل نیاز است دستورات فایل robots.txt را بررسی نمایید. سپس می توانید با استفاده از گزینه test robots.txt blocking مجدد این مورد را تست و بررسی نمایید.

Submitted URL marked noindex

در این حالت صفحات لیست شده، به درخواست شما با تگ noindex حذف شده اند. برای رفع آن نیاز است به source (کد منبع) آن صفحه مراجعه نموده و با جستجو در کدهای آن، تگ noindex را حذف نمایید تا خطا رفع گردد. این خطا در سایت های وردپرسی اغلب به دلیل استفاده از افزونه‌های yoast seo و rank math نیز رخ می دهد.

ایندکس نشدن سایت

تصویر(5)

Submitted URL seems to be a Soft 404

درخواست ایندکس شدن این آدرس را داشته اید اما سرور وب سایت آن یک خطای soft 404 را به گوگل نشان داده است، در واقع این آدرس ها از دید گوگل حذف‌ شده به نظر می‌ رسند.

برای مثال یک صفحه که مربوط به دسته ای از موضوعات وب سایتتان می باشد (Category) و هیچ مطلبی در آن وجود ندارد، همانند یک قفسه خالی در فروشگاه به نظر می رسد. همچنین ممکن است در قالب سایتتان صفحاتی وجود داشته باشد که خالی از محتوا بوده و خطای فوق را نشان می دهد. برای رفع این مشکل می توانید محتوایی در آنها قرار داده یا آدرس مربوطه را به یک آدرس دیگر که دارای محتویات است ریدایرکت نمایید.

Submitted URL returns unauthorized request

درخواست ایندکس شدن این آدرس را داشته اید اما گوگل با خطای دسترسی بدون مجوز (خطای 401) روبرو شده است. این هشدار معمولاً برای صفحاتی نمایش داده می شود که نیاز به ثبت نام و ورود به وب سایت را دارند. برای رفع این مشکل می بایست مکانی که گوگل از طریق آن، آدرس یا آدرس‌های مذکور را یافته است، شناسایی و آنها را حذف کنید.
برای پیدا کردن این آدرس‌ها لازم است به سراغ sitemap وب‌ سایتتان رفته و آدرس هایی که با این مشکل روبرو هستند را حذف نمایید.

Submitted URL not found

آدرسی که درخواست ایندکس شدن آن را دارید وجود ندارد. ممکن است یک صفحه از وب سایت خود را حذف نموده باشید اما همچنان در sitemap وب سایت شما فراخوانی شده است، برای رفع مشکل می بایست لینک مربوطه را از sitemap وب سایتتان حذف نمایید.

Submitted URL has crawl issue

گوگل برای ایندکس صفحات صرفا محتوای آن را بررسی نمی‌کند، بلکه فایل‌ های JS ،css و حتی فونت ها را که روی نمایش محتوای صفحه تاثیر دارند، مورد بررسی قرار می دهد. زیرا گوگل به رابط کاربری اهمیت زیادی می دهد و سعی می کند با به روز نمودن خزنده‌ها، آن ها را به حالتی نزدیک‌ تر کند که محتوای صفحات را مانند یک انسان درک و مشاهده کنند. وقتی با چنین خطایی روبرو می شوید به این معنی است که گوگل در حین بررسی این صفحه با خطایی روبرو شده که این نوع خطا برای خزنده ها ناشناخته است. برای رفع مشکل از ابزار Inspect URL استفاده نمایید تا سورس کد صفحه توسط گوگل به صورت زنده بررسی و خطا در هر جایی که رخ داده است به صورت هایلایت شده نمایش داده شود. می‌توانید با بررسی قطعه کد هایلایت شده متوجه شوید که خطا مربوط به کدام بخش از صفحه است و اقدام به رفع آن نمایید.

ایندکس نشدن سایت

تصویر(6)

بررسی صفحات excluded :

Blocked by ‘noindex’ tag

در این حالت صفحات لیست شده به درخواست شما با تگ noindex حذف شده اند. برای رفع این مورد نیاز است به source (کد منبع) آن صفحه مراجعه و با جستجو در کد های آن تگ noindex را حذف نمایید تا خطا رفع شود. اگر قصد دارید صفحه مربوطه ایندکس نشود کارتان را درست انجام داده اید و نیاز نیست تغییری ایجاد نمایید.

Blocked by page removal tool

به درخواست شما صفحه مدنظر به صورت موقت از فهرست نتایج گوگل حذف شده است. در این حالت شما یا شخصی که به سرچ کنسول شما دسترسی دارد، با استفاده از ابزار page removal tool صفحه مربوطه را از نتایج گوگل حذف نموده است.

البته در نظر داشته باشید که عملکرد ابزار page removal tool موقتی است و پس از مدتی مجددا گوگل صفحات بخش page removal tool را ایندکس می کند. در صورت تمایل می توانید به بخش page removal tool در سرچ کنسول خود مراجعه و صفحه مدنظرتان را از این بخش حذف نمایید تا مجدد توسط گوگل ایندکس شود.

Blocked by robots.txt

دسترسی به این صفحات با دستورات فایل robots.txt مسدود شده و نیاز است دستورات این فایل که در هاستتان قرار دارد را بررسی نمایید، فایل مذکور اغلب در پوشه public_html قرار دارد. در نظر داشته باشید چنانچه این محدودیت برای مدت طولانی پابرجا باشد گوگل اقدام به حذف این صفحات از نتایج جستجوی خود می کند. توجه نمایید چنانچه برای مثال قطعه کد /disallow:/blog در فایل robots.txt قرار داده شده باشد، کلیه مطالب بلاگ شما ایندکس نمی شوند.

Blocked due to unauthorized request

این صفحات برای گوگل در دسترس نمی باشند، در واقع گوگل برای دسترسی به این صفحات نیاز به یک نوع مجوز مانند نام کاربری و رمز دارد. معمولا این خطا برای صفحات تستی که در زمان تست و راه اندازی وب سایت ایجاد می شوند رخ می دهد. اگر صفحه موردنظر، صفحه مهمی از وب سایتتان نیست آن را حذف نموده یا چنانچه اگر از صفحات مهم وب سایتتان می باشد دسترسی به آن را مورد بررسی قرار دهید. ممکن است با قابلیتی مانند directory privacy برای این صفحات محدودیت ایجاد شده باشد.

Crawl anomaly

یکی از خطاهای رایج است که دلایل بسیار گسترده ای داشته و نیاز به بررسی موارد متعددی دارد. این خطا می تواند در محدوده خطاهای 400 و 500 باشد و توسط اسکریپت یا سرور میزبان وب سایت شما رخ دهد. برای مثال ممکن است وب سایت شما با خطای 503 روبرو شود که با چنین پیامی در سرچ کنسول خود مواجه شوید. برای رفع این مشکل نیاز است به صورت دقیق اجرای صحیح اسکریپتتان را بررسی نموده و همچنین از پایداری سرور میزبان وب سایت نیز اطمینان حاصل نمایید.

در نظر داشته باشید چنانچه خطایی در اسکریپتتان وجود داشته باشد، گزارش آن در فایل error_log هاستتان ذخیره خواهد شد لذا جهت بررسی صحت اجرای اسکریپت خود به فایل مذکور مراجعه نمایید.

خطاهای محدوده 400 نیز می تواند به دلایلی مانند تغییر مسیر آدرس ها رخ دهد. ممکن است آدرسی که از قبل وجود داشته در حال حاضر با تغییر مسیر از دسترس خارج شده و با خطای 404 روبرو شود. اطمینان حاصل نمایید که همه تغییر مسیرها تک‌ مرحله‌ای باشند و صفحه‌ای که آدرس شما به آن تغییر مسیر می‌ دهد به‌ درستی با کد 200 بارگذاری می‌شود. جهت تست صفحه موردنظر، می توانید آن را در وب سایت redirect-checker.org بررسی نمایید.

تصویر(7)

Crawled – currently not indexed

با مشاهده صفحات خود در این بخش نیازی نیست اقدامی انجام دهید، زیرا صفحات شما توسط گوگل crawl و لیست شده و صرفا نیاز است منتظر بمانید تا گوگل به مرور زمان آن ها را ایندکس کند. احتمال ایندکس نشدن صفحات موجود در این بخش بسیار پایین است، علت عدم ایندکس صرفا می تواند به دلیل نبود مؤلفه‌های محتوایی و فنی در صفحه مورد نظر باشد. افزونه هایی مانند yoast seo می تواند در این خصوص به شما کمک کند تا صفحات خود را با مؤلفه‌های محتوایی ایجاد نمایید.

Discovered – currently not indexed

گوگل صفحات شما را یافته اما هنوز آن ها را بررسی نکرده است. معمولا صفحات این بخش به مرور زمان توسط گوگل ایندکس خواهند شد، به هر حال گوگل آن ها را به دلایلی مانند نداشتن محتویات ارزشمند با تاخیر ایندکس می کند. یکی از راه حل های سریع تر ایندکس شدن این صفحات ایجاد بک لینک خارجی برای آن ها است، برای مثال می توانید آن ها را در شبکه های اجتماعی مختلف مانند pinterest به اشتراک بگذارید.

Alternate page with proper canonical tag

گوگل صفحه مربوطه را پیشتر با لینک دیگری ایندکس نموده است. عملا کاری باقی نمانده است که برای این مورد انجام دهید. صرفا پیشنهاد می گردد با تگ canonical آن را نشانه گذاری نمایید.

تگ canonical یک قطعه کد در HTML است که به موتور جستجو نشان می‌دهد که برای کدام نسخه از آدرس باید اولویت قائل شود و ارزش لینک‌ها را به همان نسخه تخصیص می‌دهد. دقت کنید که تگ canonical باید حتما در قسمت Head صفحه مربوطه قرار داده شود. می توانید اطلاعات بیشتر را در مقاله "canonical در وردپرس چیست" مطالعه نمایید.

duplicate page without canonical tag

نسخه های کپی از این آدرس ها وجود دارد که حاوی تگ canonical نمی باشند. در موارد این چنینی نیاز است  با استفاده از تگ canonical مشخص کنید که کدام صفحه باید ایندکس شود.

Queued for crawling

صفحات این بخش در انتظار بررسی و ثبت قرار دارند و نیاز نیست اقدامی نمایید. صرفا می توانید چند روز دیگر وضعیت آن ها را مجدد بررسی کنید.

Duplicate non-HTML page

یک صفحه غیر HTML مانند یک فایل PDF، کپی صفحه ای دیگر است که گوگل آن را به‌ عنوان canonical شناسایی کرده است. برای مثال گوگل یک فایل PDF در سایت شما پیدا کرده که حاوی همان اطلاعاتی است که در یکی از صفحات HTML سایتتان وجود دارد و تصمیم گرفته که فقط نسخه HTML آن را ایندکس کند. چنانچه شما نیز می خواهید صرفا صفحه HTML شما ایندکس شود، نیازی نیست اقدامی انجام دهید.

Google chose different canonical than user

این صفحات به‌ عنوان صفحه canonical تگ شده اند اما از نظر گوگل یک آدرس دیگر می‌تواند canonical بهتری باشد. در واقع گوگل در انتخاب نسخه‌ای که باید ایندکس شود با شما هم‌ نظر نیست. در این خصوص پیشنهاد می گردد از وجود تگ‌های canonical در تمامی صفحات تکراری اطمینان حاصل نمایید.

Page with redirect

این آدرس ها در واقع یک تغییر مسیر از آدرس های دیگر هستند و بنابراین ایندکس نشده اند. در این خصوص پیشنهاد می گردد لینک‌ های قدیمی خود را بروزرسانی نمایید تا موتورهای جستجو مجبور نشوند برای پیدا کردن محتوای شما وارد مسیرهای متعدد شوند.

Not found (404)

صفحاتی که با این خطا مواجه هستند به این معنا است که فاقد اطلاعات هستند اما آدرس مدنظر توسط ربات گوگل یافت شده است. معمولا این خطا پس از تغییر لینک‌ های وب‌سایت یا عدم تغییر مسیر از آدرس قدیمی به آدرس جدید محتوای وب سایتتان، رخ می دهد.

Page removed because of legal complaint

این صفحه به دلیل شکایت قانونی از پایگاه اطلاعاتی گوگل حذف شده است. اگر چنین خطایی مشاهده نمودید در اسرع وقت هر محتوایی که شامل کپی‌ رایت می باشد را حذف نموده و اطمینان حاصل نمایید که وب‌سایتتان هک نشده باشد زیرا برخی از هکرها به قرار دادن محتوای غیرقانونی در سایت‌ های هک شده علاقه زیادی دارند.

Submitted URL dropped

پیش تر درخواست ایندکس شدن این آدرس را داشته اید اما در حال حاضر به دلایل نامعلومی ایندکس شدن آن متوقف شده است. در موارد این چنینی معمولا گوگل مدتی محتوای شما را بررسی نموده اما به این نتیجه رسیده که نباید آن را در پایگاه اطلاعاتی خود ثبت کند. از دلایل آن می توان به کیفیت پایین مطلب یا اطلاعات سطحی و قدیمی آن اشاره نمود. می توانید محتوای آن را بهبود بخشیده و منتظر بمانید تا مجدد توسط گوگل بررسی شود.

Submitted URL not selected as canonical

این آدرس یکی از چند آدرسی است که مقصد تمامی آن ها یک صفحه می باشد اما هیچکدام از آن‌ها به‌عنوان یک صفحه canonical تگ گذاری نشده اند. به عقیده گوگل این آدرس تکراری بوده و یک آدرس دیگر گزینه بهتری برای canonical شدن می باشد و بر همین اساس این آدرس ایندکس نشده است.

Warning ها :

Warning ها به اندازه error ها مهم نیستند. همانطور که ابتدای مقاله عنوان شد بخش warning به تصمیم گوگل بستگی دارد اما با رفع هشدارها می‌توانید احتمال ایندکس شدن این صفحات را افزایش دهید.

Indexed, though blocked by robots.txt

یکی از هشدار هایی می باشد که به دفعات گزارش و مشاهده شده است. به طور معمول این مشکل زمانی رخ می دهد که سعی دارید دسترسی یک ربات مخرب به سایت را مسدود کنید و تنظیمات آن را در فایل robots.txt انجام داده اید اما این تنظیمات بیش‌ از اندازه سخت‌گیرانه بوده و باعث بروز چنین هشداری شده است. علیرغم محدودیت دسترسی اعمال شده در فایل robots.txt، صفحه مورد نظر ایندکس شده است.

برای مثال در تصویر زیر مشاهده می کنید که مدیر وب سایت ظاهرا بطور ناخواسته دسترسی ربات گوگل به صفحه ایندکس شده را مسدود نموده است.

ایندکس نشدن سایت

تصویر(8)

این وب‌سایت از نتایج جستجو حذف نشده و اطلاعات زیادی در اسنیپت (جواب سریع و عموما کوتاهی که گوگل در مورد کلمه کلیدی جست و جو شده، نمایش می‌دهد) آن وجود ندارد؛ زیرا گوگل قادر به مشاهده مواردی مانند توضیحات متا و محتوای صفحه نشده است.

نتیجه گیری

سرچ کنسول می تواند کمک شایانی در رفع مشکلات و ایندکس شدن صفحات داشته باشد زیرا خطاها را به ساده ترین شکل ممکن به کاربر اعلام می کند. از همین رو پیشنهاد می گردد در اولین فرصت حتما وب سایت را در سرچ کنسول اضافه کنید تا با بررسی و اقداماتی که در این مقاله شرح داده شد، مشکل ایندکس نشدن وب سایت خود را برطرف نمایید و روزانه روند ایندکس شدن صفحات خود را زیر نظر بگیرید.

همچنین توصیه می شود تا وب سایت خود را صرفا تحت یک دامنه ایندکس نموده و چنانچه از دو یا چند دامنه استفاده می کنید، یک دامنه را به عنوان دامنه اصلی قرار داده و مابقی را به دامنه اصلی ریدایرکت نمایید. نمایش مطالب وب سایت تحت دو دامنه باعث افت شدید سئو و در بلند مدت حذف لینک های وب سایت از موتورهای جستجو می شود زیرا مطالب وب سایت به عنوان محتوای تکراری شناسایی خواهند شد.

اشتراک گذاری:

نظرات

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *