اگر از ربات های خزنده که شبیه ساز ربات های موتور های جست و جو هستند، استفاده نمایید، می توانید اطلاعات خوبی درباره نحوه بررسی سایت خود توسط ربات های موتور های جست و جوگر بدست آورید اما این اطلاعات کامل نیستند و نمی توانند یک تصویر کامل از موضوع را به شما نمایش دهند.
تنها ابزاری که می تواند یک دید کلی از نحوه بررسی سایت شما توسط ربات ها ارائه دهد، بررسی فایل های log است. با این وجود، بسیاری از صاحبان سایت ها هنوز از crawl budget برای بررسی تعداد لینک های قابل خزش (crawl) از سوی ربات های گوگل، استفاده می کنند.
اما بررسی فایل های log میتواند اطلاعات ارزشمندتری در اختیار شما قرار دهد و خواهید دید که گاها لینک هایی از سایت شما بررسی می شود که حتی تصورش را نمی کردید. یک پتانسیل بالقوه در بررسی فایل های log سرور وجود دارد، این فایل ها شامل لاگ هایی است که در زمان خزیدن ربات های گوگل در سایت شما ثبت می شوند. در این صورت، می توانید هرچه سریعتر مشکلات موجود در لینک ها را مشاهده و برطرف نمایید.
وقتی دقیقا بدانید که فایل های log چه اطلاعات ارزشمندی در اختیار شما قرار میدهند و بینشی نسبت به نحوه بررسی سایت خود از سوی ربات های گوگل بدست آورید، می توانید داده های سایت خود را به شکل مطلوب ربات های گوگل آماده و بهینه نمایید. بهینه بودن مطالب و داده ها نیز به افزایش ترافیک ورودی گوگل می انجامد و اینگونه کسب و کار اینترنتی شما رونق پیدا می کند.
Server log چیست ؟
یک لاگ سرور، در واقع ثبت کننده هر آنچه که به سرور وارد شده و یا از آن خارج شده، می باشد. می توانید به این لاگ به عنوان دفتر ثبت درخواست های کاربران واقعی و ربات ها نگاه کنید. در این صورت، می توانید دقیقا مشاهده نمایید که گوگل چه منابعی از سایت شما را فراخوانی کرده است.
با بررسی این log ها شما می توانید به سرعت خطا های سایت خود را مشاهده نمایید و اقدام به رفع آن ها کنید. برای مثال، ممکن است سیستم مدیریت محتوای (CMS) شما برای پست ها دو لینک ایجاد کرده باشد و این موضوع باعث ایجاد مشکل محتوای یگانه برای دو مسیر متفاوت شود که نتیجه خوبی برای رتبه و ترافیک سایت شما نخواهد داشت.
بررسی فایل های log چنان سخت و دشوار نیست. در واقع، منطق آن همان منطق بررسی یک فایل excel و یا google sheet است. سخت ترین بخش کار، دسترسی به فایل های log و گرفتن خروجی از آن و البته فیلتر گذاری داده های log می باشد.
در نگاه اول، یک فایل لاگ می تواند کمی گیج کننده باشد و شاید با دیدن آن دچار دلهره شوید و از خود بپرسید آیا این فایل امکان و ارزش بررسی را دارد؟
یک فایل لاگ همانند تصویر زیر خواهد بود :
تصویر(1)
اما دستپاچه نشوید، یک نگاه نزدیکتر به این فایل، اطلاعات جالبی در اختیار شما قرار می دهد. به خطی از این لاگ که در ادامه قرار داده می شود، توجه فرمایید :
66.249.64.189 - - [31/Aug/2020:21:18:49 +0430] "GET /robots.txt HTTP/1.1" 404 1148 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
از این لاگ اطلاعات زیر قابل استخراج است :
- آدرس ip این درخواست 66.249.64.189 است (Google LLC)
- زمان و ساعت این دسترسی [31/Aug/2020:21:18:49 +0430] است
- متد مورد استفاده در این درخواست از نوع GET است
- فایلی که فراخوانی شده /robots.txt است
- پاسخی که به این درخواست داده شده است 404 به معنی عدم وجود این فایل بوده است
- مقدار بایتی که در این درخواست مبادله شده است، عدد 1148 می باشد
- بخش "-" مربوط به آدرس ارجاع دهنده است، چون ربات این خزش را انجام داده، آدرس ارجاع دهنده آن خالی می باشد
- و کاربر درخواست کننده Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) بوده است که یک ربات گوگل می باشد
وقتی بدانید هر خط از این log چه چیزی را نشان می دهد، دیگر ترسی از بررسی لاگ نخواهید داشت. حالا با انبوهی از اطلاعات روبرو هستید اکنون می توانید وارد مرحله دوم بررسی log شوید.پ
ابزار مورد نیاز برای بررسی log :
ابزار های فراوانی برای بررسی و آنالیز log ها در سطح اینترنت وجود دارند. دو دسته کلی از این ابزارها، ابزار static و ابزار های بررسی real time می باشند.
- ابزار static: این ابزار امکان بررسی یک فایل ثابت را در اختیار شما قرار می دهد. در این صورت نمی توانید بازه زمانی آنالیز را افزایش دهید. هر بار باید فایل جدیدی به این ابزار ارائه دهید.
- ابزار real time: به شما امکان بررسی مستقیم فایل های log را می دهد. شاید راه اندازی این ابزار کمی سخت باشد اما وقتی راه اندازی شود به شما امکان زمانبندی log را خواهد داد.
شروع آنالیز:
به یکباره وارد فایل log نشوید به امید آن که بتوانید چیزی پیدا کنید. بجای آن با دید سوال و پرسش به فایل Log بنگرید. پرسش های خود را از همین ابتدای کار دسته بندی کنید، اگر بی برنامه و بدون دسته بندی پرسش ها به سراغ فایل log بروید، به مرحله ای می رسید که هیچ مقصد مشخص و هدف واقعی پیدا نخواهید کرد. نمونه ای از پرسش های خوب در زیر قرار داده شده است :
- چه موتور جست و جویی سایت من را بررسی کرده است؟
- کدام آدرس ها بیشتر جست و جو شده اند؟
- چه محتوایی بیشتر مورد بررسی قرار گرفته است ؟
- چه پاسخی به این درخواست ها داده شده است ؟
اگر متوجه شدید که ربات های گوگل با پاسخ 404 روبرو می شوند، می توانید این پرسش را مطرح نمایید که چه آدرسی از سایت شما پاسخ 404 را داده است؟ سپس لیستی از این پرسش و پاسخ ها تهیه نمایید. لینک های دارای مشکل را به ترتیب اهمیت آن ها مرتب کنید. در انتها می توانید تصمیم بگیرید کدام لینک ها را ریدایرکت کنید و کدام لینک ها را با محتوای درست بازسازی نمایید. توجه داشته باشید که اگر از CDN و یا کش سرور استفاده می نمایید، نیاز خواهد بود که این بروزرسانی در آن ها نیز انجام دهید.
داده های خود را دسته بندی کنید
گروه بندی داده ها به دسته های مختلف به شما یک دید کلی و امکان نمره دهی کلی می دهد. این کار باعث می شود آدرس هایی که در درخواست نمره بالاتری دریافت کرده اند را زودتر تشخیص دهید. همچنین، امکان پیدا کردن و ترتیب بندی مشکلات سایت نیز بهتر فراهم خواهد شد. راه های مختلفی برای دسته بندی وجود دارد که در زیر برخی از آن ها ذکر شده است:
- گروه بندی بر اساس نوع محتوا
- گروه بندی بر اساس زبان نوشتار
- گروه بندی بر اساس نام سرشاخه ها
- گروه بندی بر اساس نوع فایل های برنامه نویسی
البته فراموش نکنید که داده های خود را بر اساس user-agent یا همان درخواست کننده نیز دسته بندی کنید.
مانیتورینگ تغییر رفتار سایت در طول زمان
رفتار و محتوای سایت شما در طول زمان تغییر می کند و به فراخور آن نحوه کنش ربات ها با سایت شما نیز تغییر خواهد نمود. Googlebot معمولا بر اساس معیار هایی چون سرعت سایت، ساختار لینک های داخلی و وجود تله ها برای ربات ها(راه های دور زدن ربات ها) اقدام به کاهش و یا افزایش رتبه خزش یک سایت می نماید.
خیلی خوب خواهد بود اگر پس از یک دوره یک ساله و یا پس از انجام تغییرات گسترده در سایت، اقدام به آنالیز کلی فایل های Log نمایید. توصیه می شود جدا از آنالیز کلی، یک برنامه هفتگی برای بررسی فایل log داشته باشید.
مراقب ربات های حقه باز باشید
ربات های spam و ربات های واکشی کننده اطلاعات، اصلا از بلاک شدن خوششان نمی آید و برای همین منظور سعی می کنند هویت خود را تغییر دهند و خود را به عنوان ربات گوگل معرفی کنند. برای این که بتوانید ربات ها را شناسایی و مسدود نمایید، می توانید یک reverse DNS lookup انجام دهید تا به منشا این ربات ها پی ببرید.
جمع بندی
آنالیز لاگ ها حتما باید انجام شود، به خصوص اگر بخواهید سایت های بزرگ را راه اندازی و پشتیبانی نمایید. لذا داده ها را گروه بندی کنید و تغییرات را در طول زمان مانیتور نمایید. زمانی که آماده شدید، این داده ها را با آمار های Google Analytics مقایسه و بررسی کنید تا به اطلاعات مفیدی دست یابید.