دلایل زیادی وجود دارد که ممکن است نیاز به پیدا کردن تمام URL های سایت داشته باشید اما هدف دقیق شما تعیین میکند که به دنبال چه چیزی هستید. برای مثال، ممکن است بخواهید:
- URL های ایندکس شده را شناسایی کنید تا مسائلی مانند تداخل محتوا (cannibalization) یا افزایش حجم ایندکس (index bloat) را تحلیل نمایید.
- URL های فعلی و قبلی که توسط گوگل قابل مشاهده بوده است را جمعآوری کنید، به ویژه هنگام مهاجرت سایت.
- تمام URL های 404 را پیدا کنید تا خطاهای پس از مهاجرت را رفع نمایید.
در این سناریوها، یک ابزار واحد نمیتواند تمام نیازهای شما را برطرف کند. متأسفانه، Google Search Console جامع نیست و جستجوی "site:example.com" نیز محدود بوده و استخراج داده از آن دشوار است.
در این مقاله، با برخی ابزارها آشنا خواهید شد که در ایجاد لیست URL ها کمک می کنند. قبل از حذف دادههای تکراری، اطلاعات خود را در یک فایل متنی ذخیره نمایید.
خروجی نقشههای سایت قدیمی و خزش ها: یافتن URL های حذف شده
اگر به دنبال URL هایی هستید که اخیراً از سایت حذف شدهاند، می توانید از اعضای تیم خود که خروجی نقشه سایت (sitemap) یا گزارش خزش (crawl) را ذخیره کرده اند، کمک بگیرید. اگر هنوز این کار را نکردهاید جهت یافتن URL های حذف شده، فایلها را بررسی کنید. اغلب با این روش میتوانید یافتن URL های حذف شده و آنچه که نیاز دارید را پیدا نمایید.
پیدا کردن تمام URL های سایت با Archive.org
برای یافتن تمام URL های سایت می توانید از Archive.org استفاده نمایید. Archive.org یک ابزار ارزشمند برای وظایف سئو است که از طریق کمک مالی تامین میشود. اگر یک دامنه را جستجو نموده و گزینه "URLs" را انتخاب نمایید، میتوانید به حداکثر ۱۰,۰۰۰ URL فهرست شده دسترسی پیدا کنید.
تصویر(1)
با این حال، چند محدودیت وجود دارد:
- محدودیت URL: فقط میتوانید تا ۱۰,۰۰۰ URL را بازیابی کنید که برای سایتهای بزرگتر کافی نیست.
- کیفیت: بسیاری از URL ها ممکن است نادرست باشند یا به فایلهای منابع (مانند تصاویر یا اسکریپتها) ارجاع داده شوند.
- عدم امکان تهیه خروجی: هیچ راهی برای خروجی گرفتن از لیست وجود ندارد.
برای دور زدن عدم وجود دکمه تهیه خروجی، میتوانید از یک افزونه scraping (خزنده) مرورگر مانند Dataminer.io استفاده کنید. این محدودیتها بدان معنی خواهد بود که Archive.org ممکن است یک ابزار کامل برای سایتهای بزرگتر ارائه ندهد. همچنین، Archive.org وضعیت ایندکس URL توسط گوگل را مشخص نمی کند اما اگر آن را پیدا کرده، احتمال اینکه گوگل نیز آن را دیده باشد وجود دارد.
ابزار Moz Pro
ابزار دیگر برای پیدا کردن تمام URL های سایت Moz Pro می باشد. اگرچه اغلب از link index برای شناسایی سایتهای دیگری که به شما لینک دادهاند استفاده میشود اما Moz Pro آدرس های داخلی سایت شما را نیز پیدا میکند.
نحوه استفاده از Moz Pro
از لینکهای ورودی خود توسط Moz Pro خروجی بگیرید تا یک لیست سریع و آسان از URL های هدف سایت دریافت کنید. اگر با یک وبسایت بسیار بزرگ سروکار دارید، استفاده از Moz API را نیز در نظر بگیرید.
توجه داشته باشید، Moz Pro بررسی نمیکند که URL ها توسط گوگل ایندکس یا کشف شدهاند اما با این حال، از آنجایی که اکثر سایتها قوانین robots.txt یکسانی را برای رباتهای Moz و گوگل اعمال میکنند، این روش همانند یک نماینده برای بررسی قابلیت کشف Googlebot عمل میکند.
پیدا کردن URL های سایت با ابزار Google Search Console
Google Search Console چندین منبع ارزشمند برای ساخت لیست URL های شما ارائه میدهد. در نتیجه می توان از سرچ کنسول گوگل برای یافتن تمام URL های سایت استفاده کرد.
گزارش لینک ها:
بخش Links لیست URL ها را با امکان تهیه خروجی ارائه میدهد. متأسفانه، این خروجیها هر کدام به ۱,۰۰۰ URL محدود میشوند. میتوانید فیلترهایی برای صفحات خاص اعمال کنید اما با توجه به اینکه فیلترها روی فایل خروجی اعمال نمیشوند، ممکن است نیاز به استفاده از ابزارهای scraping مرورگر داشته باشید.
بخش Performance:
این خروجی به شما لیستی از صفحاتی را میدهد که از نتایج جستجو بازدید دریافت کردهاند. اگرچه خروجی آن محدود است اما میتوانید از Google Search Console API برای مجموعه دادههای بزرگتر استفاده کنید. همچنین افزونههای رایگان Google Sheets وجود دارند که استخراج دادههای بیشتر را سادهتر میکنند.
بخش Pages:
این بخش خروجیهایی را ارائه میدهد که بر اساس نوع مشکل فیلتر شدهاند، اگرچه آنها نیز محدود هستند.
تصویر(2)
Google Analytics
گزارش پیشفرض Pages and Screens در GA4 با محدودیت ۱۰۰,۰۰۰ URL، یک منبع عالی برای پیدا کردن تمام URL های سایت است. همچنین میتوانید فیلترهایی اعمال کرده تا لیستهای مختلفی از URL ها ایجاد کنید تا از محدودیت ۱۰۰ هزارتایی فراتر بروید. به عنوان مثال، اگر میخواهید فقط URL های وبلاگ را خروجی بگیرید، این مراحل را دنبال کنید:
مرحله ۱: یک segment به گزارش اضافه نمایید.
تصویر(3)
مرحله ۲: روی "Create a new segment" کلیک کنید.
تصویر(4)
مرحله ۳: segment را با یک الگوی URL محدودتر تعریف نمایید، مانند URL هایی که شامل /blog/ هستند.
تصویر(5)
توجه: URL های یافت شده در Google Analytics ممکن است توسط Googlebot قابل کشف نبوده یا گوگل آنها را ایندکس نکرده باشد اما اطلاعات ارزشمندی ارائه میدهند.
فایلهای لاگ سرور
فایلهای لاگ سرور یا CDN احتمالاً بهترین ابزار در دسترس شما برای پیدا کردن URL های سایت هستند. این لاگها لیست کاملی از هر مسیر URL که توسط کاربران، Googlebot یا سایر رباتها طی یک دوره فراخوانی شده اند را ذخیره میکنند و می توانید برای پیدا کردن تمام URL های سایت از آن ها استفاده نمایید.
نکاتی که باید برای استفاده از فایلهای لاگ سرور جهت پیدا کردن URL های سایت در نظر داشته باشید:
- حجم داده: فایلهای لاگ میتوانند بسیار بزرگ باشند، بنابراین بسیاری از سایتها فقط دادههای دو هفته اخیر را نگه میدارند.
- پیچیدگی: تحلیل فایلهای لاگ میتواند چالشبرانگیز باشد اما ابزارهای مختلفی برای سادهسازی این فرآیند وجود دارند.
جمع بندی
با پیدا کردن تمام URL های سایت از این منابع، وقت آن است که آنها را ترکیب کنید. اگر سایت شما کوچک است، Excel یا برای مجموعهدادههای بزرگتر، ابزارهایی مانند Google Sheets یا Jupyter Notebook را استفاده کنید. مطمئن شوید که همه URL ها فرمت یکسانی دارند، سپس لیست را از دادههای تکراری پاک کنید. هم اکنون لیستی جامع از url های فعلی، قدیمی و آرشیو شده دارید.