روش های پیدا کردن تمام URL های سایت
مقالات تخصصی IT و هاستینگ

روش پیدا کردن تمام URL های سایت

دلایل زیادی وجود دارد که ممکن است نیاز به پیدا کردن تمام URL های سایت داشته باشید اما هدف دقیق شما تعیین می‌کند که به دنبال چه چیزی هستید. برای مثال، ممکن است بخواهید:

  • URL های ایندکس شده را شناسایی کنید تا مسائلی مانند تداخل محتوا (cannibalization) یا افزایش حجم ایندکس (index bloat) را تحلیل نمایید.
  • URL های فعلی و قبلی که توسط گوگل قابل مشاهده بوده است را جمع‌آوری کنید، به ویژه هنگام مهاجرت سایت.
  • تمام URL های 404 را پیدا کنید تا خطاهای پس از مهاجرت را رفع نمایید.

در این سناریوها، یک ابزار واحد نمی‌تواند تمام نیازهای شما را برطرف کند. متأسفانه، Google Search Console جامع نیست و جستجوی "site:example.com" نیز محدود بوده و استخراج داده از آن دشوار است.

در این مقاله، با برخی ابزارها آشنا خواهید شد که در ایجاد لیست URL ها کمک می کنند. قبل از حذف داده‌های تکراری، اطلاعات خود را در یک فایل متنی ذخیره نمایید.

خروجی نقشه‌های سایت قدیمی و خزش ها: یافتن URL های حذف شده

اگر به دنبال URL هایی هستید که اخیراً از سایت حذف شده‌اند، می توانید از اعضای تیم خود که خروجی نقشه سایت (sitemap) یا گزارش خزش (crawl) را ذخیره کرده اند، کمک بگیرید. اگر هنوز این کار را نکرده‌اید جهت یافتن URL های حذف شده، فایل‌ها را بررسی کنید. اغلب با این روش می‌توانید یافتن URL های حذف شده و آنچه که نیاز دارید را پیدا نمایید.

پیدا کردن تمام URL های سایت با Archive.org

برای یافتن تمام URL های سایت می توانید از Archive.org استفاده نمایید. Archive.org یک ابزار ارزشمند برای وظایف سئو است که از طریق کمک مالی تامین می‌شود. اگر یک دامنه را جستجو نموده و گزینه "URLs" را انتخاب نمایید، می‌توانید به حداکثر ۱۰,۰۰۰ URL فهرست شده دسترسی پیدا کنید.

پیدا کردن تمام URL های سایت با Archive.org

تصویر(1)

با این حال، چند محدودیت وجود دارد:

  • محدودیت URL: فقط می‌توانید تا ۱۰,۰۰۰ URL را بازیابی کنید که برای سایت‌های بزرگتر کافی نیست.
  • کیفیت: بسیاری از URL ها ممکن است نادرست باشند یا به فایل‌های منابع (مانند تصاویر یا اسکریپت‌ها) ارجاع داده شوند.
  •  عدم امکان تهیه خروجی: هیچ راهی برای خروجی گرفتن از لیست وجود ندارد.

برای دور زدن عدم وجود دکمه تهیه خروجی، می‌توانید از یک افزونه scraping (خزنده) مرورگر مانند Dataminer.io استفاده کنید. این محدودیت‌ها بدان معنی خواهد بود که Archive.org ممکن است یک ابزار کامل برای سایت‌های بزرگتر ارائه ندهد. همچنین، Archive.org وضعیت ایندکس URL توسط گوگل را مشخص نمی کند اما اگر آن را پیدا کرده، احتمال اینکه گوگل نیز آن را دیده باشد وجود دارد.

ابزار Moz Pro

ابزار دیگر برای پیدا کردن تمام URL های سایت Moz Pro می باشد. اگرچه اغلب از link index برای شناسایی سایت‌های دیگری که به شما لینک داده‌اند استفاده می‌شود اما Moz Pro آدرس های داخلی سایت شما را نیز پیدا می‌کند.

نحوه استفاده از Moz Pro

از لینک‌های ورودی خود توسط Moz Pro خروجی بگیرید تا یک لیست سریع و آسان از URL های هدف سایت دریافت کنید. اگر با یک وب‌سایت بسیار بزرگ سروکار دارید، استفاده از Moz API را نیز در نظر بگیرید.

توجه داشته باشید، Moz Pro بررسی نمی‌کند که URL ها توسط گوگل ایندکس یا کشف شده‌اند اما با این حال، از آنجایی که اکثر سایت‌ها قوانین robots.txt یکسانی را برای ربات‌های Moz و گوگل اعمال می‌کنند، این روش همانند یک نماینده برای بررسی قابلیت کشف Googlebot عمل می‌کند.

پیدا کردن URL های سایت با ابزار Google Search Console 

Google Search Console چندین منبع ارزشمند برای ساخت لیست URL های شما ارائه می‌دهد. در نتیجه می توان از سرچ کنسول گوگل برای یافتن تمام URL های سایت استفاده کرد. 

گزارش لینک ها:

بخش Links لیست URL ها را با امکان تهیه خروجی ارائه می‌دهد. متأسفانه، این خروجی‌ها هر کدام به ۱,۰۰۰ URL محدود می‌شوند. می‌توانید فیلترهایی برای صفحات خاص اعمال کنید اما با توجه به اینکه فیلترها روی فایل خروجی اعمال نمی‌شوند، ممکن است نیاز به استفاده از ابزارهای scraping مرورگر داشته باشید. 

بخش Performance:

این خروجی به شما لیستی از صفحاتی را می‌دهد که از نتایج جستجو بازدید دریافت کرده‌اند. اگرچه خروجی آن محدود است اما می‌توانید از Google Search Console API برای مجموعه داده‌های بزرگتر استفاده کنید. همچنین افزونه‌های رایگان Google Sheets وجود دارند که استخراج داده‌های بیشتر را ساده‌تر می‌کنند.

بخش Pages:

این بخش خروجی‌هایی را ارائه می‌دهد که بر اساس نوع مشکل فیلتر شده‌اند، اگرچه آنها نیز محدود هستند.

پیدا کردن تمام URL های سایت - بخش Pages در سرچ کنسول

تصویر(2)

Google Analytics

گزارش پیش‌فرض Pages and Screens در GA4 با محدودیت ۱۰۰,۰۰۰ URL، یک منبع عالی برای پیدا کردن تمام URL های سایت است. همچنین می‌توانید فیلترهایی اعمال کرده تا لیست‌های مختلفی از URL ها ایجاد کنید تا از محدودیت ۱۰۰ هزارتایی فراتر بروید. به عنوان مثال، اگر می‌خواهید فقط URL های وبلاگ را خروجی بگیرید، این مراحل را دنبال کنید:

مرحله ۱: یک segment به گزارش اضافه نمایید.

پیدا کردن تمام URL های سایت - مثال یافتن url بلاگ

تصویر(3)

مرحله ۲: روی "Create a new segment" کلیک کنید. 

پیدا کردن تمام URL های سایت - مثال یافتن url بلاگ2

تصویر(4)

مرحله ۳: segment را با یک الگوی URL محدودتر تعریف نمایید، مانند URL هایی که شامل /blog/ هستند.

پیدا کردن تمام URL های سایت - مثال محدود کردن به url بلاگ

تصویر(5)

توجه: URL های یافت شده در Google Analytics ممکن است توسط Googlebot قابل کشف نبوده یا گوگل آنها را ایندکس نکرده باشد اما اطلاعات ارزشمندی ارائه می‌دهند.

فایل‌های لاگ سرور

فایل‌های لاگ سرور یا CDN احتمالاً بهترین ابزار در دسترس شما برای پیدا کردن URL های سایت هستند. این لاگ‌ها لیست کاملی از هر مسیر URL که توسط کاربران، Googlebot یا سایر ربات‌ها طی یک دوره فراخوانی شده اند را ذخیره می‌کنند و می توانید برای پیدا کردن تمام URL های سایت از آن ها استفاده نمایید.

نکاتی که باید برای استفاده از فایل‌های لاگ سرور جهت پیدا کردن URL های سایت در نظر داشته باشید:

  • حجم داده: فایل‌های لاگ می‌توانند بسیار بزرگ باشند، بنابراین بسیاری از سایت‌ها فقط داده‌های دو هفته اخیر را نگه می‌دارند.
  • پیچیدگی: تحلیل فایل‌های لاگ می‌تواند چالش‌برانگیز باشد اما ابزارهای مختلفی برای ساده‌سازی این فرآیند وجود دارند.

جمع بندی

با پیدا کردن تمام URL های سایت از این منابع، وقت آن است که آنها را ترکیب کنید. اگر سایت شما کوچک است، Excel یا برای مجموعه‌داده‌های بزرگتر، ابزارهایی مانند Google Sheets یا Jupyter Notebook را استفاده کنید. مطمئن شوید که همه URL ها فرمت یکسانی دارند، سپس لیست را از داده‌های تکراری پاک کنید. هم اکنون لیستی جامع از url های فعلی، قدیمی و آرشیو شده دارید.

اشتراک گذاری:

نظرات

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *