ما اینجا در Moz سعی کرده‌ایم تا جایی که می‌شود Link Explorer را مخصوصاً در شیوه ردیابی وب شبیه به گوگل طراحی کنیم. در مقالات پیشین آموزش سئو در مورد برخی از معیارهایی که برای تعیین این عملکرد استفاده کرده‌ایم، صحبت شده است، اما امروز می‌خواهم کمی درباره تاثیر robots.txt و ردیابی وب صحبت کنم.

اکثر شما با robots.txt به عنوان روشی آشنا هستید که وب‌ مسترها می‌توانند از طریق آن گوگل و دیگر ربات‌ها را برای بازدید از صفحات مشخصی از سایت هدایت کنند. وب‌ مسترها می‌توانند انتخابی عمل کنند و به ربات‌های معینی اجازه دهند تا از برخی صفحات بازدید کنند در صورتیکه می‌توانند از دسترسی برخی دیگر جلوگیری نمایند. این برای شرکت‌هایی مانند Moz، Majestic و Ahrefs ایجاد مشکل می‌کند: ما سعی می‌کنیم که وب را همانند گوگل ردیابی کنیم اما وب‌سایت‌های معینی دسترسی به ربات‌های ما را منع می‌کنند در صورتیکه به Googlebot اجازه‌ دسترسی می‌دهند. بنابراین دلیل اهمیت آن چیست؟

چرا مهم است؟

اگر همانطور که وب را ردیابی می‌کنیم رباتی با یک فایل robots.txt برخورد کند برای ردیابی محتوایی خاص بلاک می‌شود. می‌توانیم لینک‌هایی را ببینیم که به سایت اشاره می‌کنند اما نمی‌توانیم محتوای خود سایت را ببینیم. نمی‌توانیم لینک‌های خارج از محدوده سایت را ببینیم. این موضوع حداقل از لحاظ شبیه بودن به گوگل موجب به وجود آمدن یک کمبود فوری در نمودار لینک می‌شود ( اگر Googlebot نیز همانند آن بلاک نشود).

اما این تنها مشکل ما نیست، مشکلاتی مانند اولویت‌بندی ردیابی نیز برای ربات‌هایی که توسط robots.txt بلاک می‌شوند به وجود می‌آید. زمانی که یک ربات شروع به ردیابی وب می‌کند لینک‌هایی را کشف کرده و باید اولویت‌بندی کند که بعد از آن کدام لینک‌ها باید اولویت‌بندی شوند. بگذارید بگوییم گوگل ۱۰۰ لینک پیدا می‌کند و ۵۰ تای اول را برای ردیابی اولویت‌بندی می‌کند. گرچه ربات دیگری همان ۱۰۰ لینک را پیدا می‌کند اما برای ردیابی ۱۰ صفحه از ۵۰ صفحه برتر توسط robots.txt بلاک می‌شود. در عوض مجبور می‌شوند در اطراف آن‌ها ردیابی کنند و آن‌ها را وادار کنند تا ۵۰ صفحه دیگر را برای ردیابی انتخاب کنند. البته این مجموعه متفاوت از صفحات ردیابی شده لینک‌های متفاوتی را نیز باز می‌گردانند. گوگل نه تنها در دور بعدی ردیابی  اجازه دارد تا مجموعه‌ای دیگر را ردیابی کند بلکه خود مجموعه نیز متفاوت خواهد بود زیرا در وهله اول صفحات متفاوت را ردیابی می‌کنند.

خلاصه می‌کنم، درست مانند ضرب‌المثل قطره قطره جمع گردد وانگهی دریا شود، تغییرات کوچک در robots.txt که مانع برخی ربات‌ها شده و به برخی مجوز می‌دهد نهایتاً منجربه تغییرات بسیار متفاوتی در نوع دید گوگل می‌شود.

پس باید چه کار کنیم؟

می‌دانید که قصد ندارم شما را بلاتکلیف بگذارم. بگذارید تحقیقی انجام دهیم. بیایید ۱٫۰۰۰٫۰۰۰ وب‌ سایت برتر در اینترنت را بر اساسQuantcast  تجزیه و تحلیل کرده و مشخص کنیم که چه ربات‌هایی بلاک می‌شوند و غالباً چه تاثیراتی دارند.

روشمندی

این روش نسبتاً ساده است.

۱- Quantcast Top Million را دانلود کنید.

۲- اگر ممکن است robots.txt را از میلیون‌ها سایت برتر دانلود کنید.

۳- robots.txt را تجزیه و تحلیل کنید تا مشخص شود که آیا صفحه اصلی و دیگر صفحات در دسترس هستند.

۴- داده‌های لینک مربوط به سایت‌های بلاک شده را جمع‌آوری کنید.

۵- کلیه صفحات درون سایت را که با سایت‌های بلاک شده مرتبط هستند جمع‌آوری کنید.

۶- تفاوت میان ردیاب‌ها را گزارش کنید.

تعداد کلی سایت‌هایی که ردیاب‌ها در آن‌ها بلاک شده‌اند

اولین و ساده‌ترین معیار برای گزارش تعداد سایت‌هایی است که ردیاب‌هایی مانند Moz، Majestic و Ahrefs را بلاک می‌کنند در حالی که به گوگل اجازه ردیابی می‌دهند. اکثر سایت‌هایی که یکی از ردیاب‌های عمده سئو را بلاک می‌کنند در واقع همه آن‌ها را بلاک می‌کنند. آن‌ها به آسانی طوری robots.txt را فرمول‌بندی می‌کنند تا به موتورهای جستجوی عمده اجازه ردیابی دهند در حالی که ربات‌های ترافیک دیگر را بلاک می‌کنند. هر چه کمتر بهتر.

تعداد کلی سایت‌هایی که ردیاب‌ها در آن‌ها بلاک شده‌اند

از سایت‌هایی که تجزیه و تحلیل شده‌اند ۲۷٫۱۲۳ تای آن‌ها ربات MJ12Bot (Majestic)، ۳۲٫۹۸۲ تای آن‌ها Ahrefs و ۲۵٫۴۲۷ تای آن‌ها Moz را بلاک کرده‌اند. این بدان معناست که در میان عمده ردیاب‌هایی که در حرفه ما وجود دارند احتمال بلاک شدن Moz  توسط سایت‌هایی که به Googlebot  اجازه ردیابی می‌دهند از همه کمتر است. اما این واقعاً به چه معناست؟

تعداد کلی دامنه‌های ارجاعی که ردیاب‌ها را بلاک کرده‌اند

همانطور که قبلاً بحث شد، یک مشکل بزرگی که در مورد ورودی‌های robots.txt مختلف وجود دارد این است که جریان PageRank را متوقف می‌کنند. اگر گوگل سایتی را ببیند می‌تواند لینک اکوییتی را از دامنه‌های ارجاعی به دامنه‌های خارج از محدوده سایت عبور دهد. اگر سایتی توسط robots.txt بلاک شود، درست مانند این است که خطوط خارجی ترافیک در همه جاده‌های منتهی به سایت بلاک شده است. با ادامه دادن همه خطوط داخلی ترافیک می‌توانیم به ایده تاثیر کلی بر روی نمودار لینک برسیم. هر چه کمتر بهتر.

تعداد کلی دامنه‌های ارجاعی که ردیاب‌ها را بلاک کرده‌اند

بر طبق تحقیقات ما Majestic به مرز ۱۷٫۷۸۷٫۱۱۸ دامنه ارجاعی، Ahrefs به مرز ۲۰٫۰۷۲٫۶۹۰ و Moz به مرز ۱۶٫۵۹۸٫۳۶۵ دامنه ارجاعی رسید. بار دیگر پروفایل robots.txt در Moz شبیه‌ترین به گوگل بود. اما دامنه‌های ارجاعی تنها مشکلاتی نیستند که باید نگران آن‌ها باشیم.

تعداد کلی صفحاتی که ردیاب‌ها در آن‌ها بلاک شده‌اند

اکثر صفحات موجود بر روی وب فقط دارای لینک‌های داخلی هستند. گوگل نسبت به ساخت نمودار لینک علاقه‌ای نشان نمی‌دهد، آن‌ها به ساخت موتور جستجو علاقه‌مند هستند. بنابراین رباتی که برای داشتن عملکرد مشابه گوگل ساخته شده است اصولاً باید نگران صفحاتی باشد که فقط لینک‌های داخلی را دریافت می‌کنند زیرا این‌ها همان صفحاتی هستند که لینک‌های خارجی هم دریافت می‌کنند. معیار دیگری که می‌توانیم اندازه‌گیری کنیم تعداد کلی صفحاتی است که با استفاده از سایت گوگل بلاک می‌شوند : هدف تخمین تعداد صفحاتی است که ردیاب‌های گوگل به آن‌ها دسترسی دارند اما ردیاب‌های دیگر نه. بنابراین دنیای رقابت میان ردیاب‌ها چگونه است؟ هر چه کمتر بهتر.

تعداد کلی صفحاتی که ردیاب‌ها در آن‌ها بلاک شده‌اند

یک بار دیگر Moz در این معیار خوش درخشید. موضوع فقط این نیست که Moz درسایت‌های کمتری بلاک شده است، Moz توسط سایت‌های کم اهمیت‌تر و کوچک‌تر بلاک شده است. Majestic فرصت ردیابی برای ۶۷۵٫۳۸۱٫۹۸۲ صفحه را از دست داد، Ahrefs فرصت ردیابی برای ۷۳۲٫۸۷۱٫۷۱۴ صفحه را از دست داد و Moz فرصت ردیابی برای ۶۵۸٫۰۱۵٫۸۸۵ صفحه را از دست داد. همچنین ۸۰ میلیون صفحه تفاوت میان Ahrefs و Moz فقط در میلیون‌ها سایت برتر در وب است.

سایت‌های منحصر به فردی که ردیاب‌ها را بلاک کرده‌اند

اکثر robots.txt ها که اجازه مواجهه با Moz، Majestic و Ahrefs را نمی‌دهند بلوک‌هایی از ربات‌ها هستند که موتورهای جستجوی بزرگ را نمایندگی نمی‌کنند. گرچه می‌توانیم ربات‌هایی خاص که عمداً برای این منظور استفاده شده‌اند را از این امر مستثنی کنیم. برای مثال، چند بار Moz بلاک شده اما Ahrefs و Majestic بلاک نشده‌اند؟ این بلاک‌ها مختص کدام ربات‌ها است؟ هر چه کمتر بهتر.

سایت‌های منحصر به فردی که ردیاب‌ها را بلاک کرده‌اند

Ahrefs توسط ۱۲۰۱ سایت بلاک شده، Majestic توسط ۷۱۵۲ سایت بلاک شده و Moz توسط ۹۰۴ سایت بلاک شده است. قابل درک است که این رقم برای Majestic بیشتر است زیرا سال‌هاست که آن‌ها یک فهرست لینک بسیار بزرگ را هدایت می‌کنند، شاید یک دهه یا بیشتر. ۱۰ سال طول کشید تا Moz توسط ۹۰۴ robots.txt بلاک شود و برای Ahrefs 7 سال طول کشید تا توسط ۱۲۰۴ robots.txt بلاک شود. اما بگذارید مثال‌هایی در مورد اهمیت این موضوع بزنم.

  • اگر لینک‌های سایت‌های name.com، hypermart.net و eclipse.org برای شما مهم هستند، نمی‌توانید فقط به Majestic تکیه کنید.
  • اگر لینک‌های سایت‌‍های popsugar.com، dict.cc و bookcrossing.com برای شما مهم هستند، نمی‌توانید فقط به Moz تکیه کنید.
  • اگر لینک‌های سایت‌های dailymail.co.uk، patch.com یا getty.edu برای شما مهم هستند، نمی‌توانید فقط به Ahrefs تکیه کنید.

و صرف‌نظر از اینکه چه می‌کنید و از چه ارائه‌دهنده‌ای استفاده می‌کنید، نمی‌توانید لینک‌هایی از yelp.com، who.int یا findarticles.com کسب کنید.

نتیجه‌گیری

در حالی که ردیاب Moz یعنی DotBot از نزدیکترین پروفایل robots.txt به گوگل در میان سه شاخص عمده لینک لذت می‌برد، هنوز هم کارهای زیادی برای انجام دادن وجود دارد. ما با جدیت بر روی نحوه رفتار ردیاب کار می‌کنیم تا مطمئن شویم که باری بر روی دوش وب‌مسترها نیستیم، که این امر به ما اجازه می‌دهد تا در ردیابی خود رفتار شبیه‌تری به گوگل داشته باشیم. همچنین در حال کار کردن بر روی بهبود عملکرد خود در وب و مهیا کردن بهترین شاخص‌های بک‌لینک‌ برای شما هستیم.

با تشکر از Dejan SEO برای نمودار لینک زیبایی که در تصویر هِدِر استفاده کردیم و Mapt برای تصویر اولیه‌ای که در جداول از آن استفاده کردیم.