این فایل در ریشه سایت قرار می گیرد و نه در جایی دیگر! کاربرد درست و نادرست در دو مثال زیر نشان داده شده است.
کاربرد درست:
http://www.example.com/robots.txt
کاربرد نادرست:
http://www.example.com/mysite/robots.txt
بعد از آن که فایل robots.txt را بر روی سایت خود قرار دادید با بررسی لاگ سرور سایت خود میتوانید متوجه شوید که آیا موتورهای جست و جو به محدودیت هایی که تعریف کرده اید وفادار بوده اند یا خیر.
اگر یک موتور جست و جو به محتوای آن توجه نکرده باشد، می توانید با آنها مکاتبه کرده و علت را جویا شوید و از آنها بخواهید که فایل های مسیر مورد نظر را از بایگانی خود حذف کنند. گوگل و بینگ در ابزار ویژه وب مسترها این قابلیت را در اختیار شما گذارده اند.
هدف پروتکل
بهتر است بدانید که این پروتکل نمی تواند مانع خواندن محتوای سایت شود و تنها توصیه می کند. به عبارت دیگر شما نمی توانید هیچ موتور جست و جوگری را از خواندن سایت منع کنید. آنها همواره همه صفحات سایت را متناسب با قوانین خود، می خوانند و بعد از اعمال قوانین مدنظر صاحبان سایت ها، صفحات ممنوع شده را در نتایج جست و جوی خود نشان نداده و در بایگانی خود نیز قرار نمی دهند.
معمولا اعمال محدودیت ها با تأخیر صورت می پذیرد و اینگونه نیست که موتور جست و جو بلافاصله خود را با محتوای robots.txt هر سایت تطبیق دهد. گوگل هر چند محتوای صفحات محدود شده را نمی خواند اما هنوز هم امکان دارد آدرس آنها را در بایگانی خود نگه دارد. به این دلیل که در جایی دیگر ممکن است به آن آدرس ها لینک داده شده باشد.
حتی اگر سایت شما هیچ گونه محدودیتی ندارد، توصیه می شود یا یک فایل خالی روی سرور قرار دهید یا فایلی به صورت زیر:
* :useragent
:diallow
بودن این فایل خالی یا به صورت ذکر شده و نبودن آن برای موتورهای جست و جو یک معنا دارد: آزادی در دسترسی به همه محتوای سایت. اما وجود robots.txt می تواند نشانی از حرفه ای بودن سایت باشد و شاید در رتبه بندی سایت هم اثر بگذارد. بهتر است این گونه ادامه دهم: آزادی در پرتو یک قانون بدون محدودیت، بهتر است از آزادی ناشی از بی قانونی!
همواره یک مسیر را ممنوع کنید و نه یک فایل را، گیریم که شما فایل rtg.html را برای گوگل به صورت زیر محدود کرده باشید:
useragent: googlebot
diallow: /project/htmlresources/rtg.html
می دانید که تنها موتورهای جست و جو فایل robots.txt را نمی خوانند. در واقع همه کاربران وب با خواندن این فایل می توانند متوجه شوند که شما چه فایلی را محدود کرده اید و به راحتی می توانند به آن مراجعه کنند (منظوری جز کنجکاوی نیست) در حالی که اگر شما یک پوشه را محدود کرده باشید کاربران چون نام فایل های موجود در آن پوشه را نمی دانند، نمی توانند سر از کار شما در بیاورند یا (سختتر می توانند).
اگر قرار است موتورهای جست و جو هرگز به شاخه خاصی در سایت دسترسی نداشته باشند بهتر است برای آن شاخه، رمز عبور تعریف کنید. برای فرار از پیچیده شدن این بخش خبر خوب برای شما دارم. تنها کافیست قوانین این پروتکل را بیاموزید، بقیه موارد را می توانید در Google Webmaster Tools ارزیابی کنید.
گوگل در این سرویس خود بخشی دارد که می توانید به کمک آن درستی یا نادرستی به کار گیری قوانین این پروتکل را بررسی کنید به آدرس زیر مراجعه کنید:
https://www.google.com/webmasters
با جست و جوی عبارت robots validator می توانید به سایت های بسیاری بیابید که در ارزیابی این فایل به شما کمک خواهند کرد. بررسی فایل robots.txt گوگل و سایت های مهم دیگر نیز خالی از لطف نیست. برای کسب اطلاعات بیشتر در باره روبوت های مختلف و ثبت شده database of agents را در گوگل جست و جو کنیدو یا مستقیما به آدرس های زیر مراجعه نمایید:
http://www.robotstxt.org/db.html
/http://www.user-agents.org
هر سایت تنها می تواند یک فایل robots.txt داشته باشد که در ریشه سایت قرار می گیرد. نکته پایانی اینکه Sitemap سایت خود را (که بلافاصله بعد از این بخش معرفی شده است) همانند مثال زیر می توانید در فایل روبوتز قرار دهید:
Sitemap: http://www.cnn.com/sitemaps/sitemapindex.xml
آیا با این پروتکل می توان دسترسی به صفحه اصلی سایت را هم محدود کرد؟
مطلب قبلی: اجازه دسترسی به موتور های جستجو
مطلب بعدی: پروتکل XML SITEMAP