فایل robots.txt یک فایل متنی است که توسط آن امکان تعریف برخی قوانین برای ربات های موتور جستجو وجود دارد. قوانینی مانند محدود کردن ربات موتور جستجو برای دسترسی به فایل، فولدر، منابع مانند عکس و CSS و js، صفحه و کل سایت وجود دارد. همچنین همان طور که در بخش sitemap توضیح داده شد، آدرس نقشه سایت را نیز می توانید توسط فایل robots.txt به موتورهای جستجو اعلام نمایید. فایل robots.txt باید به صورت 8-UTF ذخیره شده باشد.
نکات استفاده از robots
- نام فایلrobots.txt باید به حروف کوچک نوشته شود.
- خزنده های موتورهای جستجوی مختلف ممکن است رفتار متفاوتی نسبت به یکدیگر داشته باشند.
قوانینی که در ادامه نوشته شده در مورد موتور جستجو گوگل صدق می کند.
- در صورتیکه یک صفحه یا دایرکتوری را از طریق robots.txt بر روی خزنده موتور جستجو مسدود کرده باشید، ممکن است خزنده موتور جستجو از روش های دیگر به آن صفحه دسترسی پیدا کرده و آن را ایندکسکند. در صورتیکه قصد دارید مانع از ایندکس شدن یک صفحه شوید، از متا تگ ربات استفاده کنید و یا دسترسی به آن را توسط نام کاربری و کلمه عبور محدود کنید.
- robots.txt نمی تواند مانع از ورود خزنده موتور جستجو از سایت دیگری که به سایت شما لینک داده بشود.
المان های robots.txt
جهت نوشتن robots.txt امکان استفاده از چهار المان sitemap ،allow ،disallow ،user-agent وجود دارد.
user-agent
نشان دهنده نوع خزنده موتور جستجو است و وب سرور توسط آن می تواند نوع خزنده وب را شناساییکند. نام تعدادی از خزنده های وب در آدرسwww.robotstxt.org/db.html موجود است.
روش نوشتن user-agent در robots.txt به صورت زیر است:
[نام ربات] : user- agent
مانند:
*:user-agent
user-agent: Google-bot
گوگل دارای user-agent های مختلفی است. به عنوان نمونه Googlebot نام user-agent موتور جستجوی گوگل و Googlebot-Image نام user-agent موتور جستجوی عکس گوگل هستند.
Disallow
با استفاده از Disallow می توانید صفحه یا مسیر با پسوندی را که می خواهید بر روی خزنده موتور جستجو مسدود کنید را مشخص نمایید.
[مسیر مورد نظر ] :Disallow
/Disallow: /articles
Disallow: /products/product1.html
Disallow: /*.png
Allow
با استفاده از Allow می توانید برای یک صفحه یا مسیر از درون مسیری که بر روی خزنده موتور <جستجو مسدود کرده بودید استثنا قائل شوید و به موتور جستجو اجازه بدهید آن را بخواند و ایندکس کند.
[مسیر مورد نظر ] :Allow
/Allow: /articles/seo
Allow: /products/product2.html
Allow: /*.CSS
sitemap
با استفاده از sitemap می توانید مسیر نقشه های سایت برای موتور جستجو را مشخص نمایید. همه موتورهای جستجو از sitemap در فایل robots.txt پشتیبانی نمی کنند. البته علاوه بر گوگل،موتورهای جستجوی بزرگ مانند Bing و Yahoo و Ask نیز از sitemap در فایل robots.txtپشتیبانی می کنند.
[مسیر نقشه سایت ] :sitemap
sitemap: https://www.example.com/sitemap.xml
دستورات robots
جهت نوشتن robots.txt از دستورات متعددی می توان استفاده نمود که در جدول زیر تعدادی از آنها به عنوان نمونه نمایش داده شده اند.
توضیح | نمونه |
---|---|
همه سایت | /:Disallow |
مانند / است و به معنی همه سایت است. | /*:Disallow |
یک دایرکتوری به همراه همه محتویاتش | /Disallow: /sample-directory |
هر صفحه ای با نام file.html که بعد از یک slash باشد. | Disallow: /file.html |
یک عکس خاص برای ربات جستجوی عکس گوگل مسدود شده | User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
همه سایت بر روی ربات جستجوی عکس گوگل محدود شده | User-agent: Googlebot-Image /:Disallow |
همه مسیرهایی که در انتهای آنها gif. باشد | $Disallow: /*.gif |
هر دایرکتوری که ابتدای نام آن private باشد به همراه محتویاتش | /*Disallow: /private |
هر آدرسی که در آن علامت سوال وجود داشته باشد. | ?*/:Disallow |
هر آدرسی که با علامت سوال پایان یابد. | $?*/:Disallow |
محل قرارگیری فایلrobots.txt
فایل robots.txt باید در ریشه سایت آپلود شود و به عنوان نمونه با آدرس زیر در دسترس باشد.
http://www.example.com/robots.txt
بیشتر موتورهای جستجو فایل robots.txt را با یکی از پروتکل های http یا https می توانند بخوانند ولی گوگل از پروتکل ftp نیز پشتیبانی می کند. بنابراین برای یک صفحه با پروتکل ftp نیز امکان داشتن فایلrobots.txt وجود دارد به شرطی که برای دسترسی به آن به نام کاربری و کلمه عبور ftp نیازی نباشد.
مطلب قبلی: اصول کلی نقشه سایت
مطلب بعدی: موبایل فرندلی (Mobile friendly)