فایل robots.txt چیست؟

فایل robots.txt یک فایل متنی است که توسط آن امکان تعریف برخی قوانین برای ربات های موتور جستجو وجود دارد. قوانینی مانند محدود کردن ربات موتور جستجو برای دسترسی به فایل، فولدر، منابع مانند عکس و CSS و js، صفحه و کل سایت وجود دارد. همچنین همان طور که در بخش sitemap توضیح داده شد، آدرس نقشه سایت را نیز می توانید توسط فایل robots.txt به موتورهای جستجو اعلام نمایید. فایل robots.txt باید به صورت 8-UTF ذخیره شده باشد.

نکات استفاده از robots

نام فایلrobots.txt باید به حروف کوچک نوشته شود.
خزنده های موتورهای جستجوی مختلف ممکن است رفتار متفاوتی نسبت به یکدیگر داشته باشند.

قوانینی که در ادامه نوشته شده در مورد موتور جستجو گوگل صدق می کند.

در صورتیکه یک صفحه یا دایرکتوری را از طریق robots.txt بر روی خزنده موتور جستجو مسدود کرده باشید، ممکن است خزنده موتور جستجو از روش های دیگر به آن صفحه دسترسی پیدا کرده و آن را ایندکسکند. در صورتیکه قصد دارید مانع از ایندکس شدن یک صفحه شوید، از متا تگ ربات استفاده کنید و یا دسترسی به آن را توسط نام کاربری و کلمه عبور محدود کنید.
robots.txt نمی تواند مانع از ورود خزنده موتور جستجو از سایت دیگری که به سایت شما لینک داده بشود.

المان های robots.txt

جهت نوشتن robots.txt امکان استفاده از چهار المان sitemap ،allow ،disallow ،user-agent وجود دارد.

user-agent

نشان دهنده نوع خزنده موتور جستجو است و وب سرور توسط آن می تواند نوع خزنده وب را شناساییکند. نام تعدادی از خزنده های وب در آدرسwww.robotstxt.org/db.html موجود است.

بخوانید! قواعد جدید سئو

روش نوشتن user-agent در robots.txt به صورت زیر است:

[نام ربات] : user- agent

مانند:

*:user-agent

user-agent: Google-bot

گوگل دارای user-agent های مختلفی است. به عنوان نمونه Googlebot نام user-agent موتور جستجوی گوگل و Googlebot-Image نام user-agent موتور جستجوی عکس گوگل هستند.

Disallow

با استفاده از Disallow می توانید صفحه یا مسیر با پسوندی را که می خواهید بر روی خزنده موتور جستجو مسدود کنید را مشخص نمایید.

[مسیر مورد نظر ] :Disallow

/Disallow: /articles

Disallow: /products/product1.html

Disallow: /*.png

Allow

با استفاده از Allow می توانید برای یک صفحه یا مسیر از درون مسیری که بر روی خزنده موتور <جستجو مسدود کرده بودید استثنا قائل شوید و به موتور جستجو اجازه بدهید آن را بخواند و ایندکس کند.

[مسیر مورد نظر ] :Allow

/Allow: /articles/seo

Allow: /products/product2.html

Allow: /*.CSS

sitemap

با استفاده از sitemap می توانید مسیر نقشه های سایت برای موتور جستجو را مشخص نمایید. همه موتورهای جستجو از sitemap در فایل robots.txt پشتیبانی نمی کنند. البته علاوه بر گوگل،موتورهای جستجوی بزرگ مانند Bing و Yahoo و Ask نیز از sitemap در فایل robots.txtپشتیبانی می کنند.

[مسیر نقشه سایت ] :sitemap

sitemap: https://www.example.com/sitemap.xml

دستورات robots

جهت نوشتن robots.txt از دستورات متعددی می توان استفاده نمود که در جدول زیر تعدادی از آنها به عنوان نمونه نمایش داده شده اند.

توضیح	نمونه
همه سایت	/:Disallow
مانند / است و به معنی همه سایت است.	/*:Disallow
یک دایرکتوری به همراه همه محتویاتش	/Disallow: /sample-directory
هر صفحه ای با نام file.html که بعد از یک slash باشد.	Disallow: /file.html
یک عکس خاص برای ربات جستجوی عکس گوگل مسدود شده	User-agent: Googlebot-Image Disallow: /images/dogs.jpg
همه سایت بر روی ربات جستجوی عکس گوگل محدود شده	User-agent: Googlebot-Image /:Disallow
همه مسیرهایی که در انتهای آنها gif. باشد	$Disallow: /*.gif
هر دایرکتوری که ابتدای نام آن private باشد به همراه محتویاتش	/*Disallow: /private
هر آدرسی که در آن علامت سوال وجود داشته باشد.	?*/:Disallow
هر آدرسی که با علامت سوال پایان یابد.	$?*/:Disallow

بخوانید! طراحی سایت شرکت معماری

محل قرارگیری فایلrobots.txt

فایل robots.txt باید در ریشه سایت آپلود شود و به عنوان نمونه با آدرس زیر در دسترس باشد.

http://www.example.com/robots.txt

بیشتر موتورهای جستجو فایل robots.txt را با یکی از پروتکل های http یا https می توانند بخوانند ولی گوگل از پروتکل ftp نیز پشتیبانی می کند. بنابراین برای یک صفحه با پروتکل ftp نیز امکان داشتن فایلrobots.txt وجود دارد به شرطی که برای دسترسی به آن به نام کاربری و کلمه عبور ftp نیازی نباشد.

مطلب قبلی: اصول کلی نقشه سایت

مطلب بعدی: موبایل فرندلی (Mobile friendly)