Ce este Robots.txt?
Robots.txt este un tip de fișier text care poate fi introdus de către deținătorul serverului pentru a indica motoarelor de căutare, specific crawlerilor web, ce pot și ce nu pot accesa din conținutul site-ului.
Un crawler web este programul folosit de motoarele de căutare pentru a colecta date, iar când acesta accesează o pagină, sortează conținutul și îl stochează într-o bază de date denumită index.
Fișierul Robots.txt conține niște reguli puse într-un format simplu, practic fiind capabil să blocheze selectiv anumite părți din componența site-ului. Odată blocate, aceste părți nu vor mai fi accesibile crawlerelor motoarelor de căutare, filtrând astfel conținutul la care au acces.
Robots.txt are scopul de a evita indexarea paginilor care nu au nici un folos in optimizarea SEO, având un rol foarte important. SE evita astfel probleme de canibalizare sau conținut duplicat.
Paginile de filtre pentru magazinele ecommerce sunt adesea blocate prin robots.txt pentru a împiedica indexarea combinațiilor infinite de filtre care se pot genera.