Robots.txt — do czego służy, możliwe błędy

Robots.txt to plik tekstowy, który mówi robotom wyszukiwarek, jak mają indeksować Twoją stronę. Chroni Twoją witrynę i serwer przed przeciążeniem przez roboty wyszukiwarek.

Jeśli chcesz zablokować wyszukiwarki, ważne jest, aby upewnić się, że ustawienia są poprawne. Jest to szczególnie ważne, jeśli używasz dynamicznych adresów URL lub innych metod, które w teorii generują nieskończoną liczbę stron.

Co to jest plik robots?

Robots.txt to plik w formacie zwykłego tekstu. Umieszcza się go w katalogu głównym witryny (najwyższym katalogu w hierarchii). Jeśli plik zostanie umieszczony w innym katalogu, wyszukiwarki będą go ignorować. Mimo całej potęgi robots.txt wygląda jak zwykły dokument tekstowy. Można go stworzyć w kilka sekund w dowolnym edytorze tekstu.

Alternatywy dla robots.txt mogą również pełnić funkcję robots.txt. Na przykład meta tagi. Można je umieścić w kodzie pojedynczej strony.

Możesz również użyć nagłówka HTTP X-Robots-Tag, który określa ustawienia na poziomie strony.

Co robi robots.txt?

Plik robots txt może być wykorzystywany do różnych celów. Oto kilka najpopularniejszych z nich.

  • Blokowanie indeksów wyszukiwarek przed indeksowaniem określonych stron

Mogą one nadal pojawiać się w wynikach wyszukiwarki, ale bez opisu tekstowego. Treści nie-HTML również nie będą indeksowane.

  • Blokowanie plików multimedialnych przed pojawieniem się w wynikach wyszukiwania

Przez pliki multimedialne rozumiemy obrazy, filmy i pliki audio. Jeśli plik jest udostępniony, zostanie wyświetlony, ale prywatna zawartość nie zostanie uwzględniona w wynikach wyszukiwania.

  • Blokowanie plików zasobów z nieistotnymi skryptami zewnętrznymi

Jeśli strona ma zablokowany plik zasobów, wyszukiwarki przyjmą, że w ogóle nie istniał. Może to wpłynąć na indeksowanie.

Użycie robots.txt nie pozwoli na całkowite zablokowanie wyświetlania strony w wynikach wyszukiwania. Wymagałoby to dodania meta tagu noindex na górze strony.

Jak niebezpieczne są błędy robots.txt?

Błędy w robots.txt mają pewne konsekwencje, ale zazwyczaj nie są tragiczne. A uporządkowanie pliku pozwoli na szybkie i pełne odzyskanie danych.

Jak zauważa sam Google, roboty wyszukiwarek mają dość elastyczne algorytmy. Dlatego drobne błędy w pliku robots.txt nie mają wpływu na ich pracę. W najgorszym przypadku nieprawidłowa lub nieobsługiwana dyrektywa zostanie zignorowana. Jednak jeśli wiesz, że w pliku są błędy, warto je naprawić.