Robots.txt: Różnice pomiędzy wersjami
Z ToProste
m |
m (→Zobacz też) |
||
(Nie pokazano 3 pośrednich wersji utworzonych przez tego samego użytkownika) | |||
Linia 27: | Linia 27: | ||
::'''Disallow:''' ''nazwa_katalogu'' <span style="color:grey">- nie zezwala na przeglądanie - indeksowanie zawartości katalogu</span> ''nazwa_katalogu''. | ::'''Disallow:''' ''nazwa_katalogu'' <span style="color:grey">- nie zezwala na przeglądanie - indeksowanie zawartości katalogu</span> ''nazwa_katalogu''. | ||
− | *'''Sitemap:''' ''http// | + | |
+ | *'''Sitemap:''' ''http//twoja_domena/sitemap.xml'' <span style="color:grey">- określa adres [[Mapa serwisu www|mapy serwisu]].</span> | ||
+ | |||
+ | |||
+ | == Przykład == | ||
+ | <syntaxhighlight lang="text"> | ||
+ | # Wskazuje lokalizacje mapy serwisu | ||
+ | Sitemap: http//twoja_domena/sitemap.xml | ||
+ | |||
+ | # Zabraniam dostepu wszystkim robotom do katalogow temp i administrator | ||
+ | User-agent: * | ||
+ | Disallow: /temp | ||
+ | Disallow: /administrator | ||
+ | |||
+ | # Zabraniam dostepu robotowi googlebot do katalogu /images/ | ||
+ | User-agent: googlebot | ||
+ | Disallow: /images | ||
+ | |||
+ | # Zezwalam robotowi artuditu na dostep do calej zawartosci serwisu | ||
+ | # jednoczesnie zabraniam dostepu do wszystkich plikow png w katalogu /images/ | ||
+ | User-agent: artuditu | ||
+ | Allow: / | ||
+ | Disallow: /images/*.png | ||
+ | |||
+ | </syntaxhighlight> | ||
+ | |||
+ | Ważne! | ||
+ | W komendach Allow: i Disallow: nazwy katalogów należy podawać bez / na końcu. | ||
+ | Dobrze: Disallow: /images | ||
+ | Źle: Disallow: /images/ | ||
+ | |||
+ | == Zobacz też == | ||
+ | <htmlet>zobacz-tez</htmlet> | ||
+ | * [[Meta name – robots |Sterowanie zachowaniem robotów za pomocą META NAME]] | ||
+ | |||
+ | |||
+ | === Podstawowe informacje o robotach wyszukiwarek === | ||
+ | * [http://www.robotstxt.org/wc/faq.html The Web Robots FAQ] | ||
+ | * [http://www.robotstxt.org/wc/exclusion.html Robots Exclusion] Opis zasad sterowania robotem na własnej stronie | ||
+ | * [http://www.robotstxt.org/wc/active.html The Web Robots Database] Lista aktywnych działających robotów sieciowych | ||
+ | |||
+ | |||
+ | [[Kategoria:Wyszukiwarki internetowe]] | ||
+ | [[Kategoria:Robots]] |
Aktualna wersja na dzień 21:55, 20 kwi 2013
robots.txt jest to zwykły plik tekstowy, który umieszczony w katalogu domowym serwisu www informuje roboty indeksujące strony o tym co powinny indeksować, a czego nie. Wskazuje również robotom wyszukiwarek mapę stron serwisu.
Każdy serwis internetowy powinien posiadać plik robots.txt, zwłaszcza, że jego obecność korzystnie wpływa na szybkość indeksowania stron i pozycjonowanie serwisu w wyszukiwarkach internetowych.
Reguły zawarte w pliku robots.txt są tylko sugestiami dla robotów indeksujących strony. Nie wszystkie roboty muszą ich przestrzegać.
Spis treści
Struktura pliku robots.txt
- znak # oznacza wiersz zawierający komentarz
- każda komenda powinna być w nowym wierszu
- poszczególne reguły oddziela się pustym wierszem
- wielkość znaków w nazwach robotów nie ma znaczenia (RoBot = robot = ROBOT)
Komedy
- User-agent: * - Gwiazdka * oznacza że reguła dotyczy wszystkich robotów.
- User-agent: nazwa_robota - określa robota którego dotyczy reguła.
- Allow: / - zezwala robotowi na dostęp do całej zawartości serwisu.
- Allow: nazwa_katalogu - zezwala na przeglądanie - indeksowanie zawartości katalogu nazwa_katalogu.
- Disallow: / - zabrania robotowi dostępu do całej zawartości serwisu.
- Disallow: - odwrotność komendy Disallow: /. Nie zabrania robotowi dostępu do całej zawartości serwisu.
- Disallow: nazwa_katalogu - nie zezwala na przeglądanie - indeksowanie zawartości katalogu nazwa_katalogu.
- Sitemap: http//twoja_domena/sitemap.xml - określa adres mapy serwisu.
Przykład
# Wskazuje lokalizacje mapy serwisu Sitemap: http//twoja_domena/sitemap.xml # Zabraniam dostepu wszystkim robotom do katalogow temp i administrator User-agent: * Disallow: /temp Disallow: /administrator # Zabraniam dostepu robotowi googlebot do katalogu /images/ User-agent: googlebot Disallow: /images # Zezwalam robotowi artuditu na dostep do calej zawartosci serwisu # jednoczesnie zabraniam dostepu do wszystkich plikow png w katalogu /images/ User-agent: artuditu Allow: / Disallow: /images/*.png
Ważne! W komendach Allow: i Disallow: nazwy katalogów należy podawać bez / na końcu. Dobrze: Disallow: /images Źle: Disallow: /images/
Zobacz też
<htmlet>zobacz-tez</htmlet>
Podstawowe informacje o robotach wyszukiwarek
- The Web Robots FAQ
- Robots Exclusion Opis zasad sterowania robotem na własnej stronie
- The Web Robots Database Lista aktywnych działających robotów sieciowych