Forum Katalogu Ciekawych Stron Strona Główna  Forum Katalogu Ciekawych Stron Strona Główna  
 
FAQ  FAQ   Szukaj  Szukaj   Użytkownicy  Użytkownicy   Ranking systemów  Ranking systemów   Grupy  Grupy  
 
Rejestracja  ::  Zaloguj Zaloguj się, by sprawdzić wiadomości
 
Forum Katalogu Ciekawych Stron Strona Główna » Roboty » Robots.txt i roboty indeksujące

Napisz nowy temat  Odpowiedz do tematu
 Robots.txt i roboty indeksujące « Zobacz poprzedni temat :: Zobacz następny temat » 
Autor Wiadomość
Martin
PostWysłany: 21 Cze 2005, 02:11    Temat postu: Robots.txt i roboty indeksujące Odpowiedz z cytatem Zacytuj zaznaczone

KCS_Admin
KCS_Admin

Dołączył: 17 Cze 2005
Posty: 5566

Skąd: Piaseczno

Wiele robotów indeksujących, które wchodzą na Twoje strony bedzie podążać za linkami, wgłąb witryny do różnych katalogów. Potem dane, które pobierze robot mogą zostać zaindeksowane w wyszukiwarkach internetowych. I tutaj pojawia się problem: możesz niechcieć, aby roboty pobrały jakieś dane z Twojego serwera.

Plik Robots.txt
Roboty indeksujące sprawdzają specjalny plik o nazwie robots.txt, który powinien znajdować się w katalogu głównym serwera. Plik robots.txt (jak można się domyślić) jest plikiem tekstowym bez tagów HTML. Robots.txt używa specjalnego protokołu - Robots Exclusion Protocol, który pozwala administratorowi zdefiniować, które katalogi / pliki na jego serwerze nie zostaną odwiedzone przez określone roboty. Możemy zakazać (disallow) "wstępu" do katalogu CGI, private lub np. katalogu tymczasowego.

No dobrze, ale po co używać robots.txt i tym samym zakazywać robotom indeksującym odwiedzenia i zaindeksowania naszej strony? Przecież chcemy zapewnić sobie jak najwyższą pozycję w wyszukiwarkach.

Wierzcie mi, lub nie, ale czasem chcemy trzymać niektóre roboty zdala od naszego serwera...

Powiedzmy, że przygotowujesz jakąś stronę dla klienta i nie chcesz, żeby została zaindeksowana przed jej ukończeniem. Zdarza się, że jakiś wredny robot wpadnie w pętlę i bedzię wchodził na Twoją stronę w kółko, generując niepotrzebny korek. Możesz mieć stronę z dużą ilością ramek i chcesz zaindeksować tylko tą główną.Może masz jakieś prywatne pliki na serwerze, i nie chcesz żeby ktoś je znalazł?

Możemy doszukiwać się wielu powodów, a robots.txt to najlepsza i najskuteczniejsza obrona przeciw robotom.

Składnia
Składnia tworzenia robots.txt jest dla większości 'przeciętnych' ludzi nieznana. Ogólnie można powiedzieć, że robots.txt zawiera proste komendy dla robota, których stron czy katalogów ma nie odwiedzać. Każda sekcja pliku zawiera nazwę robota (user agent) oraz ścieżkę, na którą danemu robotowi zakazany jest wstęp. Nie ma natomiast możliwości dopuszczenia robota do określonych katalogów lub plików o zadanych rozszerzeniach (możemy tylko zabraniaćWink Należy pamiętać, że robot może "wpełznął" do każdego katalogu na serwerze jeśli nie zostało mu to zabronione.

Najczęściej możemy przeczytać plik po prostu wpisując jego adres w przeglądarce ( na przykład www.spiders.pl/robots.txt). Zaletą takiego rozwiązania jest wielka wygoda w edycji (brak specjalnego edytora).

Jako, że najlepiej pokazać składnię robot.txt na przykładzie, poniżej prezentuję tabelkę:

Wpis Znaczenie
User-agent: *

Disallow:
Gwiazdka (*) w sekcji User-agent (nazwa robota), jest po prostu skrótem dla "wszystkie roboty". Jako, że nic nie jest zabronine, wszystko jest dozwolone. (tak jakby nie było robots.txt)

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /private/

W tym przykładzie wszystkie roboty mogą zaglądać gdzie im się podoba z wyjątkiem trzech niżej wymienionych katalogów.
User-agent: BadBot
Disallow: / W tym przypadku robot o nazwie BadBot nie może katalogować nic z tego serwera. (/) to skrót do "wszystkie katalogi".

Uwaga : BadBot = badbot = BADBOT

User-agent: BadBot

Disallow: /


User-agent: *

Disallow: /private/
To co poprzednio ale:

Pusta linijka oznacza,że zaczynamy nowy "wpis" - nową komendę User-agent. Wszystkie pozostałe roboty (poza BadBot), nie mogą odwiedzić katalogu /private/

User-agent: ZłyBot

Disallow: /tmp/

Disallow: /private/

Disallow: /links/listing.html



User-agent: *

Disallow: /tmp/

Disallow: /private/
Te komendy zabraniają dostępu (Złemubotowi) do wymienionych katalogów oraz do pliku listing.html

Wszystkie pozostałe roboty nie mogą wejść w tmp i private.

(Jeśli myślisz, że te komendy są wyjątkowo nieefektywne to masz rację)

Czego robić nie należy? - najczęstrze błędy
Jak Ci nie idzie, zawsze możesz skorzystać z The Robots Syntax Checker
User-agent: *
Disallow / Błąd! Nie ma dwukropka po Disallow.
User-agent: *
Disallow: *
Błąd jak chcesz żęby robot nie mógł nigdzie wejść użyj (/) w disallow
User-agent: sidewiner
Disallow: /tmp/
Nie! Roboty nie będą zważały na błędy w pisowni nazw robotów.

Zapraszamy do działu Baza Robotów.

Baza robotów

Zapraszamy do naszej obszernej bazy robotów. Znajdziesz w niej wiele informacji na temat poszczególnych robotów. Np. opis, adresy stron itd.

http://www.spiders.pl/baza-browse.php
_________________
Martin
- Prywatny Katalog Stron
- pizzeria La Nostra zaprasza
- e-Piaseczno i okolice, to najlepsze miejsce dla e-mieszkanca powiatu piaseczynskiego
- najlepsze prywatne przedszkole w Piasecznie
- moj prywatny fotoblog ze zdj?ciami
Powrót do góry
Zobacz profil autora Wyślij prywatną wiadomość Odwiedź stronę autora
KCS
Wysłany:     Temat postu: Reklama w KCS







Powrót do góry
max
PostWysłany: 22 Cze 2005, 12:58    Temat postu: Odpowiedz z cytatem Zacytuj zaznaczone

Znawca
Znawca

Dołączył: 16 Cze 2005
Posty: 738


Fajna sprawa, ale czy można pokazać jak dokładnie wygląda przykład jednego z takich plików, pomieważ link podany w terści nie jest poprawny.

Question
Powrót do góry
Zobacz profil autora Wyślij prywatną wiadomość
Martin
PostWysłany: 09 Lip 2005, 23:08    Temat postu: Odpowiedz z cytatem Zacytuj zaznaczone

KCS_Admin
KCS_Admin

Dołączył: 17 Cze 2005
Posty: 5566

Skąd: Piaseczno

Zapraszam do serwisu:



na podstronę:
http://www.spiders.pl/robots_txt-syntax.php
gdzie opisana jest składnia tworzenia robots.txt
_________________
Martin
- Prywatny Katalog Stron
- pizzeria La Nostra zaprasza
- e-Piaseczno i okolice, to najlepsze miejsce dla e-mieszkanca powiatu piaseczynskiego
- najlepsze prywatne przedszkole w Piasecznie
- moj prywatny fotoblog ze zdj?ciami
Powrót do góry
Zobacz profil autora Wyślij prywatną wiadomość Odwiedź stronę autora
elviz
PostWysłany: 13 Kwi 2008, 11:19    Temat postu: Odpowiedz z cytatem Zacytuj zaznaczone

Nowicjusz
Nowicjusz

Dołączył: 13 Kwi 2008
Posty: 1


Chciałbym zauważyć że istnieje jeszcze komenda "Allow", znalazłem ją np. tu: http://www.google.com/robots.txt Coś więcej na jej temat?
Powrót do góry
Zobacz profil autora Wyślij prywatną wiadomość
mariolosek
PostWysłany: 13 Gru 2008, 18:12    Temat postu: Odpowiedz z cytatem Zacytuj zaznaczone

Bywalec
Bywalec

Dołączył: 21 Lip 2006
Posty: 155


Tutaj informacje: http://www.webmasterworld.com/forum93/15.htm
_________________
Kurs AdWords - jak tanio i efektywnie reklamowa? si? w AdWords
Google Analytics - podr?cznik instalacji i wykorzystania Google Analytics
Blog o marketingu w wyszukiwarkach
Powrót do góry
Zobacz profil autora Wyślij prywatną wiadomość Odwiedź stronę autora
Wyświetl posty z ostatnich:   
Napisz nowy temat  Odpowiedz do tematu Strona 1 z 1


Forum Katalogu Ciekawych Stron Strona Główna » Roboty » Robots.txt i roboty indeksujące
Skocz do:  



Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach


katalog stron | forum
Powered by phpBB © 2005 phpBB Group