30 Haziran 2016 Perşembe

Robots.txt Oluşturucu - Robots.txt Nedir?

Robots txt Oluşturucu - Robots txt ne işe yarar
Bu makalemizde sizlere Robots.txt Oluşturucu aracımızı ve robots.txt nedir, robots.txt ne işe yarar, robots.txt örnek kullanım kodlarını anlatmaya çalışacağız.

Robot.txt hakkında bilgiye sahip olan kişiler hemen Robots.txt Oluşturucu Linkinden robots dosyasını oluşturabilir.

Bilmeyenler için robots.txt nedir açıklayım.

Robots.txt dosyası, arama motoru tarayıcılarının sitenizde erişmesini istemediğiniz linkleri ve dizinleri gösteren ve sitenizin kök dizininde bulunan bir dosyadır. Dosya, küçük bir komut setine sahip bir protokol olan Robotları Engelleme Standardı'nı kullanır. Web böceği (ingilizce: web spawler) veya web örümceği (ingilizce: web spider) gibi botların ereşmesini veya indexlenmesini istemediğiniz dizinlerin engelleme standart'ıdır.

Robots.txt ne işe yarar?

Robots.txt, bot'lar sitenize crawl için geldiği zaman, sizlerin belirlediği yerleri crawl edip, etmemek konusunda Robots.txt ihtiyaç duyarlar. Robots.txt içerisinde sizlerin belirlediği komutları algılayarak crawl'lama işlemine başlarlarlar. Eğer Robots.txt'nizde bir sorun varsa, bu sorun crawl'lama işlemine yansıyacaktır ve siteniz crawl edilmeyecektir. Robots.txt dosyası oluşturuluktan sonra alanınızın kök dizinine kayıt edilmesi gerekmektedir (Genellikle httpdocs yada www klasörüdür). Yanlış bir yere kayıt ederseniz bot'lar bulamayacaktır.

Robots.txt nasıl oluşturulur?

Robots.txt dosyasını oluşturmak oldukça kolaydır ancak gerekli komutların ve düzgün yazılması mutlaktır. Yapacağınız en ufak bir yazım yanlışı dosyanızın çalışmamasına neden olacaktır. Robots.txt oluşturmak için basit bir editör (Notepad, Wordpad, Word v.b) kullanabilirsiniz. Örnek olarak Notepad'i ele alacak olursak, Notepad'i açtıktan sonra içerisinde yazmak istediğimiz komutları sıralamamamız gereklidir.

Örnek Kullanımlar


Bütün robotların, site üzerindeki bütün dosyaları tarayabileceğine izin veren örnek; " * " yıldız işareti istisnasız tüm robotları indeksleme yapabileceğini gösterir.

User-agent: *
Disallow:


Bütün robotların, site üzerindeki hiçbir dosyayı taramamasının istendiği örnek;


User-agent: *
Disallow: /


Bütün robotlar, site üzerindeki aşağıdaki 4 klasörün içeriğini indekslememeli;


User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/


İsmi verilen robot, site üzerindeki ismi verilen klasörün içeriğini indekslememeli;


User-agent: BadBot # 'BadBot' kelimesi ilgili botun adı ile değiştirilir.
Disallow: /private/


Bütün robotlar, site üzerindeki aşağıdaki dosyayı indekslememeli; O klasördeki diğer bütün dosyalar ve sayfalar taratılır.


User-agent: *
Disallow: /directory/file.html


a harfi ile başlayan içerikleri engelleme


User-agent: *
Disallow: /a
#Bu kullanımda siteadi.com/a içeriğinin yanısıra a harfi ile başlayan siteadi.com/about içeriği de engellenmiş olur. Bu yüzden engellemeyi kullanırken lütfen dikkatli olalım.


Kod içinde yorum yazılan örnekler;


# Yorumlar "#" işaretinden sonra bir satır başında ya da bir komuttan sonra kullanılabilir.
User-agent: * # bütün botları kapsasın
Disallow: / # bütün botları uzak tutsun


Uyumluluk

Bütün robotların, bütün sayfalara erişiminin istenmediği durumlarda


Disallow: * # yıldız kullanmak pek uygun olmayacağı için onun yerine " / " kullanın.


Standart Dışı Kullanımlar

Geciktirme komutları

Çoğu büyük web arama botları geciktirme komutunu destekler. Örneğin aşağıdaki örnekte robottan ilgili web sitesinden 10 saniyelik aralıklar ile bilgi çekmesi istemi yapılmıştır.


User-agent: *
Crawl-delay: 10


İzin Ver komutu

Bazı büyük botlar, Allow ( izin ver ) komutu kullanarak Disallow ( kısıtla ) komutunu etkisizleştirmeye imkân verirler. Bu özellikle bütün klasördeki sadece bir dosyanın ya da sayfanın taranmasını istediğiniz durumlarda faydalı olacaktır. Fakat dikkat edilmelidir ki genelde standart olarak robots.txt'nin ilk satırı uygulamaya konulabilir. Fakat Google'ın uygulamasında önce tüm Allow ( izin ver ) komutları işleme konulur daha sonra Disallow komutları işleme konulur. Örneğin;


Allow: /folder1/myfile.html
Disallow: /folder1/


Gelişmiş Standartlar
Bu standardı geliştirmek için Visit-time (ziyaret-saati) ve request-rate (talep-oranı) gibi çeşitli önerilerin yapıldığını An Extended Standard for Robot Exclusion (Robot Engelleme için gelişmiş bir standart) adı altında bir takım öneriler yapılmıştır.


User-agent: *
Disallow: /downloads/
Request-rate: 1/5 # her 5 saniyede maksimum 1 sayfa
Visit-time: 0600-0845 # sadece 06:00 ile 08:45 UTC (GMT) saatleri arasında ziyaret edilme talebi


Bu standardın ilk versiyonunda " * " ya da " Disallow " diye herhangi bir komut yoktu. Googlebot ve Slurp gibi modern arama botları " * " lı komutları tanısa da, MSNbot ve Teoma bu komutu farklı şekilde anlamaktadır.

Diğer Örnekler


Örnek:

User-Agent: *
Allow: /


Örnekteki gibi kullanacağımız komutları yazdıktan sonra; metnimizi Robots.txt olarak kayıt etmeliyiz.

Önemli not: Google Robots.txt dosyasınının küçük harflerle yazılmasını öneriyor!

Robots.txt içerisinde kullanılabilecek komutlar nelerdir?

Robots.txt içerisinde kullanmamız gereken en temel 3 başlık vardır bunlar; User-agent, Allow ve Disallow 'dur.

User-agent: User-agent belirli bir botu belirlemek için kullanılır, örnek olarak;
User-agent: * (Yıldız) kullanımı tüm botları simgeler,
User-agent: Googlebot (Googlebot) kullanımı sadece googlebot'unu simgeler.

Disallow: Disallow kullanımı sitenizin indexlenmemesini istediğiniz bölümleri belirtmeniz için kullanılan bölümdür.

Örnek:

Disallow: / (/ - Eğik çizgi) sitenizin tamamının index'lenmesinin istemediğinizi,
Disallow: /engellenmeyi_istedigimiz_sayfa.html ise sadece indexlenmemesini istemediğimiz sayfayı belirtir.


Önemli not: Google; Disallow komut satırının / (Eğik çizgi) ile başlamasını öneririr.

Allow: Allow komutu bot'ların sayfanızın hangi kısımlarının indexlenmesi gerektiğini belirler. Genellikle; Allow : / olarak kullanılır ki bu; tüm sayfalarınızın indexleneceği anlamına gelir.

Örnek:

User-agent: *
Allow: /


Robots.txt dosyası içerisinde kullanabilecek diğer komutlar:

Sitenin tamamını engellemek için düz eğik çizgi kullanın. Disallow: /
Bir dizini ve o dizinin içinde bulunan tüm öğeleri engellemek için dizin adının sonuna bir düz eğik çizgi koyun. Disallow: /engelenecek_klasor/
Bir sayfayı engellemek için o sayfayı listeleyin. Disallow: /engellenecek_sayfa.html
Belirli bir görseli Google görsel aramasından kaldırmak için şunları ekleyin: User-agent: Googlebot-Image
Disallow: /resimler/engellenecek_resim.jpg
Sitenizdeki görsellerin tümünü Google görsel aramasından kaldırmak için: User-agent: Googlebot-Image
Disallow: /
Belirli bir dosya türündeki dosyaları (örneğin, .gif) engellemek için şunları kullanın: User-agent: Googlebot
Disallow: /*.gif$
Sitenizdeki sayfalarda AdSense reklamları görüntülemeye devam ederken bu sayfaların taranmasını engellemek için Mediapartners-Google dışındaki tüm botları engelleyin. Bu, sayfaların arama sonuçlarında görünmesini engellemekle birlikte Mediapartners-Google robotunun gösterilecek reklamları belirlemek üzere sayfaları analiz etmesine olanak sağlar. Mediapartners-Google robotu, sayfaları diğer Google user-agent'ları ile paylaşmaz. Örneğin: User-agent: *
Disallow: /klasor1/

User-agent: Mediapartners-Google
Allow: /klasor1/
Bir karakter sırasıyla eşleşmek için yıldız (*) kullanabilirsiniz. Örneğin, özel ile başlayan tüm alt dizinlere erişimi engellemek için: User-agent: Googlebot
Disallow: /private*/
Soru işareti (?) içeren tüm URL'lere erişimi engellemek için (daha açık belirtmek gerekirse, alan adınızla başlayan ve ardından herhangi bir dize, bir soru işareti ve herhangi bir dize gelen URL'leri taramasını engellemek için): User-agent: Googlebot
Disallow: /*?
URL sonu eşlemeyi belirtmek için $ karakterini kullanın. Örneğin, .xls ile biten tüm URL'leri engellemek için: User-agent: Googlebot
Disallow: /*.xls$ Bu dize kalıbı eşlemesini, Allow yönergesiyle birlikte kullanabilirsiniz. Örneğin, ? bir oturum kimliğini gösteriyorsa bu öğeleri içeren tüm URL'leri dışlayarak Googlebot'un aynı sayfaları taramasını önleyebilirsiniz. Ancak ? ile biten URL'ler, eklenmesini istediğiniz sayfanın sürümü olabilir. Bu durumda, robots.txt dosyanızı aşağıda gösterildiği biçimde ayarlayabilirsiniz:
User-agent: *
Allow: /*?$
Disallow: /*? Disallow: / *? yönergesi, ? içeren URL'lerin tümünü engeller (daha açık belirtmek gerekirse, alanınızla başlayan ve ardından herhangi bir dize, bir soru işareti ve herhangi bir dize gelen URL'lerin tümünü engeller).
Allow: /*?$ yönergesi, ? ile biten tüm URL'lere izin verir (daha açık belirtmek gerekirse, alanınızla başlayan ve ardından bir dize ve bir ? gelen ve ? işaretinden sonra hiç karakter içermeyen URL'lerin tümüne izin verir).

Hiç yorum yok:

Yorum Gönder