
Google'dan Gary Illyes, Googlebot, Google'ın tarama ekosistemi, getirme ve baytları nasıl işlediği hakkında daha fazla ayrıntı paylaştı.
Makalenin adıGooglebot'un İçinde: Tarama, getirme ve işlediğimiz baytların gizemi aydınlatılıyor.
Googlebot.Google'ın birden fazla tekil tarayıcısı vardır ve birçok amaç için birçok tarayıcısı vardır. Dolayısıyla Googlebot'a tekil bir tarayıcı olarak atıfta bulunmak artık çok doğru olmayabilir. Google tarayıcılarının ve kullanıcı aracılarının çoğunu belgelediburada.
Sınırlar.Son zamanlarda Google bunun hakkında konuştutarama sınırları. Şimdi Gary Illyes konuyu daha çok araştırdı. Dedi ki:
- Googlebot şu anda herhangi bir URL için (PDF'ler hariç) 2 MB'a kadar veri getiriyor.
- Bu, HTTP başlığı da dahil olmak üzere kaynağın yalnızca ilk 2 MB'lık kısmını taradığı anlamına gelir.
- PDF dosyaları için sınır 64 MB'tır.
- Resim ve video tarayıcılarının genellikle çok çeşitli eşik değerleri vardır ve bu, büyük ölçüde getirdikleri ürüne bağlıdır.
- Sınır belirlemeyen diğer tarayıcılar için içerik türünden bağımsız olarak varsayılan değer 15 MB'tır.
Peki Google taradığında ne olur?
- Kısmi getiriliyor: HTML dosyanız 2 MB'tan büyükse Googlebot sayfayı reddetmez. Bunun yerine, getirmeyi tam olarak 2MB kesim noktasında durdurur. Sınırın HTTP istek başlıklarını içerdiğini unutmayın.
- Kesimin işlenmesi: İndirilen bu kısım (ilk 2 MB bayt), sanki dosyanın tamamıymış gibi indeksleme sistemlerimize ve Web İşleme Hizmetine (WRS) aktarılır.
- Görünmeyen baytlar: Mevcut baytlar sonrasında bu 2 MB eşiği tamamen göz ardı edilir. Getirilmezler, oluşturulmazlar ve dizine eklenmezler.
- Kaynakların getirilmesi: HTML'de başvurulan her kaynak (medya, yazı tipleri ve birkaç egzotik dosya hariç), ana HTML gibi WRS tarafından Googlebot ile getirilecektir. Kendi URL bayt başına ayrı sayaçları vardır ve ana sayfanın boyutuna dahil edilmezler.
Google'ın bu baytları nasıl oluşturduğu.Tarayıcı bu baytlara eriştiğinde, bunu web oluşturma hizmeti olan WRS'ye aktarır. "WRS, sayfanın son görsel ve metinsel durumunu anlamak için JavaScript'i işler ve modern bir tarayıcıya benzer şekilde istemci tarafı kodunu çalıştırır. Oluşturma, JavaScript ve CSS dosyalarını alıp çalıştırır ve sayfanın metin içeriğini ve yapısını daha iyi anlamak için XHR isteklerini işler (resim veya video istemez). Talep edilen her kaynak için 2 MB sınırı da geçerlidir." diye açıkladı Google.
En iyi uygulamalar.Google şu en iyi uygulamaları sıraladı:
- HTML'nizi yalın tutun: Ağır CSS ve JavaScript'i harici dosyalara taşıyın. İlk HTML belgesinin sınırı 2MB ile sınırlıyken, harici komut dosyaları ve stil sayfaları ayrı olarak getirilir (kendi sınırlarına tabidir).
- Sıra önemlidir: Meta etiketler gibi en kritik öğelerinizi yerleştirin.
elementler,öğeler, standartlar ve temel yapılandırılmış veriler - HTML belgesinin daha yukarılarında. Bu, kesimin altında bulunma olasılıklarının düşük olmasını sağlar. - Sunucu günlüklerinizi izleyin: Sunucunuzun yanıt sürelerine dikkat edin. Sunucunuz bayt sunmakta zorlanıyorsa, getiricilerimiz altyapınızın aşırı yüklenmesini önlemek için otomatik olarak geri çekilecektir ve bu da tarama sıklığınızı düşürecektir.
Podcast.Google'ın konuyla ilgili bir podcast'i de vardı, işte burada:

