Cara menjauhkan Robot Dari Situs Web

By | February 2, 2021

Berita Film newsinfilm.com menyajikan kabar terbaru dunia movie, film Indonesia dan luar negeri dari para bintang film terkenal. ulasan film, artikel film, kajian film dan database film indonesia dan segalanya tentang film indonesia dikemas dengan liputan yang uptodate

Anda tahu bahwa mesin pencari telah dibuat untuk membantu orang menemukan informasi dengan cepat di Internet, dan mesin pencari memperoleh banyak informasi mereka melalui robot (juga dikenal sebagai spider atau crawler), yang mencari halaman web untuk mereka

Apa Arti dari 'I am Not Robot' Saat Mengunjungi Sebuah Situs - Tirto.ID

Robot laba-laba atau perayap menjelajahi web mencari dan merekam semua jenis informasi. Mereka biasanya mulai dengan URL yang dikirimkan oleh pengguna, atau dari tautan yang mereka temukan di situs web, file sitemap atau tingkat atas situs

Setelah robot mengakses halaman beranda kemudian secara rekursif mengakses semua halaman yang terhubung dari halaman itu. Tetapi robot juga dapat memeriksa semua halaman yang dapat ditemukan di server tertentu

Setelah robot menemukan halaman web itu berfungsi mengindeks judul, kata kunci, teks, dll. Tapi kadang-kadang Anda mungkin ingin mencegah mesin pencari mengindeks beberapa halaman web Anda seperti posting berita, dan halaman web yang ditandai secara khusus (misalnya: halaman afiliasi), tetapi apakah robot individu mematuhi konvensi ini adalah murni sukarela

 PROTOKOL PENGECUALIAN ROBOT

Jadi, jika Anda ingin robot keluar dari beberapa halaman web Anda, Anda dapat meminta robot untuk mengabaikan halaman web yang tidak ingin Anda indeks, dan untuk itu Anda dapat menempatkan file robots.txt di server root lokal situs Anda

Facebook Instant Articles: How to Setup With WordPress

Misalnya, jika Anda memiliki direktori yang disebut e-book dan Anda ingin meminta robot untuk menghindarinya, file robots.txt Anda harus membaca:

User-agent: * Disallow: e-books /

Ketika Anda tidak memiliki kendali yang cukup atas server Anda untuk mengatur file robots.txt, Anda dapat mencoba menambahkan tag META ke bagian kepala dokumen HTML apa pun. Misalnya, tag seperti yang berikut ini memberi tahu robot untuk tidak mengindeks dan tidak mengikuti tautan pada halaman tertentu:

meta name = “ROBOTS” content = “NOINDEX, NOFOLLOW”

Dukungan untuk tag META di antara robot tidak begitu sering seperti Protokol Pengecualian Robot, tetapi sebagian besar indeks web utama saat ini mendukungnya

Robots.txt - The Ultimate Guide - SEOptimer

POS BERITA

Jika Anda ingin menjaga mesin pencari dari posting berita Anda, Anda dapat membuat baris “X-no-arsip” di header posting Anda:

X-no-arsip: ya

Tetapi meskipun klien berita umum, memungkinkan Anda untuk menambahkan garis X-no-arsip ke header posting berita Anda, beberapa dari mereka tidak mengizinkan Anda untuk melakukannya. Masalahnya adalah sebagian besar mesin pencari menganggap bahwa semua informasi yang mereka temukan bersifat publik kecuali ditandai sebaliknya

Jadi berhati-hatilah karena meskipun standar pengecualian robot dan arsip dapat membantu menjaga materi Anda dari mesin pencari utama, ada beberapa yang tidak menghormati aturan tersebut. Jika Anda sangat prihatin tentang privasi e-mail dan postingan Usenet Anda, Anda harus menggunakan beberapa pengirim email dan PGP anonim. Anda dapat membacanya di sini:

http://www.well.com/user/abacard/remail.html http://www.io.com/~combs/htmls/crypto.html
http://world.std.com/~franl/pgp/

Meskipun Anda tidak terlalu peduli dengan privasi, ingatlah bahwa apa pun yang Anda tulis akan diindeks dan diarsipkan di suatu tempat untuk selamanya, jadi gunakan file robots.txt sebanyak yang Anda perlukan

Leave a Reply

Your email address will not be published. Required fields are marked *