Robots.txt คืออะไร
Robots.txt คืออะไร เป็นไฟล์ที่บอกให้บอตหรือหุ่นยนต์ของ Search Engine ต่างๆนั้น เช่น Google, Yahoo, Bing จะทำการเข้ามา Crawal เพื่อเก็บข้อมูลภายในเว็บไซต์ แล้วจะนำข้อมูลที่เก็บทำเป็น Index เอาไว้ในฐานข้อมูล ซึ่งไฟล์ที่บอตจะเข้ามาอ่านคือไฟล์ Robots.txt ซึ่งจะมีคำสั่งต่างๆที่เราเขียนกำหนดเอาไว้ว่า ไฟล์ไหนสามารถอนุญาตให้เข้าไปเก็บข้อมูลได้ หรือไฟล์ไหนไม่สามารถอนุญาตเข้าไปเก็บข้อมูลได้ ตัวอย่าง ข้อมูลสมาชิกในเว็บไซต์ เช่น ชื่อ-นามสกุล เบอร์โทรศัพท์ อีเมล ที่อยู่
Script คำสั่งในไฟล์ Robots.txt
- User-agent : กำหนดให้ Crawal สามารถเก็บข้อมูลในเว็บไซต์ได้ (เครื่องหมายดอกจัน (*) หมายถึงให้ Crawal ทุกตัวสามารถเก็บข้อมูลภายในเว็บไซต์ได้ทุกตัว)
- Disallow : ไม่อนุญาตให้ Crawal เข้าไปเก็บข้อมูลที่เราไม่อนุญาตให้เข้าถึง
- Allow : อนุญาตให้ Crawal เข้าไปเก็บข้อมูล
- Sitemap : บอกตำแหน่งของ Sitemap ในเว็บไซต์ให้บอต ซึ่งจะเข้ามาทำการเป็นอันดับแรก
วิธีการสร้างไฟล์ Robots.txt
สร้างไฟล์ชื่อ robots.txt ในโปรแกรม Notepad หรือโปรแกรมการพิมพ์บันทึกข้อความโดยใช้คำสั่งคือ
User-agent: *
Disallow: /
ตัวอย่าง
ทำการใช้คำสั่ง Disallow ไม่อนุญาตให้ทำการ Crawal ทำการเก็บข้อมูลเว็บไซต์ หรือถ้าต้องการให้ Crawal ทำการเก็บข้อมูลก็สามารถเปลี่ยนเป็น Allow

เมื่อได้ไฟล์ robots.txt ให้ทำการอัพโหลดไปยัง Root Directory ซึ่งจะตัวอย่างนี้จะทำการอัพโหลดไปที่เว็บไซต์ http://rsubba.com

