File robots txt là gì?
Nói một cách ngắn gọn nhất Robots.txt là một dạng text đặc biệt không phải là HTML hay một loại nào khác. Nó giúp cho các webmaster linh hoạt hơn trong việc cho hay không cho bot của các công cụ tìm kiếm ( SE ) đánh chỉ mục(index) một khu vực nào đó trong website của bạn.
Robots.txt Hoạt động như thế nào?
- Crawl-Delay: thông số này xác định thời gian (tính bằng giây) bots phải đợi trước khi chuyển sang phần tiếp theo. Điều này sẽ có ích để ngăn chặn các search engine load server tùy tiện.
- Dấu # được sử dụng trước các dòng cần comment.
- robots.txt hoạt động bằng cách xác định một user-agent và một lệnh cho user-agent này.
- Các tham số có trong file robots.txt
- Disallow: là khu vực mà bạn muốn khoanh vùng không cho phép search engine truy cập.
- User-agent: khai báo tên search engine mà bạn muốn điều khiển, ví dụ: Googlebot, Yahoo! Slurp
Cách tạo và sử dụng file Robots.txt:
cách tạo:
File robots.txt là một dạng file rất đơn giản có thể được tảo bởi công cụ Notepad. Nếu bạn sử dụng WordPress Một file robots.txt sẽ có dạng như sau :
User-agent: *
Disallow: /wp-
Disallow: /feed/
Disallow: /trackback/
VD :
- User-agent: * : Cho tất các các loại bot truy cập vào website
- Disallow: / : Chặn không cho bot truy cập vào toàn bộ website
- Disallow: /images/nguoidep.JPG : Chặn không cho bot truy cập vào file ảnh có tên nguoidep.JPG
- Disallow: /administrator/ : chặn không cho bot truy cập vào trang quản trị.
cách sử dụng file Robot.txt:
1.Không cho phép bot truy cập vào thư mục nào mà mình không muốn:
- Lấy lại ví dụ trên :User-agent: *
- Disallow: /wp-admin/
- Disallow: /wp-includes/
- ==> Diều này có nghĩa là cho phép tất cả các loại bot thu thập chỉ trừ 2 thư mục wp-admin và wp-includes
2.Khóa toàn bộ website không cho bot đánh chỉ mục:
- User-agent: *
- Disallow: /
- ==> có nghĩa là cấm tất cả các loại bot truy cập vào tất cả tài nguyên có trên website của bạn, như vậy có nghĩa là website bạn chả thèm chơi với các SE
3.Chặn 1 trang:
- Disallow: /lien-he.html
4.Chặn một bot nào đó:
- User-agent: SpamBot
- Disallow: /
- User-agent: *
- Disallow: /wp-admin/
- Disallow: /wp-includes/
- ==> Để bắt đầu chỉ định mới thì bạn hãy đặt một dòng trắng. Và bot SpamBot bị cấm truy cập tất cả tài nguyên. Trong khi các bot khác được truy cập tất cả trừ thư mục “wp-admin ” và “wp-
- includes”
- User-agent: SpamBot
- Disallow: /admin/
- Disallow: /includes/
- Disallow: /config/config.php
5.Loại bỏ 1 hình từ Google Images:
- User-agent: Googlebot-Image
- Disallow: /images/hinh.png
- User-agent: *
- Disallow: /admin/
- Disallow: /includes/
- ==> Không cho phép SpamBot truy cập các thư mục được liệt kê như: thư mục “admin”, “includes” và và file “config.php” . Còn các bot khác được truy cập mọi thứ trừ hai thư mục “admin” và “includes”
6.sử dụng đồng thời “Allow” và “Disallow” cùng nhau:
- User-agent: Googlebot
- Disallow: /vidu/
- Allow: /vidu/chi-demo-thoi-nha.html
- == > có nghĩa là chặn Googlebot truy cập vào tài nguyên có trong thư mục “vidu” .Nhưng chỉ có thể truy cập được file “chi-demo-thoi-nha.html”
- User-agent: Googlebot
- Disallow: /
- User-agent: Googlebot-Mobile
- Allow: /
Những Sai Sót Nên Tránh Khi Sử Dụng
khi các bạn sử dụng lại một robots.txt của ai đó hoặc tự mình tạo ra một robots.txt riêng cho website mình thì cũng không tránh khỏi những sai sót
- Phân biệt chữ hoa chữ thường.
- Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.
- Mỗi một câu lệnh nên viết trên 1 dòng.
- Không được viết dư, thiếu khoảng trắng.
Kết Luận :
Như vậy những bài vài viết ở trên nói về file robots.txt đã một phần nào giải đáp được những thắc mắc mà những bạn mới bước vào lãnh vực SEO hay gặp, rất mong nhận được sự đóng góp thêm của các bạn. Trân thành cám ơn các bạn đã quan tâm theo dõi.