Các công cụ tìm kiếm bị giới hạn trong cách crawl website và phân tích nội dung. Một trang web không bao giờ giống nhau đối với bạn và tôi cũng như đối với một công cụ tìm kiếm. Trong phần này, chúng ta sẽ tập trung vào những khía cạnh kỹ thuật cụ thể trong xây dựng (hay điều chỉnh) trang web để chúng được cấu tạo cho cả người và công cụ tìm kiếm. Chia sẻ phần này với lập trình viên, kiến trúc sư thông tin và nhà thiết kế của bạn, để tất cả những bộ phận liên quan đến xây dựng website đều có thể nắm bắt vấn đề.

Nội dung có thể index

Để có được thứ hạng tốt trong bảng xếp hạng của các công cụ tìm kiếm, nội dung quan trọng nhất của bạn phải được định dạng dưới dạng văn bản HTML. Hình ảnh, file Flash, vi mã Java, và những nội dung phi văn bản khác thường bị lờ đi hay bị đáng giá thấp bởi crawler của các công cụ tìm kiếm, mặc dù công nghệ crawling đã phát triển rất nhiều. Cách dễ nhất để đảm bảo những từ ngữ hay câu mà bạn trình bày cho người truy cập được các công cụ tìm kiếm nhìn thấy là phải đặt chúng dưới dạng văn bản HTML trên trang web của bạn. Tuy nhiên, đã có những phương pháp cải tiến cho những ai mong muốn những định dạng tốt hơn hay phong cách hiển thị trực quan:

Nhìn website của bạn dưới con mắt của các công cụ tìm kiếm

Nhiều website có các vấn đề đối với các nội dung có thể index, vì vậy việc kiểm tra hai lần là cần thiết. Bằng cách sử dụng các công cụ như Google’s cache, SEO-browser.com, và MozBar bạn có thể nhìn thấy yếu tố nào trong nội dung của bạn hiển thị và có thể index trên các công cụ tìm kiếm. Hãy nhìn vào Google’s text cache của trang mà bạn đang đọc. Bạn có nhìn thấy nó khác biệt như thế nào?

Whoa! Chúng tôi nhìn như thế này ư?

Sử dụng tính năng Google cache, bạn có thể nhìn thấy như vậy dưới con mắt một công cụ tìm kiếm. Trang chủ của JugglingPandas không chứa tất cả những thông tin giàu có mà chúng ta đang thấy. Điều này làm cho các công cụ tìm kiếm khó khăn trong việc phân tích mức độ liên quan.

Hey, vậy phần thú vị ở đâu?

Uh oh … nhờ Google cache , chúng ta có thể thấy trang web này là một miếng đất hoang cằn cỗi. Thậm chí không có một chữ nào trên trang này cho chúng ta biết nó chứa Axe Battling Monkeys. Trang này được xây dựng hoàn toàn bằng định dạng Flash, nhưng buồn thay, điều này có nghĩa là các công cụ tìm kiếm không thể index bất kỳ chữ nào của nội dung này, hay thậm chí đường link tới các trò chơi nào. Với việc không có bất kỳ văn bản HTML nào, trang web này sẽ có thứ hạng không tốt trong kết quả tìm kiếm.

Điều nên làm không phải là chỉ kiểm tra nội dung văn bản mà còn là dùng các công cụ SEO để kiểm tra cẩn thận các trang mà bạn đang xây dựng có được các công cụ tìm kiếm tìm thấy hay không. Điều này tương tự với những file hình của bạn, và như bạn thấy ở dưới, và cũng như đối với các đường link.

Các cấu trúc link có thể crawl được

Cũng như việc các công cụ tìm kiếm cần nhìn thấy nội dung để liệt kê các trang trong những bảng index từ khoá khổng lồ của chúng, chúng cũng cần nhìn thấy các link để có thể tìm kiếm các nội dung. Một cấu trúc link có thể crawl được – là cấu trúc cho phép các crawler quét đường đi của một website – là điều không thể thiếu cho các công cụ tìm kiếm tìm ra rất cả các trang trên một website. Hàng trăm ngàn trang web đã mắc lỗi quan trọng trong việc cấu trúc định vị của họ theo cách các công cụ tìm kiếm không thể tiếp cận được, gây khó khăn cho khả năng được liệt kê trong index của các công cụ tìm kiếm.

Dưới đây, chúng tôi đã minh hoạ cách vấn đề này xảy ra:

Trong ví dụ trên, crawler của Google đã đến được trang A và thấy link đến trang B và E. Tuy nhiên, mặc dù C và D có thể là những trang quan trọng trên website, crawler không có cách nào đến được những trang này (hay mặc dù biết chúng tồn tại). Điều này là vì không có các link có thể crawl được trực tiếp đến các trang C và D. Theo như những gì Google thấy thì những trang này không tồn tại! Nội dung hay, xác định từ khoá tốt và chiến lược marketing thông minh cũng không thể tạo nên sự khác biệt nào nếu các crawler không thể đến được trang của bạn đầu tiên.

Những form yêu cầu đăng ký

Nếu bạn yêu cầu người dùng phải hoàn thành một form online trước khi truy cập vào một nội dung nhất định nào đó, có rất nhiều khả năng là các công cụ tìm kiếm sẽ không giờ nhìn thấy những trang được bảo mật đó. Các form bao gồm đăng nhập bảo mật bằng password hay một bảng khảo sát. Trong cả hai trường hợp, các crawler tìm kiếm thường sẽ không đăng ký vào các form, vì vậy bất kỳ nội dung hay link nào có thể truy cập được qua một form đều trở nên vô hình đối với các công cụ tìm kiếm.

Link trong JavaScript không thể phân tích

Nếu bạn sử dụng JavaScript cho link, bạn có thể tìm thấy được rằng các công cụ tìm kiếm không crawl hay xem nhẹ nội dung các link trong JavaScript. Nên thay thế JavaScript bằng các link chuẩn HTML (hay đính kèm với nó) trên bất kỳ trang nào mà bạn muốn các crawler crawl.

Các link dẫn đến các trang bị chặn bằng tag Meta Robots và robots.txt

Cả tag Meta Robots và file robots.txt cho phép chủ website ngăn các crawler truy cập vào trang web. Chúng tôi chỉ muốn lưu ý các bạn là nhiều webmaster vô tình dùng những hướng dẫn này để chặn các rogue bot, chỉ để tìm hiểu ra rằng các công cụ tìm kiếm đã dừng crawl.

Frame (khung tài liệu) hay iframe (khung nội tuyến)

Về mặt kỹ thuật, các link trong cả frame và iframe đều có thể crawl được, nhưng cả hai đều kéo theo vấn đề về cấu trúc trong việc tổ chức. Nếu bạn không phải là người dùng tay nghề cao với hiểu biết kỹ thuật tốt về các công cụ tìm kiếm index và lần theo các link trong frame. Tốt nhất là bạn nên tránh xa frame và iframe.

Các robot không sử dụng form tìm kiếm

Mặc dù điều này liên quan trực tiếp đến cảnh báo phía trên về các form, nhưng nó là một vấn đề thường gặp cần phải được đề cập.Một số webmaster tin rằng nếu họ đặt ô tìm kiếm trên trang web của họ, các công cụ có thể tìm ra mọi thứ mà người truy cập website tìm. Không may thay, các crawler không thực hiện tìm kiếm để tìm nội dụng, để lại hàng triệu trang không thể truy cập và vô danh đến khi có một trang có thể crawl được liên kết với chúng.

Link trong Flash, Java và các plug-in khác

Những link trong trang Juggling Panda (từ ví dụ trên) là một ví dụ hoàn hảo cho trường hợp này. Mặc dù hàng tá gấu trúc được liệt kê và liên kết trên trang web bày, nhưng không có crawler nào có thể đến được với chúng thông qua cấu trúc link của trang web, khiến chúng trở nên vô hình với các công cụ tìm kiếm và câu hỏi tìm kiếm của người dùng.

Link trên các trang có hàng trăm hay hàng ngàn link

Các công cụ tìm kiếm chỉ crawl nhiều link trên một trang nhất định. Sự hạn chế này là cần thiết để giảm thiểu spam và việc bảo tồn thứ hạng. Những trang có hàng trăm link có nguy cơ sẽ không được crawl hay index tất cả các link trong đó.

Nguồn được dịch từ : https://moz.com/beginners-guide-to-seo/basics-of-search-engine-friendly-design-and-development

LEAVE A REPLY

Please enter your comment!
Please enter your name here