Sitemap là gì? Và tầm quan trọng của nó trong SEO

Sitemap web XML là gì?

sitemap web là một danh sách có cấu trúc của tất cả các trang trên một trang web có sẵn để các công cụ tìm kiếm thu thập thông tin. Nó được sử dụng dưới dạng tệp XML chứa dữ liệu được đánh dấu bằng thẻ. XML là viết tắt của “ngôn ngữ đánh dấu có thể mở rộng” – một định dạng tệp được đồng ý sử dụng cho sitemap web.

sitemap web XML không nhằm để người dùng xem vì nó được viết ở định dạng máy có thể đọc được. Trước tiên, trình thu thập thông tin sẽ truy cập sitemap XML và sau đó truy cập trực tiếp tất cả các trang được liệt kê trong đó.

Các chương trình thu thập thông tin của công cụ tìm kiếm có thể tìm thấy các trang của bạn theo hai cách:

  1. Bằng cách truy cập tất cả các liên kết được tìm thấy trên một trang và lặp lại điều này cho mỗi trang đã truy cập
  2. Bằng cách truy cập các trang được liệt kê trong sitemap web
sơ đồ trang web

sitemap web bổ sung cho việc thu thập thông tin bình thường của web. Tuy nhiên, tùy chọn đầu tiên không phải lúc nào cũng hoạt động. Ví dụ: các công cụ tìm kiếm sẽ không thể tìm và lập chỉ mục một trang không được liên kết từ bất kỳ trang nào khác. Đây là một trường hợp khi sitemap web được giải cứu.

Chúng ta biết những loại sitemap XML nào?

sitemap web URL – đây là những gì hầu hết mọi người gọi với / như là “sitemap web XML”. Nó liệt kê các URL của các trang trên trang web của bạn.

Chỉ mục sitemap web – một “sitemap web”. Nó liệt kê tất cả các sitemap web của bạn nếu bạn có nhiều hơn một. Ví dụ: bạn có thể có các sitemap web khác nhau cho các bài đăng và trang (phổ biến với các trang web WordPress). Hoặc bạn có nhiều sitemap web nếu một trong số chúng vượt quá giới hạn kích thước. Bạn cũng sẽ cần nhiều sitemap nếu bạn vượt quá kích thước sitemap web hoặc giới hạn số lượng URL.

sitemap web Phương tiện:

  • Bạn có thể tạo một sitemap web riêng cho hình ảnh và video của mình.
  • Bạn có thể đưa chúng vào sitemap web URL thông thường của mình.

Tôi có cần sitemap XML không?

Điều tuyệt vời là bạn chỉ có thể hưởng lợi khi có sitemap web. Không có rủi ro khi có một.

Google tuyên bố rằng “trong hầu hết các trường hợp, trang web của bạn sẽ được hưởng lợi từ việc có sitemap web và bạn sẽ không bao giờ bị phạt nếu có sơ đồ đó”.

Nhưng việc triển khai một sitemap web có đáng để làm thêm không?

Một blog có hàng trăm trang có cấu trúc tốt với liên kết nội bộ tốt có thể sẽ không thấy bất kỳ sự khác biệt nào về số lượng trang được lập chỉ mục. Bởi vì tất cả chúng có thể đã được lập chỉ mục ngay cả trước khi có sitemap web.

Những trang web nào chắc chắn nên sử dụng sitemap web?

Các trang web lớn

Nếu bạn có một trang web với hàng nghìn trang (ví dụ: cửa hàng trực tuyến). Thật tuyệt khi cho các công cụ tìm kiếm biết về tất cả các URL của bạn có sẵn để thu thập thông tin.

Để thu thập thông tin hiệu quả hơn (điều này đặc biệt quan trọng đối với các trang web lớn). Bạn nên đưa siêu dữ liệu cập nhật lần cuối vào sitemap web.

Các trang web có các trang được liên kết kém

Nếu bạn biết trang web của mình có liên kết nội bộ kém và một số trang có thể là “trẻ mồ côi”. Đặc biệt, chúng không có bất kỳ liên kết nội bộ hoặc bên ngoài nào thì thật tuyệt khi có một sitemap web. Chúng có chức năng thông báo cho các công cụ tìm kiếm về sự tồn tại của chúng.

Các trang web mới không có bất kỳ backlink nào

Nếu bạn vừa mới bắt đầu viết blog và miền của bạn vẫn chưa được tìm thấy trong SERP. Cách dễ nhất để thu hút sự chú ý của trình thu thập thông tin là gửi trang web và sitemap XML của bạn tới Google Search Consolecác công cụ Bing Webmaster.

sitemap web có nhiều thứ hơn là được lập chỉ mục bởi các công cụ tìm kiếm.

Ví dụ: sitemap web có thể tăng tốc toàn bộ quá trình thu thập thông tin. Làm sao? Nó có thể chứa thông tin bổ sung quan trọng cho mỗi URL.

sitemap web có thể mang thông tin gì?

sitemap web có thể (nhưng không nhất thiết phải) mang thông tin có giá trị (siêu dữ liệu) cho các công cụ tìm kiếm. Siêu dữ liệu sitemap web phổ biến nhất là:

1. Ngày cập nhật cuối cùng của trang (thuộc tính lastmod)

Đây là một trong những phần thông tin có giá trị nhất cho các công cụ tìm kiếm. Thay vì thu thập dữ liệu trang và kiểm tra xem có điều gì thay đổi không (và do đó tiêu tốn tài nguyên quý giá và thời gian CPU). Nó có thể chỉ cần kiểm tra trường cập nhật cuối cùng trong sitemap web và thực hiện phép toán đơn giản:

Trình thu thập thông tin : Lần cuối cùng tôi thu thập dữ liệu trang này là ngày 1 tháng 3 năm 2021. sitemap web cho tôi biết trang đã được cập nhật lần cuối vào ngày 14 tháng 2 năm 20219 thì:

  • Tôi không phải mất thời gian thu thập dữ liệu và lập chỉ mục trang không thay đổi này
  • Tôi sẽ thích hơn các trang thu thập thông tin thời gian của tôi đã thay đổi kể từ lần truy cập cuối cùng của tôi.

Đó là một tình huống đôi bên cùng có lợi. Trang của bạn sẽ được thu thập thông tin sớm hơn và các công cụ tìm kiếm sẽ tiết kiệm các tài nguyên. Nếu không sẽ được sử dụng để thu thập lại thông tin và so sánh các trang của bạn. Kết quả là, các công cụ tìm kiếm có một chỉ mục mới hơn về các trang web.

Bạn có thể nghĩ:

Tôi sẽ tạo một tập lệnh để cập nhật tất cả các thuộc tính lastmod trong sitemap web của tôi thành một ngày mới mỗi ngày. Trang web của tôi sẽ luôn luôn mới trong Google.

Đừng làm vậy, nó sẽ không giúp ích gì.

Google chỉ sử dụng thuộc tính lastmod khi được sử dụng đúng cách.

“Khi chúng ta có thể biết rằng nó được sử dụng đúng cách, đó là một tín hiệu hữu ích. Một trong những vấn đề mà tôi thường gặp là các trang web sử dụng Ngày / giờ.  Khi sitemap web được tạo làm ngày sửa đổi cuối cùng cho tất cả các Trang trong tệp sitemap web – điều đó không hữu ích. ” John Mueller đã giải thích trong chủ đề Reddit này .

Theo Blog của Google

sitemap web có thể giúp các quản trị viên web đối mặt với hai thách thức hiện tại:

Giữ cho Google được thông báo về tất cả các trang hoặc cập nhật mới của bạn.

Tăng mức độ phù hợp của các trang web của bạn trong chỉ mục của Google

Tóm tắt lại:

Trình thu thập thông tin có thể ưu tiên thu thập thông tin các trang mới cập nhật. Chúng không dành tài nguyên để thu thập lại thông tin các trang không thay đổi (ví dụ: trang chính sách bảo mật).

2. Tần suất một trang được cập nhật (thuộc tính changefreq)

Đây là một trong những khó khăn. Lúc đầu, có vẻ như chỉ là một thông tin khác để các công cụ tìm kiếm cải thiện việc tối ưu hóa thu thập thông tin của họ. Nhưng không phải là hơi thừa phải không?

Vâng, đúng vậy! Trên thực tế, ngày cập nhật cuối cùng là một chỉ báo tốt hơn nhiều nếu một trang web cần được thu thập lại thông tin. Đó là lý do tại sao tất cả các công cụ tìm kiếm lớn đều bỏ qua thuộc tính này.

Như John Mueller đã giải thích trong video này:

Tốt hơn là chỉ cần chỉ định trực tiếp dấu thời gian để chúng tôi có thể xem xét hệ thống nội bộ của mình. Sau đó, bạn nói rằng chúng tôi chưa thu thập thông tin kể từ ngày này, do đó chúng tôi nên thu thập dữ liệu lại.

Video có từ năm 2015, nhưng John đã xác nhận thông tin một lần nữa trong tweet năm 2019 của anh ấy:

3. Mức độ quan trọng của một trang (thuộc tính ưu tiên)

Nó có vẻ là một cách tốt để thông báo cho các công cụ tìm kiếm về các trang quan trọng nhất trên trang web của tôi, phải không? Vâng, đây là những gì John Mueller từ Google phải nói về điều này:

Các công cụ tìm kiếm khác vẫn có thể sử dụng thuộc tính ưu tiên, nhưng các chi tiết khác không được biết. Dưới đây là 3 cách sử dụng có thể xảy ra nhất của thuộc tính ưu tiên:

  • Các trang có mức độ ưu tiên cao có thể được thu thập thông tin thường xuyên hơn
  • Nếu hai trang khớp với cùng một truy vấn, trang có mức độ ưu tiên cao hơn có thể là trang được hiển thị trong kết quả tìm kiếm
  • Nếu một trang web mới, các trang có mức độ ưu tiên cao hơn có thể được lập chỉ mục đầu tiên

Một cách tốt hơn nhiều để tính mức độ ưu tiên của mỗi trang trên trang web của bạn là xem các liên kết nội bộ. Các trang có hầu hết (và nổi bật nhất) các liên kết nội bộ có thể là quan trọng nhất. Đó là lý do tại sao Google hoàn toàn bỏ qua thuộc tính ưu tiên.

4. Sự hiện diện của một phiên bản ngôn ngữ thay thế

Việc khai báo các lựa chọn thay thế hreflang trực tiếp trong mã cho mỗi trang có thể là một vấn đề khó khăn đối với các trang web có hàng nghìn trang. May mắn thay, bạn có thể khai báo tất cả các đột biến ngôn ngữ của mình trong một tệp sitemap XML. Để biết thêm chi tiết, hãy xem hướng dẫn sitemap web hreflang chính thức từ Google .

Yêu cầu tệp sitemap XML

sitemap web có thể là một danh sách văn bản thuần túy gồm các URL (không được khuyến nghị). Nó cũng có thể sử dụng giao thức sitemap web và sử dụng các thẻ XML (cách tốt nhất để làm điều đó). Nó phải được mã hóa UTF-8 và có thể được nén ở định dạng gzip (rất khuyến khích).

Kích thước tệp tối đa là 50MB (dù được nén hay không) hoặc 50.000 URL.

Nếu bạn muốn bao gồm hơn 50.000 trang trong sitemap web thì bạn chỉ cần:

Chia nó thành hai hoặc nhiều tệp sitemap web

Tạo chỉ mục sitemap web sẽ liên kết đến tất cả các sitemap web con đó.

sơ đồ trang XML mẫu

Chỉ mục sitemap web được tạo tự động từ plugin YoastSEO WordPress.

Điều này cũng áp dụng cho giới hạn kích thước 50 MB. Nếu bạn vượt quá giới hạn tối đa, bạn sẽ phải chia sitemap web của mình thành nhiều sitemap web được liên kết từ chỉ mục sitemap web chính.

Nếu tất cả những điều này quá kỹ thuật đối với bạn và trang web của bạn chạy trên WordPress. Bạn hãy sử dụng một plugin (như Yoast SEO ) sẽ thực hiện công việc cho bạn.

Các câu hỏi thường gặp

Tôi có nên sử dụng thuộc tính ưu tiên trong sitemap web không?

Thuộc tính ưu tiên có nghĩa là để báo hiệu tầm quan trọng của các trang của bạn. Các trang quan trọng hơn sau đó có thể được thu thập thông tin thường xuyên hơn. Tuy nhiên, có một cảnh báo rất lớn:

Google hoàn toàn không tính đến thuộc tính này! Và với thị phần khoảng 90% của Google, việc đưa chúng vào sitemap web của bạn trong hầu hết các trường hợp là không đáng.

Nếu bạn sử dụng một plugin tự động đưa thuộc tính ưu tiên vào sitemap web. Thì không sao, nhưng nó sẽ không ảnh hưởng gì đến việc lập chỉ mục hoặc xếp hạng của bạn trên Google.

sitemap web có nên liệt kê tất cả các trang của tôi không?

sitemap web không cần phải bao gồm tất cả các URL trên trang web của bạn. Tuy nhiên, các trang còn lại có thể không được trình thu thập thông tin tìm thấy.

Bạn hoàn toàn có thể bỏ qua các trang mà bạn không muốn lập chỉ mục (dù sao thì chúng cũng có thể được lập chỉ mục. Bạn hãy sử dụng lệnh noindex để cấm các công cụ tìm kiếm lập chỉ mục nó).

Tôi có thể sử dụng sitemap web để thông báo cho Google về các trang mà tôi không muốn được lập chỉ mục không?

Một sitemap web sẽ không giúp được gì cho bạn. sitemap web chỉ là một trợ giúp cho trình thu thập thông tin. Bỏ một trang ra khỏi sitemap web có thể không có bất kỳ ảnh hưởng nào.

  • Nếu không muốn thu thập thông tin trang của mình, bạn cần không cho phép trang đó trong tệp robots.txt . Tuy nhiên, trang vẫn có thể được lập chỉ mục.
  • Nếu bạn không muốn trang của mình được lập chỉ mục , hãy sử dụng thẻ meta ngăn lập chỉ mục .

Google có tìm thấy sitemap web của tôi không? Tôi nên đặt sitemap web ở đâu?

Cách phổ biến nhất là gửi sitemap web trực tiếp trong Google Search Console . Điều tuyệt vời khi làm theo cách này là bạn sẽ thấy liệu google đã kiểm tra sitemap web của bạn chưa. Nó đã tìm thấy bao nhiêu trang và bao nhiêu trang trong số đó hiện được lập chỉ mục.

Nếu bạn không muốn trang web của mình trong một công cụ tìm kiếm nào đó có thể tìm thấy sitemap web của bạn dễ dàng hơn. Bạn có thể thêm nó vào tệp robots.txt của mình (tệp đầu tiên mà trình thu thập thông tin truy cập vào mọi trang web).

Làm thế nào để làm nó? Quá dễ dàng, chỉ cần thêm một dòng như thế này với liên kết đến tệp sitemap web (hoặc tệp chỉ mục sitemap web) vào tệp robots.txt của bạn:

sitemap web: https://www.domain.com/sitemap-name.xml

Đừng quên rằng ngay cả khi mọi thứ được đặt đúng cách:

“việc sử dụng sitemap web không đảm bảo rằng tất cả các mục trong sitemap web của bạn sẽ được thu thập thông tin và lập chỉ mục”. (Nguồn: Google )

Điều gì xảy ra nếu tôi muốn bao gồm hơn 50.000 URL trong một sitemap web?

sitemap web có giới hạn trên 50.000 URL cho mỗi tệp. Nếu bạn cần bao gồm nhiều URL hơn, có một cách giải quyết dễ dàng:

Chia sitemap web của bạn thành nhiều tệp và bao gồm một chỉ mục sitemap web (về cơ bản là một sitemap web) sẽ trỏ đến tất cả các “sitemap con”.

<? xml version = “1.0” encoding = “UTF-8”?>

<sitemapindex xmlns = “http://www.sitemaps.org/schemas/sitemap/0.9”>

<sitemap>

<loc> https://www.domain.com/post-sitemap.xml </loc>

<lastmod> 2019-11-06T20: 19: 20 + 00: 00 </lastmod>

</sitemap>

<sitemap>

<loc> https://www.domain.com/page-sitemap.xml </loc>

<lastmod> 2019-10-21T18: 51: 43 + 00: 00 </lastmod>

</sitemap>

</sitemapindex>

Có bất kỳ tác động tiêu cực nào của việc có nhiều tệp sitemap web và một tệp chỉ mục sitemap web không?

Không hoàn toàn không. Ngay cả khi bạn không đạt đến số lượng URL hoặc giới hạn kích thước tệp. Bạn vẫn có thể chia sitemap web của mình thành nhiều tệp để thuận tiện cho bạn.

Như John Mueller đã giải thích trong chủ đề Reddit này :

Tất cả các tệp sitemap web của một trang web đều được nhập vào một cốc trộn lớn, chung, lắc nhẹ. Sau đó, nó được cung cấp cho Googlebot bằng URL dưới dạng nước tăng lực. Bạn có bao nhiêu tệp không quan trọng.

Những điều quan trọng cần ghi nhớ

  • Không có gì để mất bằng cách có sitemap web, nó chỉ có thể mang lại lợi ích cho bạn
  • Nếu bạn có một trang web nhỏ với hàng trăm trang tĩnh, bạn có thể sẽ thấy ít hoặc không có lợi ích từ việc có sitemap web
  • Nếu bạn có một trang web với hàng nghìn trang được tạo tự động hoặc luôn thay đổi (ví dụ: cửa hàng trực tuyến). sitemap web có thể giúp bạn lập chỉ mục các trang của mình nhanh hơn và mọi thay đổi cũng được phát hiện và lập chỉ mục nhanh hơn
  • Thật dễ dàng để thiết lập sitemap web với CMS hiện đại thông qua các plugin (plugin Yoast cho WordPress, v.v.)
  • Có một sitemap web không phải là một yếu tố xếp hạng theo bất kỳ cách nào
  • sitemap web không thể được sử dụng để yêu cầu các công cụ tìm kiếm không lập chỉ mục một trang

Leave a Reply

Your email address will not be published. Required fields are marked *