Blog

So sánh độ chính xác các công cụ check lưu lượng truy cập website.

Biểu đồ so sách các bên thứ 3 có kết quả gần với Google Analytics
Mục lục

Trong một nghiên cứu toàn diện được thực hiện vào tháng 7 và 8, SparkToro đã kêu gọi cộng đồng tiếp thị web chia sẻ dữ liệu Google Analytics của họ để phục vụ mục đích so sánh và đánh giá độ chính xác của các nhà cung cấp dữ liệu bên thứ ba. Hơn 1.000 người đã tình nguyện kết nối tài khoản Google Analytics của họ thông qua chức năng oAuth, tạo điều kiện cho SparkToro thu thập dữ liệu thực tế từ người dùng.

 

Từ bộ dữ liệu đó, SparkToro đã đối chiếu và phân tích các chỉ số từ bốn nền tảng phổ biến: SEMrush, Datos, Ahrefs và SimilarWeb. Ngoài ra, nghiên cứu còn sử dụng thêm chỉ số Domain Authority của Moz và dữ liệu khối lượng tìm kiếm thương hiệu từ Google Trends trong cùng khung thời gian (tháng 6/2020 – tháng 6/2021).

 

Kết quả từ nghiên cứu cho thấy: Chúng tôi – SimilarWeb là nền tảng cho ra dữ liệu lưu lượng truy cập gần sát nhất với Google Analytics trên các website có quy mô từ vừa đến lớn. Đây là một xác nhận độc lập từ SparkToro về độ chính xác của dữ liệu SimilarWeb — yếu tố quan trọng giúp các marketer và doanh nghiệp đưa ra quyết định đúng đắn trong các phân tích cạnh tranh và đo lường thị phần.

 

Mục tiêu của SparkToro là :

 

  1. Để khám phá một nhà cung cấp bên thứ ba, đáng tin cậy có số lượng lưu lượng truy cập có mối tương quan cao và phương sai thấp với số GA để có thể (hy vọng) nhưng dữ liệu đó và đưa nó vào sản phẩm nghiên cứu đối tượng của SparkToro.
  2. Chia sẻ những phát hiện về độ chính xác tương đối của từng số liệu với cộng đồng tiếp thị để các nhà tiếp thị và nhà phân tích khác có thể sử dụng thông tin này tốt hơn trong các phân tích cạnh tranh của riêng họ.

 

Ước tính của bên thứ ba nào cho kết quả gần nhất trong khoảng +/- 30% lượng người dùng Google Analytics?

 

SparkToro đã sử dụng phương pháp biểu đồ để phân tích, so sánh và đưa ra kết luận về các bên thứ ba có kết quả gần với Google Analytics.

 

Biểu đồ so sách các bên thứ ba có kết quả gần với Google Analytics
Biểu đồ so sách các bên thứ ba có kết quả gần với Google Analytics

Để có được kết quả bên thứ ba nào ước tính lưu lượng truy cập chuẩn nhất, SparkToro đã thực hiện ba việc:

 

  1. SparkToro đã chọn sử dụng chỉ số “Users” từ Google Analytics, vốn được thiết kế để đo lường “khách truy cập duy nhất”. Họ nhận định rằng chỉ số này tương thích tốt nhất khi so sánh với dữ liệu từ các nhà cung cấp bên thứ ba, ngay cả khi những bên này cung cấp ước tính về tổng số lượt truy cập hoặc tổng số phiên.
  2. Ban đầu, SparkToro đã thu thập dữ liệu từ 1.053 trang web, nhưng họ đã tiến hành làm sạch bộ dữ liệu trước khi thực hiện phân tích. Quá trình này bao gồm việc loại bỏ các trang web không có dữ liệu từ bên thứ ba cũng như những trang web có dữ liệu Google Analytics không đầy đủ hoặc có lỗi. Ví dụ như các trường hợp thiếu dữ liệu trong một tháng hoặc một nửa tháng, có thể do việc gỡ bỏ mã theo dõi Google Analytics khỏi một số trang con.
  3. Ngoài ra, SparkToro cũng loại bỏ một số trường hợp ngoại lệ để cải thiện độ chính xác của phân tích tương quan và phạm vi căn chỉnh. Kết quả cuối cùng là một tập dữ liệu gồm 641 trang web, tạo thành 7.692 điểm dữ liệu duy nhất để so sánh (tương đương với dữ liệu 12 tháng từ 641 trang web).

 

Phân tích của SparkToro còn đi sâu vào đánh giá hiệu suất của các công cụ phân tích bên thứ ba thông qua biểu đồ so sánh. Trong biểu đồ này, bốn nhà cung cấp dữ liệu được đánh giá dựa trên tỷ lệ phần trăm các trường hợp mà ước tính lưu lượng truy cập của họ nằm trong phạm vi sai số ±30% so với số liệu “Users” từ Google Analytics trong cùng tháng.

 

Để đảm bảo tính toàn diện, SparkToro đã phân chia 641 trang web thành 6 nhóm dựa trên lưu lượng truy cập hàng tháng:

 

  • 46 trang web có trung bình trên 250.000 người dùng GA/tháng
  • 39 trang web có trung bình 100.000-250.000 người dùng GA/tháng
  • 91 trang web có trung bình 50.000-100.000 người dùng GA/tháng
  • 96 trang web có trung bình 25.000-50.000 người dùng GA/tháng
  • 186 trang web có trung bình 5.000-25.000 người dùng GA/tháng
  • 183 trang web có trung bình dưới 5.000 người dùng GA/tháng

 

Kết quả phân tích này cung cấp một bức tranh minh bạch và đáng tin cậy. SparkToro cho rằng với quy mô mẫu này, ngay cả khi họ mở rộng nghiên cứu lên hơn 100.000 trang web, các kết quả cuối cùng có khả năng sẽ tương tự.

 

Đáng chú ý, dữ liệu cho thấy Similarweb là nền tảng có tỷ lệ ước tính khớp với dữ liệu “Users” của Google Analytics cao nhất trong hầu hết các phân khúc website, đặc biệt là các trang web có lưu lượng truy cập từ 5.000 đến 100.000 người dùng/tháng. Cụ thể:

 

  • Trong phân khúc website lớn (trên 250.000 người dùng/tháng), Similarweb đạt tỷ lệ khớp dữ liệu trong phạm vi ±30% vượt trội hơn so với các đối thủ cạnh tranh.
  • Ở các phân khúc trung bình (từ 5.000 đến 100.000 người dùng/tháng), Similarweb thể hiện độ ổn định cao với mức sai số thấp hơn đáng kể so với các công cụ khác.

 

SparkToro cũng giới thiệu chỉ số thứ hai mà nhiều chuyên gia thống kê quen thuộc: hệ số tương quan. Họ nhắc lại rằng trong các nghiên cứu trước đây, họ đã từng phân tích mối tương quan giữa các chỉ số như thứ hạng Google và các chỉ số của Moz.

 

Phân tích này sẽ có phần hơi khác biệt.

 

Theo nghiên cứu của SparkToro, việc so sánh giữa các công cụ phân tích lưu lượng truy cập có cơ sở vững chắc vì tất cả đều đo lường cùng một thông số: lưu lượng truy cập web. Không giống như các trường hợp phức tạp khác khi so sánh mô hình học máy với thuật toán đa biến, đây là phép so sánh trực tiếp về độ chính xác.

 

So sánh traffic Google Analytics và các nền tảng khác
So sánh traffic Google Analytics và các nền tảng khác

 

Biểu đồ trong báo cáo của SparkToro đánh giá mức độ chính xác của SEMRush, Datos, Similarweb và Ahrefs khi so sánh với dữ liệu Google Analytics trên cùng một trang web và cùng thời điểm. Qua phân tích tương quan (thang điểm từ 0-1.0) dựa trên 7.692 tháng dữ liệu từ 641 trang web, SEMRush đạt chỉ số cao nhất với 0,790, tiếp theo là Datos (0,720), Similarweb (0,659) và Ahrefs (0,504).

 

SparkToro cũng đưa vào nghiên cứu chỉ số Domain Authority của Moz và chỉ số quan tâm trung bình theo thời gian của Google Trends. Mặc dù hai chỉ số này không được thiết kế để đo lường lưu lượng truy cập, nghiên cứu này giúp làm rõ giá trị của chúng khi được sử dụng làm đại diện cho mức lưu lượng tương đối – một cách sử dụng phổ biến trong ngành marketing.

 

SparkToro cũng nhấn mạnh rằng tương quan chỉ là một phương diện đánh giá hiệu suất. Điều nhiều người quan tâm là “mức độ chênh lệch thực tế giữa các con số từ bên thứ ba so với dữ liệu thực tế”.

 

Phạm vi ước tính lưu lượng truy cập cho số liệu của bên thứ 3

 

Theo báo cáo mới nhất từ SparkToro, các biểu đồ dưới đây cho thấy mức độ sai lệch giữa dữ liệu lưu lượng truy cập do các nhà cung cấp bên thứ ba cung cấp so với dữ liệu thực tế từ Google Analytics (GA). Các con số dương và âm biểu thị “thanh lỗi” – tức là mức chênh lệch tối đa mà mỗi nhà cung cấp có thể đã ước lượng cao hơn hoặc thấp hơn so với thực tế.

 

Vì phạm vi sai số khá lớn, biểu đồ đầu tiên chỉ tập trung vào nhóm các trang web có trên 250.000 người dùng GA/tháng.

 

So sánh traffic Google Analytics và các nền tảng khác
So sánh traffic Google Analytics và các nền tảng khác

 

Biểu đồ tiếp theo so sánh cả bốn nhà cung cấp trong năm nhóm lưu lượng nhỏ hơn.

 

So sánh traffic Google Analytics và các nền tảng khác
So sánh traffic Google Analytics và các nền tảng khác

 

Một số điểm đáng chú ý từ dữ liệu:

 

  • Ahrefs có mức sai số rất nhỏ đối với các trang web nhỏ hơn 50.000 người dùng GA/tháng – điều này khá ấn tượng.
  • Similarweb thể hiện hiệu quả vượt trội trong nhóm các trang web có từ 5.000 đến 100.000 người dùng GA/tháng.
  • Ở nhóm lưu lượng truy cập cao nhất, mức sai số giữa các nhà cung cấp đều lớn đến mức khiến việc dựa hoàn toàn vào số liệu của bất kỳ bên nào trở nên khó tin cậy.

 

Điều quan trọng cần lưu ý là: đây không phải là số trung bình giữa dữ liệu của các nhà cung cấp và GA, mà là phạm vi tối đa – tối thiểu của sự chênh lệch. Biểu đồ tương quan tổng thể phía trên trong báo cáo cung cấp cái nhìn chính xác hơn về độ lệch toàn cục, còn các biểu đồ thanh lỗi này trả lời cho câu hỏi:

 

“Số liệu có thể lệch nhiều nhất đến mức nào?”

 

Câu trả lời, như bạn có thể thấy, là thường nằm trong khoảng +/-100% hoặc hơn. Điều đó có nghĩa là một nhà cung cấp có thể báo cáo rằng website XYZ có 50.000 lượt truy cập trong tháng 6, trong khi thực tế chỉ là 5.000 hoặc có thể đến 100.000.

 

Tuy độ chính xác thường cao hơn với các website nhỏ và trung bình, nhưng mức sai số vẫn có thể rất lớn – điều này nhấn mạnh tầm quan trọng của việc hiểu rõ giới hạn và khả năng của từng công cụ đo lường khi phân tích lưu lượng truy cập.

 

Tần suất hoạt động của các bên thứ 3 với lưu lượng truy cập thấp hơn ước tính?

 

Liệu các nhà cung cấp dữ liệu có thường xuyên ước lượng lệch theo một hướng cố định – ví dụ như luôn cao hơn hoặc luôn thấp hơn thực tế?

 

Biểu đồ tổng hợp dữ liệu từ sáu nhóm lưu lượng truy cập khác nhau trên bốn nhà cung cấp chính, nhằm cung cấp cái nhìn toàn diện cho câu hỏi này.

 

Một số phát hiện thú vị ở đây:

 

  • Ahrefs thường xuyên ước tính thấp hơn so với thực tế – ngoại trừ nhóm các website rất nhỏ (<5.000 người dùng GA/tháng), nơi họ lại ước tính cao hơn rõ rệt.
  • Datos và Similarweb có xu hướng cân bằng tốt hơn, với số lần ước tính cao và thấp gần như tương đương.
  • SEMRush thì nghiêng rõ về một phía, với xu hướng ước tính thấp hơn thực tế trong hầu hết các trường hợp.

Làm thế nào để tôi có thể sử dụng dữ liệu này vào mục đích cá nhân?

 

Với các trang web lớn, SparkToro khẳng định:

 

“Tôi sẽ tiếp tục sử dụng các ước tính từ SimilarWeb. Họ thể hiện tốt hơn bất kỳ ai khác – và trong gần 2/3 trường hợp (khoảng 63%), số liệu của họ nằm trong khoảng ±30% so với dữ liệu thực tế từ Google Analytics.”

 

Đối với Ahrefs và SEMRush, vẫn còn nhiều điều chưa rõ: họ đang cố gắng ước tính lưu lượng tổng thể của website hay chỉ tập trung vào lưu lượng tìm kiếm?

 

  • Nếu là lưu lượng tìm kiếm, SEMRush hoàn toàn có khả năng cạnh tranh mạnh. Các con số họ đưa ra nhìn chung khá ổn định.
  • Với Ahrefs, SparkToro kỳ vọng họ sẽ tiếp tục cải thiện độ chính xác của mình trong tương lai.

Phần kết: Các mô hình học máy có thể hỗ trợ không?

 

Một cách tiếp cận nghe có vẻ đầy hứa hẹn là: kết hợp dữ liệu từ nhiều nhà cung cấp bên thứ ba với các chỉ số tương quan khác (như xu hướng tìm kiếm, số lượng tên miền liên kết…), sau đó dùng mô hình máy học để ước tính lưu lượng truy cập chính xác hơn.

 

Tuy nhiên, SparkToro khẳng định: điều đó không hiệu quả.

 

Họ đã thử nghiệm xây dựng mô hình bằng thư viện máy học của AWS, huấn luyện trên bộ dữ liệu trong nghiên cứu. Kết quả? Hầu như không cải thiện gì so với dữ liệu thô từ các nhà cung cấp.

 

Ngay cả khi tham khảo ý kiến từ các chuyên gia trong lĩnh vực machine learning, họ đều chung quan điểm:

 

“Garbage in, garbage out” – nếu dữ liệu đầu vào không đủ chất lượng, thì mô hình không thể cho kết quả tốt.

 

SparkToro đã thử thêm các yếu tố bổ sung như:

 

  • Sở thích tìm kiếm từ Google Trends
  • Dữ liệu tên miền liên kết từ Moz
  • Các ước tính từ nhiều nguồn dữ liệu khác

 

… nhưng tất cả đều không mang lại cải thiện rõ rệt so với dữ liệu tốt nhất từ từng nhà cung cấp riêng lẻ.

Similarweb – Sự lựa chọn đáng tin cậy cho doanh nghiệp

 

Qua nghiên cứu độc lập của SparkToro, SimilarWeb nổi bật về độ chính xác khi ước tính lưu lượng truy cập – đặc biệt với các trang web trung bình đến lớn.

 

Điều này khiến SimilarWeb trở thành công cụ lý tưởng cho các marketer, nhà phân tích dữ liệu và doanh nghiệp đang tìm kiếm một giải pháp đo lường sát thực tế và có độ tin cậy cao.

Về việc bảo mật dữ liệu

 

Ban đầu, SparkToro dự định công khai bảng dữ liệu ẩn danh để cộng đồng cùng tham khảo. Tuy nhiên, họ nhanh chóng nhận ra rằng chỉ với một vài thao tác tìm kiếm, có thể lần ra danh tính các website. Vì vậy, để giữ đúng cam kết bảo mật, toàn bộ dữ liệu chỉ được sử dụng trong khuôn khổ nghiên cứu và sẽ không chia sẻ công khai dưới bất kỳ hình thức nào.

 

Nếu bạn muốn tối ưu hoá chiến lược Marketing của mình và tìm kiếm sự hỗ trợ chuyên nghiệp, hãy liên hệ với AMS – đại lý của SimilarWeb tại Việt Nam. Chúng tôi cung cấp các dịch vụ Marketing hiệu quả để giúp bạn tăng trưởng và phát triển kinh doanh của mình. Liên hệ với chúng tôi ngay hôm nay để biết thêm chi tiết về các dịch vụ của chúng tôi và cách chúng tôi có thể giúp bạn.

LIÊN HỆ TƯ VẤN NGAY

Nhận tài liệu miễn phí