Vào tháng 7 và tháng 8 năm nay, SparkToro đã kêu gọi (thông qua Twitter, bản tin email LinkedIn, Facebook và Instagram) tự nguyện chia sẻ dữ liệu Google Analytics từ cộng đồng tiếp thị web.
Hơn 1.000 người tham gia đã chia sẻ lưu lượng truy cập trang web của họ (thông qua chức năng oAuth của GA) với chúng tôi. Sau đó, chúng tôi đã thu thập số liệu từ bốn nhà cung cấp dữ liệu ước tính lưu lượng truy cập – SEMRush, Datos, SimilarWeb và Ahrefs – và so sánh những số liệu này với số liệu được báo cáo của Google Analytics.
Ngoài ra, chúng tôi đã thu thập số liệu Cơ quan quản lý tên miền của Moz và ước tính khối lượng tìm kiếm có thương hiệu của Google Xu hướng. Tất cả các chỉ số này đều sử dụng cùng một khoảng thời gian báo cáo: 12 tháng từ tháng 6 năm 2020 – tháng 6 năm 2021.
Mục tiêu của chúng tôi là :
- Để khám phá một nhà cung cấp bên thứ ba, đáng tin cậy có số lượng lưu lượng truy cập có mối tương quan cao và phương sai thấp với số GA để chúng tôi có thể (hy vọng) nhưng dữ liệu đó và đưa nó vào sản phẩm nghiên cứu đối tượng của SparkToro.
- Chia sẻ những phát hiện của chúng tôi về độ chính xác tương đối của từng số liệu với cộng đồng tiếp thị để các nhà tiếp thị và nhà phân tích khác có thể sử dụng thông tin này tốt hơn trong các phân tích cạnh tranh của riêng họ.
Đầu tiên, tin xấu – ngày nay, chúng tôi không tin rằng bất kỳ ước tính lưu lượng truy cập nào trong số này đủ chính xác để đưa vào SparkToro. Tôi hy vọng điều đó sẽ thay đổi trong tương lai và có thể dự án này sẽ thúc đẩy các nhà cung cấp cải thiện.
Thứ hai – tin tốt. Sau khi thu thập dữ liệu rộng rãi, tranh luận, đấu tranh giữa MySQL và Excel, chúng tôi đã có rất nhiều con số thú vị để chia sẻ với các bạn. Hãy cùng tìm hiểu sâu hơn nhé.
Ước tính của bên thứ ba nào cho kết quả gần nhất trong khoảng +/- 30% lượng người dùng Google Analytics?
Chọn một cách duy nhất để ghép nối và giải trình những dữ liệu này là điều không khả thi, đó là lý do tại sao bạn sẽ tìm thấy nửa tá phương pháp được nếu ra trong bài viết này. Tuy nhiên, nếu tôi phải chọn phương pháp yêu thích của mình và phương pháp mà tôi sẽ sử dụng nhiều nhất trong những năm tới (cho đến khi ai đó đưa ra một nghiên cứu quy mô lớn hơn), thì đó sẽ là phương pháp biểu đồ:
Để có được kết quả bên thứ ba nào ước tính lưu lượng truy cập chuẩn nhất, chúng tôi đã thực hiện ba việc:
- Chúng tôi đã chọn sử dụng Users metric, của Google Analytics, chỉ số này nhằm mục đích đo lường “khách truy cập duy nhất”. Chúng tôi nhận thấy rằng số liệu này phù hợp nhất với các nhà cung cấp bên thứ ba, ngay cả những nhà cung cấp có ước tính về tổng số lượt truy cập/tất cả các phiên.
- 053 trang web đã chia sẻ lưu lượng truy cập với chúng tôi, nhưng chúng tôi đã làm sạch bộ dữ liệu này trước khi chạy các phân tích dữ liệu. Chúng tôi đã loại trừ các trang web mà bên thứ ba không có dữ liệu và bất kỳ trang web có lỗ hổng hoặc lỗi trong lưu lượng truy cập do GA báo cáo (ví dụ: một tháng bị thiếu hoặc một nửa, có thể do họ đã xóa trình thu thập GA khỏi trang web của mình hoặc một nhóm trang con).
- Chúng tôi cũng đã loại bỏ vài chục ngoại lệ, giúp mang lại các mối tương quan và phạm vi chính xác để căn chỉnh tốt hơn. Đối với dữ liệu và biểu đồ bên dưới, 641 trang web đã cung cấp cho chúng tôi 7.692 điểm dữ liệu duy nhất để so sánh (12 tháng X 641 trang web).
Trong biểu đồ trên, mỗi nhà cung cấp trong số bốn nhà cung cấp dữ liệu được biểu thị cùng với % số lần chỉ số lưu lượng truy cập của họ nằm trong khoảng 30% “Người dùng” được báo cáo của Google Analytics trong tháng. Điều quan trọng là chúng tôi cũng đã phân đoạn các trang web theo lưu lượng truy cập mà chúng nhận được, sử dụng tổng cộng sáu nhóm:
- Trang web có trung bình 250,000+ người dùng GA/tháng (46 trong số 641 trang được phân tích)
- Trang web có trung bình 100,000-250,000 người dùng GA/tháng (39 trong số 641 trang được phân tích)
- Trang web có trung bình 50,000-100,000 GA người dùng GA/tháng (91 trong số 641 trang được phân tích)
- Trang web có trung bình 25,000-50,000 người dùng GA/tháng (96 trong số 641 trang được phân tích)
- Trang web có trung bình 5,000-25,000 GA người dùng GA/tháng (186 trong số 641 trang được phân tích)
- Trang web có trung bình <5,000 GA người dùng GA/tháng (183 trong số 641 trang được phân tích)
Chúng tôi tin rằng những kết quả này cung cấp một bức tranh minh bạch và hữu ích. Tập các trang web này đủ lớn để nếu chúng tôi thu thập dữ liệu GA của hơn 100 nghìn trang web, các con số cuối cùng có thể cũng sẽ giống nhau.
Điều đáng chú ý là, SimilarWeb chiến thắng rõ ràng với một ngoại lệ: ước tính lưu lượng truy cập của họ trên các trang web nhỏ (<5.000 khách truy cập hàng tháng theo GA) là kém nhất trong nhóm. Nếu họ làm tốt hơn ở đây, phần còn lại của phân tích có thể sẽ cho thấy họ là người dẫn đầu.
Số liệu thứ hai mà chúng tôi đang trình bày là số liệu mà hầu hết những người làm thống kê sẽ thấy quen thuộc: hệ số tương quan. Nếu bạn đã theo dõi nghiên cứu của tôi trong một thời gian dài, bạn có thể nhớ lại rằng trước đây tôi đã trình bày mối tương quan giữa những thứ như Google rankings và Moz’s metrics
Phân tích này sẽ có phần hơi khác biệt.
Tại sao? Bởi vì tất cả các nhà cung cấp bên thứ 3 và Google Analytics (đối với những nhà cung cấp mà chúng tôi đang so sánh) đang cố gắng đo lường cùng một thứ: Lưu lượng truy cập web. Không có số liệu học máy đối lập so với thuật toán có hàng trăm hoặc hàng nghìn đầu vào. Biểu đồ bên dưới chỉ trả lời câu hỏi: Các chỉ số lưu lượng truy cập của SEMRush, Datos, SimilarWeb và Ahrefs tốt như thế nào so với các chỉ số do Google Analytics thu thập trên cùng các trang web, trong cùng một khung thời gian.
Biểu đồ trên cho thấy mối tương quan giữa các nhà cung cấp và chỉ số Người dùng được báo cáo của Google Analytics cho mỗi tháng. Phạm vi là 0 (không tương quan) đến 1.0 (tương quan hoàn hảo) và trong suốt 7692 tháng dữ liệu từ 641 trang web, SEMRush hoạt động tốt nhất trong nhóm ở mức 0,790, theo sát là Datos ở mức 0,720, sau đó là SimilarWeb ở mức 0,659 và Ahrefs ở mức 0,504.
Chúng tôi cũng đã chọn bao gồm Domain Authority của Moz và average interest over time của Google Xu hướng theo thời gian cho những người tò mò. Cả hai đều không mang mục đích đo lưu lượng tìm kiếm, nhưng cả hai vẫn tương quan với nhau và chúng tôi biết những người làm marketing đôi khi sử dụng chúng làm đại diện cho các mức lưu lượng truy cập tương đối. Báo cáo này có thể giúp làm rõ mức độ hữu ích của chúng cho mục đích đó.
Tuy nhiên, mối tương quan chỉ là một cách để đo lường hiệu suất của các số liệu này. Để tiếp tục hành trình tìm hiểu giá trị của các chỉ số này, chúng tôi nghĩ rằng nhiều người sẽ muốn biết “những con số của bên thứ ba này có thể chênh lệch bao xa?”
Phạm vi ước tính lưu lượng truy cập cho số liệu của bên thứ 3
Trong các biểu đồ bên dưới, bạn sẽ thấy số dương và số âm cho từng nhà cung cấp dữ liệu. Chúng đại diện cho các thanh lỗi, tức là số tiền tối đa mà mỗi nhà cung cấp vượt quá hoặc đánh giá thấp lưu lượng truy cập vào số GA của trang web. Do kích thước của các phạm vi, biểu đồ đầu tiên này chỉ xem xét nhóm đầu tiên (các trang web có hơn 250 nghìn người dùng GA/tháng):
This next graph compares all four providers across the five smaller traffic buckets:
Trong dữ liệu này, chúng tôi thấy một số khác biệt giữa các nhà cung cấp. Một vài điều nổi bật là:
- Các thanh lỗi nhỏ ấn tượng của Ahrefs dành cho các trang web có <50 nghìn người dùng GA/tháng
- Sức mạnh của SimilarWeb với các trang web có từ 5K-100K Người dùng GA/tháng
- Các thanh lỗi lớn ở đầu trên cùng của phổ lưu lượng truy cập khiến rất khó tin vào số liệu của bất cứ bên nào.
Đây không phải là mức trung bình giữa số của nhà cung cấp và GA; những số liệu này hiển thị tối đa và tối thiểu. Biểu đồ tương quan ở trên là câu trả lời tốt hơn cho câu hỏi “các con số của các bên thứ ba chênh lệch toàn bộ tập dữ liệu bao nhiêu?” trong khi các biểu đồ này trả lời câu hỏi “các con số có thể chênh lệch bao nhiêu?”
Như bạn có thể thấy, câu trả lời đó thường là +/-100% trở lên, nghĩa là bên thứ ba có thể nói rằng trang web XYZ đã nhận được 50.000 lượt truy cập vào tháng 6, nhưng thực tế nó chỉ có 5.000 hoặc 100.000. Độ chính xác thường tốt hơn trên các trang web nhỏ và trung bình, nhưng ngay cả ở đó, phương sai có thể rất lớn.
Tần suất hoạt động của các bên thứ 3 với lưu lượng truy cập thấp hơn ước tính?
Câu hỏi cuối cùng mà chúng tôi cố gắng trả lời là liệu các ước tính lưu lượng truy cập khác nhau thường sai lệch theo hướng này hay hướng khác. Biểu đồ bên dưới sử dụng tất cả sáu nhóm lưu lượng truy cập trên từng nhà cung cấp trong số bốn nhà cung cấp để trả lời câu hỏi đó một cách toàn diện.
Một số phát hiện thú vị ở đây:
- Ahrefs hầu như luôn đánh giá thấp… cho đến khi bạn đạt được nhóm <5 nghìn người dùng GA/tháng, nơi họ hầu như luôn đánh giá quá cao.
- Datos và SimilarWeb khá cân bằng giữa ước tính trên và dưới
- SEMRush thường xuyên ước tính dưới hơn
Làm thế nào để tôi có thể sử dụng dữ liệu này vào mục đích cá nhân?
- Đối với các trang web lớn hơn, tôi sẽ tiếp tục sử dụng các ước tính của SimilarWeb. Họ tốt hơn bất kỳ ai khác và trong gần 2/3 thời gian (~63%) họ nhận được số lượng truy cập ngay trong khoảng +/-30%.
- Đối với các trang web nhỏ, Datos có số liệu mạnh nhất. Vì họ là nhà cung cấp rất mới (<2 năm), tôi hy vọng rằng trong một vài năm nữa, nếu chúng tôi làm lại báo cáo này, họ sẽ là người dẫn đầu.
- Thật khó để nghiên cứu từ các trang web rằng Ahrefs và SEMRush đang cố gắng ước tính lưu lượng truy cập tổng thể hay chỉ đang ước tính lưu lượng tìm kiếm. Nếu là cái sau, SEMRush hoàn toàn có thể tham gia vào trò chơi phân tích cạnh tranh. Những con số của họ nhìn rất chắc chắn. Với Ahrefs, tôi hy vọng họ sẽ cải thiện các kết quả của mình sao cho chuẩn xác hơn.
Phần kết: Các mô hình học máy có thể hỗ trợ không?
Một cách tiếp cận mà những người làm khoa học dữ liệu thông minh có thể đề xuất ở đây là sử dụng kết hợp các chỉ số từ nhà cung cấp bên thứ 3 cùng với các chỉ số tương quan hợp lý khác, sử dụng mô hình máy học được đào tạo trên bộ dữ liệu này. Điều đó có thể tạo ra một ước tính chất lượng cao?
Câu trả lời là: Không.
Chúng tôi đã thử sử dụng thư viện máy học của AWS để xây dựng một mô hình dựa trên dữ liệu trong nghiên cứu này và thu được kết quả mà bạn thấy ở trên, tức là không tốt và hầu như không cải thiện được số liệu thô của nhà cung cấp số liệu bên thứ ba.
Casey (người đồng sáng lập của tôi) đã tham khảo ý kiến của một số người có kinh nghiệm trong thế giới ML, tất cả các đề xuất của họ đều giống nhau: “rác vào, rác ra”, tức là sử dụng các ước tính của bên thứ ba này cộng với dữ liệu như sở thích tìm kiếm trung bình của Google Xu hướng và của Cơ quan quản lý tên miền Moz (chúng tôi cũng đã sử dụng số lượng tên miền gốc liên kết trong trường hợp liên kết giúp dự đoán lưu lượng truy cập) là không đủ. Trên thực tế, đáng tiếc là nó không được chứng minh là tốt hơn nhiều so với con số tốt nhất của nhà cung cấp bên thứ 3 cho bất kỳ phân khúc cụ thể nào.
Tái bút: Ban đầu, tôi hy vọng chia sẻ một bảng tính ẩn danh về dữ liệu lưu lượng truy cập và số liệu của bên thứ ba, nhưng thật đáng buồn khi nhận ra rằng điều này có thể nhanh chóng làm lộ danh tính của các trang web (tìm số lưu lượng truy cập hàng tháng trong SEMRush, Ahrefs hoặc SimilarWeb và ctrl+f trong bảng tính và bạn sẽ nhanh chóng biết nếu chúng tôi sử dụng số của trang web đó). Để khẳng định rằng chúng tôi đã hứa và sẽ ẩn danh và không bao giờ chia sẻ dữ liệu lưu lượng truy cập của bất kỳ ai bên ngoài nghiên cứu này, điều đó là chắc chắn.
Nếu bạn muốn tối ưu hoá chiến lược Marketing của mình và tìm kiếm sự hỗ trợ chuyên nghiệp, hãy liên hệ với AMS – đại lý của Similarweb tại Việt Nam. Chúng tôi cung cấp các dịch vụ Marketing hiệu quả để giúp bạn tăng trưởng và phát triển kinh doanh của mình. Liên hệ với chúng tôi ngay hôm nay để biết thêm chi tiết về các dịch vụ của chúng tôi và cách chúng tôi có thể giúp bạn