Blog

Knowledge Graph của Google là gì? Hướng Dẫn Chi Tiết

Mục lục

Không có nghi ngờ gì rằng SEO ngữ nghĩa (Semantic SEO) là tương lai của SEO. Lý do? Khi các công cụ tìm kiếm phát triển theo hướng tìm kiếm ngữ nghĩa (Semantic Search), chiến lược SEO của bạn cũng phải phát triển theo. Vấn đề là rào cản gia nhập cao. Nói cách khác, để thực hiện SEO ngữ nghĩa (Semantic SEO), bạn phải có hiểu biết cơ bản về cách hoạt động của tìm kiếm ngữ nghĩa. Bài đăng này sẽ giải quyết câu hỏi: Knowledge Graph của Google là gì? Tôi sẽ cố gắng giải thích từng phần một để dễ hiểu nhất.

 

Knowledge Graph của Google là gì?

 

Ở cấp độ tổng quan, Knowledge Graph của Google là một cơ sở kiến thức (Knowledge Base) gồm các thực thể được cấu trúc thành một đồ thị gọi là Knowledge Graph.

 

Tôi tự coi mình là một người bình thường và điều đó có nghĩa là tôi hy vọng sẽ sử dụng ngôn ngữ đơn giản để dễ hiểu.

 

Thật thú vị khi lưu ý rằng Knowledge Graph của Google tương tác trực tiếp với SERP. Nơi rõ ràng nhất để thấy điều này là Google Knowledge Panels. Knowledge Panel là một cách để người dùng cuối tương tác với thông tin thực thể trong Knowledge Graph.

 

Minh họa Google Knowledge Panel trên màn hình máy tính
Minh họa Google Knowledge Panel trên màn hình máy tính

 

Để bắt đầu hiểu Knowledge Graph của Google, trước tiên chúng ta cần hiểu tại sao các công cụ tìm kiếm đang phát triển theo hướng tìm kiếm ngữ nghĩa (Semantic Search).

 

Tìm Kiếm Ngữ Nghĩa (Semantic Search)

 

Nói một cách đơn giản, một công cụ tìm kiếm ngữ nghĩa (Semantic Search) được thiết kế để tương tác với mọi người bằng ngôn ngữ mà một người sẽ sử dụng.

 

Tại sao các công cụ tìm kiếm làm điều đó?

 

Nếu bạn đã làm quen với Internet một thời gian, bạn có thể nhớ việc gõ một truy vấn vào công cụ tìm kiếm cách đây mười lăm hoặc hai mươi năm như thế nào. Nếu bạn nhớ lại, nó cực kỳ không chính xác. Bạn sẽ cố gắng tìm ra những từ phù hợp để gõ vào công cụ tìm kiếm và sau đó bạn sẽ phải tìm kiếm xung quanh để tìm tài nguyên bạn đang tìm kiếm.

 

Lý do cho điều này là các công cụ tìm kiếm vào thời điểm đó không có cách nào để hiểu truy vấn của bạn. Họ cũng không thể hiểu được ý nghĩa của nội dung trực tuyến để trả lời truy vấn của bạn.

 

Đối lập với trải nghiệm của bạn khi sử dụng các công cụ tìm kiếm ngày nay. Bạn đã bao giờ nhận thấy rằng Google gần như có thể trực giác mang đến cho bạn nội dung không chỉ liên quan đến truy vấn của bạn mà còn thường có thể trực tiếp trả lời truy vấn của bạn trong các trang kết quả không?

 

Vậy, Google làm điều đó như thế nào?

 

Xử lý ngôn ngữ tự nhiên (NLP) của Google.

 

Xử lý ngôn ngữ tự nhiên (NLP) của Google là khả năng của nó để ‘hiểu’ và tương tác với ngôn ngữ tự nhiên của con người.

 

Và để đạt được Xử lý ngôn ngữ tự nhiên (NLP) của Google, họ cần cơ sở dữ liệu thông tin có thể đọc được bằng máy được cấu trúc theo cách bắt chước cách con người tổ chức thông tin.

 

Bằng cách cấu trúc thông tin theo cách này, các công cụ tìm kiếm có thể ‘hiểu’ truy vấn của người dùng và mang đến các tài nguyên liên quan để trả lời truy vấn bằng cách ‘hiểu’ nội dung trực tuyến.

 

Mặc dù máy móc không thực sự hiểu ngôn ngữ, chúng có thể bắt chước sự hiểu biết.

 

Bây giờ, để tổ chức thông tin theo cách cho phép máy móc làm điều này, chúng cần chia các ý tưởng và thông tin thành các thực thể.

Vậy, thực thể là gì?

Thực Thể Google (Google Entity) Là Gì?

 

Thực thể Google (Google Entity) được Google định nghĩa là “Một sự vật hoặc khái niệm đơn lẻ, độc đáo, được xác định rõ ràng và có thể phân biệt được.”

 

Nói một cách đơn giản, các công cụ tìm kiếm có cơ sở dữ liệu về các thực thể và các cơ sở dữ liệu này bao gồm thông tin thực thể như tên, loại, thuộc tính và cách các thực thể liên quan đến các thực thể khác.

 

Như tôi đã đề cập ở trên, lý do các công cụ tìm kiếm giữ cơ sở dữ liệu về các thực thể là để chúng có thể tổ chức thông tin thành một cấu trúc bắt chước cách mọi người cấu trúc thông tin.

 

Các thực thể là các khối xây dựng nhỏ nhất cần thiết để tổ chức thông tin theo cách này.

 

Ok, bây giờ chúng ta đã có hiểu biết cơ bản về các thực thể, hãy chuyển sang Knowledge Graph.

 

Hiểu Về Knowledge Graph Của Google

 

Knowledge Graph của Google được tạo thành từ các thành phần khác nhau. Lý do cho điều này là để các công cụ tìm kiếm trả lời truy vấn của người dùng, chúng cần:

 

  • Có một nguồn thông tin đáng tin cậy
  • Cấu trúc thông tin đó theo cách cho phép công cụ tìm kiếm trả lời truy vấn

 

Điều này đưa chúng ta đến:

 

  • Kho lưu trữ kiến thức (Knowledge Repository – KR)
  • Cơ sở kiến thức (Knowledge Base – KB) thường được gọi là Knowledge Graph (KG)

 

Hãy cùng đi sâu vào cả hai. Đây là phần cốt lõi của cách hoạt động của Knowledge Graph.

 

Kho Lưu Trữ Kiến Thức (Knowledge Repository – KR)

 

Kho lưu trữ kiến thức (Knowledge Repository) là các nguồn thông tin mà các công cụ tìm kiếm sử dụng để xây dựng cơ sở kiến thức. Chúng là các danh mục thực thể sắp xếp các thực thể thành các loại thực thể.

 

Chúng có thể tùy chọn bao gồm mô tả các thực thể cũng như các thuộc tính thực thể. Các kho lưu trữ kiến thức này tồn tại ở định dạng có cấu trúc hoặc bán cấu trúc.

 

Ví dụ hoàn hảo về một kho lưu trữ kiến thức (Knowledge Repository) là Wikipedia. Mỗi bài viết Wikipedia mô tả một thực thể cụ thể, làm cho nó trở thành một danh mục thực thể.

 

Hơn nữa, mỗi bài viết được gán cho các danh mục và chúng ta có thể xem các danh mục này là các loại thực thể.

 

Ví dụ về các danh mục trên Wikipedia cho "natural language processing"
Ví dụ về các danh mục trên Wikipedia cho “natural language processing”

 

Vì vậy, trong ảnh chụp màn hình ở trên, bạn có thể thấy các danh mục cho thực thể ‘xử lý ngôn ngữ tự nhiên’. Như bạn thấy, xử lý ngôn ngữ tự nhiên là một danh mục các thực thể. Hơn nữa, nó là một danh mục con của ngôn ngữ học tính toán. Ngôn ngữ học tính toán là một danh mục con của nhận dạng giọng nói, v.v.

 

Các bài viết Wikipedia cũng cho thấy mối quan hệ giữa các thực thể bằng cách thêm siêu liên kết giữa các bài viết. Chúng cũng bao gồm thông tin về các thuộc tính và mối quan hệ của một thực thể.

 

Tất cả thông tin này ở định dạng bán cấu trúc.

 

Kho Lưu Trữ Kiến Thức Bán Cấu Trúc

 

Dữ liệu bán cấu trúc đơn giản đề cập đến thông tin có một số cấu trúc như đánh dấu HTML bao gồm các đoạn văn, bảng và tiêu đề HTML.

Nói một cách đơn giản, Wikipedia là một kho lưu trữ kiến thức (Knowledge Repository) bán cấu trúc.

 

Kho Lưu Trữ Kiến Thức Có Cấu Trúc

 

Dữ liệu có cấu trúc (hoặc cơ sở dữ liệu quan hệ) mặt khác, đơn giản đề cập đến dữ liệu có cấu trúc hoặc schema được xác định trước. Dữ liệu có cấu trúc thường được tổ chức thành các bảng. Điều này có nghĩa là mọi trường được chỉ định bởi schema phải được gán một giá trị (được phép).

 

Một khi các công cụ tìm kiếm có thông tin có cấu trúc hoặc bán cấu trúc này, nó vẫn chưa được sắp xếp theo cách mà các công cụ tìm kiếm có thể sử dụng nó cho tìm kiếm ngữ nghĩa (Semantic Search).

 

Bước tiếp theo là các cơ sở kiến thức (hoặc Knowledge Graph).

 

Cơ Sở Kiến Thức Hoặc Knowledge Graph

 

Điều quan trọng là phải hiểu rằng để phần mềm AI thực hiện các tác vụ NLP phức tạp, chẳng hạn như hiểu các truy vấn của người dùng, chúng cần dữ liệu được cấu trúc theo một cách cụ thể. Đây là nền tảng của cấu trúc Knowledge Graph.

 

Nói cách khác, dữ liệu có cấu trúc dưới dạng bảng hoặc dữ liệu bán cấu trúc như các bài đăng trên blog Wikipedia không cung cấp cho các hệ thống AI những gì chúng cần để xử lý ngôn ngữ của con người.

 

Thay vào đó, thông tin cần được cấu trúc theo cách tương tự như cách mọi người tổ chức thông tin trong tâm trí của họ.

 

Để làm điều này, các Cơ sở Kiến thức phải lấy thông tin từ các Kho Lưu Trữ Kiến Thức và tổ chức nó thành các tuyên bố về thế giới. Những tuyên bố này mô tả các thực thể và cách chúng liên quan đến nhau. Tôi sẽ mô tả điều này chi tiết hơn sau.

 

Để làm điều này, các công cụ tìm kiếm cần một mô hình dữ liệu gọi là Khung Mô tả Tài nguyên (Resource Description Framework – RDF). RDF cung cấp một bộ câu lệnh tiêu chuẩn mô tả các thực thể hoặc tài nguyên.

 

Định Dạng Mô Tả Tài Nguyên (Resource Description Framework – RDF)

 

RDF (Resource Description Framework) là một ngôn ngữ được thiết kế để mô tả các thực thể và mối quan hệ của chúng. Nó được tạo thành từ các tài nguyên.

 

Một tài nguyên có thể đề cập đến:

 

  • Một thực thể hoặc đối tượng
  • Một loại hoặc lớp thực thể
  • Mối quan hệ thực thể

 

Các tài nguyên này được sắp xếp thành các câu lệnh RDF gọi là triple ngữ nghĩa (Semantic Triple).

 

Triple ngữ nghĩa (Semantic Triple) là một tập hợp ba thực thể được sắp xếp thành một câu lệnh dưới dạng chủ ngữ-vị ngữ-tân ngữ. (Được biểu diễn dưới dạng đồ thị, một câu lệnh RDF được biểu diễn bằng một nút cho chủ ngữ, một cạnh đi từ chủ ngữ đến tân ngữ và một nút cho tân ngữ.)

 

Chủ ngữ và vị ngữ được biểu diễn bằng định danh số của riêng chúng gọi là URI. Tân ngữ của câu lệnh có thể được biểu diễn bằng URI hoặc có thể là một giá trị cố định.

 

Đối với những bạn học bằng hình ảnh, đây là một minh họa:

 

Minh họa cấu trúc chủ ngữ-vị ngữ-tân ngữ trong Semantic Triple
Minh họa cấu trúc chủ ngữ-vị ngữ-tân ngữ trong Semantic Triple

 

Chủ ngữ của một triple là một thực thể. Vị ngữ có thể là một loại thực thể hoặc mối quan hệ. Ví dụ, quốc tịch, ngày sinh, tên, v.v. Tân ngữ là một thực thể khác hoặc một giá trị như một chuỗi đại diện cho một tên, hoặc một số đại diện cho một ngày.

 

Vì vậy, ví dụ, hãy xem câu đầu tiên trong bài viết Wikipedia về Mike Tyson:

 

Michael Gerard Tyson (sinh ngày 30 tháng 6 năm 1966) là một cựu võ sĩ quyền anh chuyên nghiệp người Mỹ đã thi đấu từ năm 1985 đến 2005.

 

Hãy phân tích nó một cách trực quan.

 

Minh họa Semantic Triple cho ngày sinh của Mike Tyson
Minh họa Semantic Triple cho ngày sinh của Mike Tyson

 

Trong hình minh họa ở trên, tôi đã biểu diễn cụm từ đầu tiên dưới dạng một triple.

 

Chủ ngữ là thực thể ‘Mike Tyson’, vị ngữ là ‘ngày sinh’ và ‘1966-06-30’ là tân ngữ. Tôi đã đặt một hình chữ nhật xung quanh Mike Tyson để biểu thị rằng Mike Tyson là một thực thể. 1966-06-30 mặt khác không phải là một thực thể mà là một giá trị nên tôi đã đưa nó vào dấu ngoặc kép.

 

Đây là một biểu diễn trực quan của toàn bộ câu:

 

Minh họa chi tiết Semantic Triple cho thông tin Mike Tyson
Minh họa chi tiết Semantic Triple cho thông tin Mike Tyson

 

Tiếp theo, bất kỳ thực thể nào tồn tại trong ví dụ trên đều có thể được coi là chủ ngữ trong một tập hợp các triple khác, tạo thành một mạng lưới phức tạp gồm các thực thể và mối quan hệ. Đây là cốt lõi của cấu trúc Knowledge Graph.

 

Lời Kết Về Knowledge Graph

 

Bây giờ bạn nên có hiểu biết cơ bản về Knowledge Graph của Google là gì. Hơn nữa, bạn nên có hiểu biết thông thường về thông tin được lưu trữ trong Knowledge Graph và bạn cũng nên hiểu nguồn gốc của nó.

 

Mặc dù không có chiến lược hành động nào trong bài đăng này, tôi cảm thấy kiến thức này là nền tảng cơ bản trong việc hiểu SEO ngữ nghĩa (Semantic SEO) sẽ giúp bạn tiến xa hơn trên con đường đến sự nổi tiếng SEO.

 

Và sự hiểu biết dẫn đến những thông tin chi tiết có thể hành động được.

 

Bạn đã sẵn sàng nâng cấp chiến lược SEO của mình với SEO ngữ nghĩa (Semantic SEO) chưa? Bắt đầu bằng cách hiểu rõ hơn về Knowledge Graph của Google và cách nó định hình kết quả tìm kiếm. Theo dõi blog của chúng tôi để có thêm thông tin chi tiết và hướng dẫn chuyên sâu!

LIÊN HỆ TƯ VẤN NGAY

Nhận tài liệu miễn phí