Nội dung trùng lặp: 7 cách để thoát khỏi nó

Thông thường trong cộng đồng thảo luận SEO bạn gặp câu hỏi từ quản trị web yêu cầu: "Nếu tôi làm XYZ, nó sẽ gây ra một hình phạt nội dung trùng lặp? Quan niệm sai lầm phổ biến, kể từ khi Google phát hành bản cập nhật Panda của nó, đó là một hình phạt nội dung trùng lặp tồn tại và bạn có nguy cơ có trang web của bạn khỏi chỉ mục của Google nếu bạn có cùng một nội dung trên các trang khác nhau của trang web của bạn. Tại một số điểm trong quá trình tạo nội dung trang web của bạn có thể có suy nghĩ về nội dung trùng lặp, bằng cách sử dụng hình ảnh cùng nhiều lần trên các trang web hay, nếu nó là một trang web thương mại điện tử, lo lắng về các trang thể loại xuất hiện trong hơn một URL với cùng một sản phẩm và mô tả, hoặc về bài viết của bạn được cung cấp thông tin từ cho từ trên các trang web khác. Vì vậy, bao nhiêu và làm những gì bạn thực sự cần phải lo lắng về về nội dung trùng lặp? Hãy bắt đầu với những điều cơ bản.

Nội dung trùng lặp là gì?

Bất kỳ nội dung giống hệt với nội dung khác mà tồn tại hoặc trên cùng một trang web hoặc một trong một khác nhau.

Ví dụ:

Blog của bạn nội dung cung cấp thông tin (sao chép) vào một trang web khác.
Nếu trang chủ của bạn có nhiều URL cung cấp nội dung giống nhau, ví dụ: http://yoursite.com , http://www.yoursite.com và http://www.yoursite.com/index.htm .
Trang đã được nhân đôi do id kỳ họp và các thông số URL, chẳng hạn như http://yoursite.com/product và http://yoursite.com/product?sessionid=5486481 .
Các trang đã lựa chọn trên cơ sở thời gian phân loại, ngày, màu sắc hoặc các tiêu chí phân loại có thể sản xuất các trang trùng lặp, chẳng hạn như http://yoursite.com/category và http://yoursite.com/category?=sort=medium .
Trang với mã theo dõi và mã liên kết, chẳng hạn như http://yoursite.com/product và http://yoursite.com/product?ref=name.
Trang để in được tạo ra bởi CMS của bạn có hoàn toàn tương tự như trang web của bạn.
Các trang là http trước khi đăng nhập và https sau.

Những gì là không trùng lặp nội dung?

Ví dụ:

- Trích dẫn từ các trang web khác khi được sử dụng ở mức độ vừa trên trang của bạn trong dấu ngoặc kép. Họ tốt phải được liên kết với một liên kết nguồn.

- Hình ảnh từ các trang web khác hoặc hình ảnh lặp đi lặp lại trên trang web của bạn (s). (Điều này không được coi là nội dung trùng lặp như công cụ tìm kiếm không thể thu thập thông tin hình ảnh).

- Infographics chia sẻ thông qua mã nhúng.

Không có những điều như một hình phạt nội dung trùng lặp. Bạn có bằng chứng phải ra khỏi miệng của ngựa từ Google ở đây và đây . Nhưng điều đó không có nghĩa là tham gia các vấn đề trùng lặp nội dung nhẹ nhàng. Hậu quả của việc có nội dung trùng lặp trên các trang web của bạn là một sự mất mát của giao thông, đơn giản chỉ vì bạn đang "bỏ qua từ kết quả tìm kiếm". Đó là đúng, bạn không de-lập chỉ mục hoặc bị phạt, nhưng nội dung trùng lặp chỉ đơn giản là không được hiển thị cho người sử dụng trong kết quả tìm kiếm. Trên Google, bạn có thể tìm thấy một tin nhắn tương tự như hình dưới đây:

Nếu người dùng nhấp vào liên kết để lặp lại việc tìm kiếm, họ sẽ đi qua những người mất tích, các trang trùng lặp nội dung. Cơ hội của một người sử dụng thực sự nhấp vào liên kết này, tuy nhiên, về cơ bản là con số không, như các tin nhắn được hiển thị trên các trang tìm kiếm cuối cùng - có, trang 8042 hay tuy nhiên nhiều trang tìm kiếm có thể trở lại. Thêm vào đó, nếu bạn có một phiên bản nội dung tại sao bạn lại cần một lặp lại? Đây là một trong những cách Google lọc các kinh nghiệm người dùng công cụ tìm kiếm của mình, và đúng như vậy. Vì vậy, làm thế nào là trang web của bạn bị ảnh hưởng bởi điều này? Có rất nhiều cách trang web của bạn có thể bị ảnh hưởng bởi cách Google xử lý các nội dung trùng lặp:

- Mất nội dung gốc của bạn để bỏ qua kết quả : Nếu blog ban đầu của bạn đã được cung cấp thông tin trên nhiều trang web của bên thứ ba mà không có một liên kết đến nội dung của bạn, có một cơ hội tốt mà nội dung ban đầu của bạn sẽ bị bỏ qua và thay thế bằng nội dung của họ. Điều này đặc biệt đúng nếu các trang web của bên thứ ba có một PageRank cao hơn, ảnh hưởng cao hơn và / hoặc backlinks chất lượng cao hơn so với trang web của bạn.

- Chất thải của chỉ mục Thời gian Bots: Trong khi lập chỉ mục trang web của bạn, chương trình công cụ tìm kiếm điều trị mỗi liên kết như là duy nhất và chỉ mục nội dung trên mỗi người trong số họ. Nếu bạn có liên kết trùng lặp do id phiên hoặc bất kỳ lý do nêu trên, các chương trình lãng phí thời gian lập chỉ mục nội dung lặp lại của họ chứ không phải là lập chỉ mục nội dung độc đáo khác trên trang web của bạn.

- Liên kết nhiều trùng lặp nghĩa là pha loãng nước trái cây liên kết : Nếu bạn xây dựng các liên kết trỏ đến một trang có nhiều URL, các nước liên kết đi qua được phân phối trong số đó. Nếu tất cả các trang được hợp nhất thành một, các nước liên kết cũng sẽ được hợp nhất có thể làm tăng thứ hạng tìm kiếm của trang web.

- Mất giao thông : Rõ ràng là nếu nội dung của bạn không phải là phiên bản Google chọn để hiển thị trong kết quả tìm kiếm, bạn sẽ mất lưu lượng truy cập có giá trị cho trang web của bạn.

Làm thế nào bạn có thể Phát hiện trùng lặp nội dung trên trang web của bạn?

Phương pháp đơn giản và hợp lý nhất là để sao chép và dán một đoạn nội dung của bạn vào ô tìm kiếm của Google và xem nếu bất kỳ trang nào khác xuất hiện với nội dung gần giống nhau. Có nhiều cách khác nữa, và họ là như sau:

1. Google Webmaster Tools :

Nội dung trùng lặp không giới hạn nội dung trình bày trên một trang web nhưng cũng có thể là nội dung nhìn thấy trong đoạn tìm kiếm, chẳng hạn như tiêu đề meta và mô tả meta. Việc sao chép các nội dung này có thể được phát hiện dễ dàng thông qua Google Webmaster Tools dưới Tối ưu hóa> HTML cải tiến, như thể hiện trong hình trên.

2. Công cụ bên ngoài :

Copyscape.com là một công cụ tuyệt vời để kiểm tra xem có trùng lặp nội dung trên trang web của bạn. Nó là một công cụ miễn phí có sẵn cho cả Mac và PC.

3. "trang web:" điều hành Tìm kiếm :

Vào trang web của bạn trên tìm kiếm bằng cách sử dụng trang web: nhà điều hành tìm kiếm cùng với một phần nội dung từ các trang web như sau:

trang web: www.yoursite.com [một phần của nội dung sao chép từ trang web của bạn ở đây]

Nếu bạn thấy một thông báo từ Google nói về kết quả bỏ qua (như trong ảnh chụp màn hình đầu tiên trên blog này), nó là một dấu hiệu cho thấy trang web của bạn có hiện trùng lặp nội dung trên các trang web hoặc bên ngoài của nó.

Vì vậy, câu hỏi cuối cùng là ...

Làm thế nào bạn có thể thoát khỏi trùng lặp nội dung? Dưới đây là 7 cách:

Loại bỏ trùng lặp nội dung từ trang web của bạn là có thể, và nó là giá trị thời gian và công sức để làm cho trang web của bạn như công cụ tìm kiếm thân thiện nhất có thể. Loại bỏ trùng lặp nội dung từ các trang web khác mà cấp thông nội dung ban đầu của bạn cần được chăm sóc trong một cách mà bạn thích, hoặc bằng cách gửi cho họ một email lịch sự, hoặc một đề cập đến trong blog ý kiến của họ cho tín dụng và liên kết đến nội dung ban đầu của bạn.

Sau đây là cách để đối phó với nội dung trùng lặp được tạo ra trên trang web của riêng bạn:

1. Rel = "kinh điển":

Khi bạn có nhiều URL cung cấp cùng một nội dung, chọn URL mà bạn muốn sẽ được hiển thị trong kết quả tìm kiếm. Đây sẽ là của bạn URL kinh điển . Sau đó bạn phải thêm một thẻ rel = "kinh điển" trong phần <head> của bất kỳ trang nào khác với nội dung trùng lặp. Vì vậy, ví dụ, trang ưa thích của bạn là A và trang bản sao của nó là B, các dòng mã trong các thẻ của trang B nên được như sau:

href="Page <link Một URL" rel="canonical"/>

Thêm mã này vào trang bản sao gợi ý cho các chương trình tìm kiếm, hoàn toàn minh bạch, rằng nó là một bản sao của URL kinh điển được đề cập. Bot sau đó biết được trang để hiển thị trong kết quả tìm kiếm và ở đâu để chỉ tất cả các nước liên kết đến.

2. 301 Chuyển hướng:

Bạn có thể sử dụng 301 redirect trên các trang trùng lặp sẽ được tự động tạo ra và không cần thiết cho người dùng xem. Thêm rel = "canonical" thẻ cho các trang trùng lặp giữ cho trang hiển thị cho người dùng, trong khi 301 chuyển hướng chỉ cả hai chương trình công cụ tìm kiếm và người dùng đến các trang ưa thích chỉ. Điều này nên được thực hiện đặc biệt để URL trang chủ từ URL cá nhân để URL không cá nhân hoặc ngược lại, tùy thuộc vào URL được sử dụng nhiều nhất. Tương tự như vậy, nếu bạn có nội dung trùng lặp trên nhiều trang web với tên miền khác nhau, bạn có thể chuyển hướng các trang vào một URL sử dụng một chuyển hướng 301. Chú ý: 301 chuyển hướng là vĩnh viễn, vì vậy hãy cẩn thận khi bạn chọn URL ưa thích của bạn.

3. Khi Robot Tag

Bạn có thể sử dụng thẻ meta robot với nofollow và noindex thuộc tính nếu bạn có để giữ một bản sao trang bị lập chỉ mục của công cụ tìm kiếm. Chỉ cần thêm đoạn mã sau vào trang trùng lặp:

Có một cách khác để loại trừ các trang trùng lặp khỏi chỉ số công cụ tìm kiếm, và đó là để không cho phép liên kết với các ký tự đặc biệt trong tập tin robots.txt. Lưu ý: Google đã tư vấn không vào các trang web không cho phép trên cơ sở nội dung trùng lặp sử dụng robots.txt, bởi vì nếu URL là hoàn toàn bị chặn có một cơ hội mà chương trình công cụ tìm kiếm có thể tìm thấy các URL bên ngoài của trang web thông qua các liên kết và có thể điều trị các như trang độc đáo. Điều này có nghĩa rằng công cụ tìm kiếm có thể sẽ lựa chọn này như các trang ưa thích trong số tất cả các bản sao, mặc dù đó không phải là ý định của bạn.

4. Google Webmaster Tools:

Bạn có thể thiết lập các URL ưa thích trong tài khoản Google Webmaster Tools của bạn theo tùy chọn cấu hình> Liên kết trang web> Tên miền ưa thích. Đi thêm một bước xa hơn, bạn có thể thiết lập các thông số URL để thả các trang trùng lặp từ chỉ mục của Google-bot. Tùy chọn này cũng được phát hành theo cấu hình trong các tiểu mục thông số URL, tuy nhiên, sử dụng tùy chọn này có thể gây ra de-lập chỉ mục các trang web quan trọng nếu không được cấu hình đúng cách, do đó nó không được khuyến cáo nếu bạn không hoàn toàn chắc chắn làm thế nào để làm điều đó.

5. Băm Tag Theo dõi:

Thay vì sử dụng các thông số theo dõi trong URL (mà tạo ra các trang trùng lặp với cùng một nội dung), hãy thử sử dụng các phương pháp theo dõi tag băm. Theo dõi các thông số được sử dụng để theo dõi thăm từ các trang web cụ thể để trang web của bạn, ví dụ, từ trang web của một nhà tiếp thị của chi nhánh. Các thông số này thường hiện sau khi một dấu chấm hỏi (?) Trong URL. Với phương pháp thẻ băm, chúng tôi loại bỏ các dấu chấm hỏi và sử dụng một thẻ thăng (#). Tại sao? Vâng, Google chương trình có xu hướng bỏ qua bất cứ điều gì hiện nay sau khi một tag băm. Vì vậy, ví dụ, bạn có thể có bản sao các URL như http://yoursite.com/product/ và http://yoursite.com/product/ # utm_source = xyz . Khi bạn sử dụng các tag băm, Google thấy cả các liên kết như http://yoursite.com/product/ . Để làm điều này, sử dụng _setAllowAnchor phương pháp, như minh họa ở đây .

6. Nội dung trên Quốc gia Cụ Top-Level-Tên miền:

Khi bạn có các doanh nghiệp trên khắp thế giới đó là tự nhiên có nhiều tên miền cho mỗi vị trí và có khả năng không thể tạo ra nội dung duy nhất cho mỗi trang web khi sản phẩm / dịch vụ là như nhau. Làm thế nào để bạn xử lý trùng lặp nội dung trong lĩnh vực quốc gia cụ thể của bạn? Để bắt đầu, đi đến Google Webmaster Tools> Configuration> Cài đặt trong mỗi tên miền quốc gia cụ thể và chọn quốc gia của các đối tượng mục tiêu cho mỗi trang web, như hình dưới đây:

- Nếu có thể, sử dụng một máy chủ địa phương cho mỗi tên miền quốc gia cụ thể.

- Nhập địa chỉ địa phương và các số điện thoại trên mỗi điểm quốc gia cụ thể.

- Sử dụng các thẻ meta địa lý. Các thẻ có thể không được sử dụng bởi Google, như bạn đã thiết lập người dùng mục tiêu lựa chọn trong Google Webmaster Tools, nhưng họ có thể có ích để cho công cụ tìm kiếm thứ cấp, chẳng hạn như Bing, biết rằng trang web của bạn nhắm vào một quốc gia cụ thể.

- Sử dụng rel = "thay thế" hreflang = "x" để cho Google chương trình biết thêm về các trang nước ngoài của bạn với cùng một nội dung và hiển thị trang mà nên được trả lại mà khán giả trong kết quả tìm kiếm.

Một số SEO có thể đề nghị sử dụng rel = "canonical" để đối phó với các bản sao cross-domain, nhưng nó không phải là chưa rõ ràng nếu sử dụng điều này để chuyển hướng trang đa lĩnh vực là giải pháp đúng, vì nó là cần thiết cho các trang web địa lý nhắm mục tiêu đến hiện trong kết quả tìm kiếm cho các tìm kiếm tương ứng quốc gia cụ thể của họ. Bây giờ chúng tôi đề nghị làm rõ nội dung của bạn là nhắm mục tiêu địa lý để các công cụ tìm kiếm biết được nội dung để hiển thị mà khán giả, tránh sự nhầm lẫn.

7. Nội dung đánh số trang:

Khi bạn có nội dung gắn kết với các thành phần lây lan giữa nhiều trang và bạn muốn đưa người dùng đến các trang cụ thể thông qua kết quả tìm kiếm, sử dụng rel = "tiếp theo" và rel = "trước" để cho công cụ tìm kiếm biết rằng các trang này là một phần của một chuỗi. Tìm hiểu thêm về việc thực hiện các thuộc tính rel trên Webmaster Central blog của Google trên Phân trang với rel = "tiếp theo" và rel = "trước" . Còn có một loại phân trang khi nói đến blog của ý kiến. Vô hiệu hoá ý kiến phân trang trong CMS của bạn, nếu không (trên hầu hết các trang web) URL khác nhau của cùng một nội dung sẽ được tạo ra.

Lưu ý: Một khi bạn đã sử dụng các chiến lược để thoát khỏi trùng lặp nội dung, hãy nhớ để cập nhật Sơ đồ XML của bạn bằng cách loại bỏ URL bị trùng lặp và chỉ để lại các URL kinh điển, sau đó gửi lại Sơ đồ trang web cho Google Webmaster Tools. Đọc blog của chúng tôi trên tất cả về XML Sơ đồ trang web để biết thêm thông tin.

Ngoài ra còn có một vài điều bạn có thể làm để chống lại trùng lặp nội dung trên trang web của bạn thường xuyên. Ví dụ, cải thiện liên kết nội bộ của bạn, và liên kết với các lĩnh vực ưu tiên. Như liên kết nhiều hơn được tìm thấy chỉ vào URL ưa thích nó trở nên dễ dàng hơn cho công cụ tìm kiếm để đánh giá đó là trang ưa thích. Ngoài ra, trên các trang web thương mại điện tử, khi bạn có những sản phẩm được phân loại dựa trên màu sắc, kích thước hay bất cứ điều gì khác, mỗi khi người dùng nhấp chuột vào kích thước hay màu sắc URL thay đổi do một tham số phân loại, và điều này tạo ra nội dung trùng lặp. Trong trường hợp này, cung cấp các tùy chọn để lựa chọn tiêu chí lựa chọn trên cùng một trang, ví dụ rằng URL không thay đổi.

Các tin khác