محتوای تکراری یا duplicate content چیست؟ : علل و راه حل ها


محتوای تکراری چیست؟

آیا تا به حال به مشکل محتوای تکراری یا duplicate content در وب سایت خود مواجه شده اید؟ آیا می دانید دلیل به وج.د امدن این نوع محتوا چیست؟ برای آن که راه حال های رفع این مشکل را بدانید در ادامه این مقاله همراه ما باشید.

محتوای تکراری چیست؟

محتوای تکراری (duplicate content) محتوایی است که در چندین URL در وب موجود است. از آن جا که بیش از یک URL محتوای یکسانی را نشان می دهد، موتور های جستجو نمی دانند کدام URL را در نتایج جستجو لیست کنند. بنابراین ممکن است هر دو URL را پایین تر قرار داده و سایر صفحات وب را ترجیح دهند.

بیایید این موضوع را با یک مثال توضیح دهیم

محتوای تکراری را می توان در یک دو راهی که علائم جاده در دو جهت مختلف برای یک مقصد قرار دارند تشبیه کرد: کدام جاده را انتخاب کنید؟ برای بدتر کردن وضعیت، مقصد نهایی نیز کمی متفاوت است. به عنوان یک خواننده، میخواهید محتوایی که برای مشاهده آن آمده اید، مشکلی نداشته باشد، اما یک موتور جستجو باید کدام صفحه را انتخاب کند تا در نتایج جستجو به شما نشان داده شود، البته، موتور جست و جو نمی خواهد همان مطالب را دو بار نشان دهد.

بیایید بگوییم مقاله شما در مورد  ‘کلمه کلیدی x’  هم در http://www.example.com/keyword-x/ و هم در http://www.example.com/article-category/keyword-x/ ظاهر می شود. این وضعیت در بسیاری از سیستم های مدرن مدیریت محتوا اتفاق می افتد. سپس بیایید بگوییم مقاله شما توسط چندین وبلاگ نویس انتخاب شده است و برخی از آنها به URL اول پیوند دارند، در حالی که برخی دیگر به آدرس دوم پیوند دارند. این زمانی است که مشکل موتور جستجو ماهیت واقعی خود را نشان می دهد: این مشکل شماست . محتوای تکراری مشکل شماست زیرا این پیوندها هر دو URL های مختلفی را تبلیغ می کنند. اگر همه آن ها به یک URL متصل باشند، شانس شما برای رتبه بندی برای  “کلمه کلیدی x” بیشتر  خواهد بود.

محتوای تکراری

دلایل محتوای تکراری

ده ها دلیل برای محتوای تکراری وجود دارد. اکثر آن ها فنی هستند: خیلی اوقات اتفاق نمی افتد که یک انسان تصمیم بگیرد محتوای مشابه را در دو مکان مختلف قرار دهد بدون اینکه مشخص کند کدام یک از مطالب اصلی است. البته مگر اینکه پستی را شبیه سازی کرده و آن را به طور تصادفی منتشر کرده باشید. اما در غیر این صورت، از نظر بیشتر ما غیر طبیعی است.

دلایل فنی زیادی وجود دارد و بیشتر به این دلیل اتفاق می افتد که توسعه دهندگان وردپرس مانند مرورگر یا حتی کاربر به این مورد فکر نمی کنند، چه برسد به ربات های موتور های جستجو – آن ها مانند یک برنامه نویس فکر می کنند.

سو تفاهم در مورد مفهوم URL

CMS احتمالاً وب سایت های زیادی را تأمین می کند و در آن پایگاه داده فقط یک مقاله وجود دارد، اما نرم افزار وب سایت فقط اجازه می دهد همان مقاله در پایگاه داده از طریق چندین URL بازیابی شود. دلیلش این است که، از نظر توسعه دهنده، شناسه منحصر به فرد آن مقاله، شناسه ای است که مقاله در پایگاه داده دارد و نه URL. اما برای موتور جستجو، URL شناسه منحصر به فرد برای یک محتوا است. اگر این را برای یک توسعه دهنده توضیح دهید، آن ها شروع به پیدا کردن مشکل می کنند. و بعد از خواندن این مقاله، بلافاصله می توانید راه حلی برای آن ها ارائه دهید.

Session ID ها

شما اغلب می خواهید از بازدیدکنندگان خود مطلع شوید و به آن ها اجازه دهید، برای مثال، کالاهایی را که می خواهند خریداری کنند، در سبد خرید ذخیره کنند. برای انجام این کار، باید به ان ها “session” بدهید. session مختصراً تاریخچه کار بازدیدکننده در سایت شما است و می تواند حاوی مواردی مانند موارد موجود در سبد خرید آنها باشد. برای حفظ آن session به عنوان بازدید کننده از یک صفحه به صفحه دیگر کلیک می کند، شناسه منحصر به فرد آن session – که Session ID یا شناسه نشست نامیده می شود – باید در جایی ذخیره شود. رایج ترین راه حل انجام این کار با کوکی ها است. با این حال، موتور های جستجو معمولاً کوکی ها را ذخیره نمی کنند.

در آن مرحله، برخی از سیستم ها به استفاده از شناسه های جلسه در URL بازمی گردند. این بدان معنی است که هر پیوند داخلی در وب سایت، شناسه نشست را به URL خود اضافه می کند، و از آن جا که session ID خاص آن جلسه است، یک URL جدید ایجاد می کند، بنابراین محتوای تکراری ایجاد می کند.

پارامترهای URL برای ردیابی و مرتب سازی استفاده می شود

دلیل دیگر محتوای تکراری استفاده از پارامترهای URL است که محتوای صفحه را تغییر نمی دهد، به عنوان مثال در پیگیری پیوند ها می بینید، در یک موتور جستجو، http://www.example.com/keyword-x/ و http://www.example.com/keyword-x/?source=rss  یک URL نیستند. مورد دوم ممکن است به شما امکان ردیابی منبع بازدیدکنندگان را دهد، اما ممکن است رتبه بندی را هم برای شما دشوار کند.

البته این فقط به خاطر ذخیره پارامترهای ردیابی نیست. این می تواند شامل هر پارامتری باشد که می توانید به یک URL اضافه کنید که محتوای حیاتی را تغییر ندهد، چه این پارامتر برای “تغییر مرتب سازی در مجموعه ای از محصولات” باشد یا “نمایش یک نوار کناری دیگر”: همه آنها باعث تکرار شدن محتوا می شوند.

استفاده سایت های دیگر از محتوای شما

بیشتر دلایل محتوای تکراری “تقصیر” شما یا وب سایت شماست. با این حال، گاهی اوقات، وب سایت های دیگر بدون رضایت شما از محتوای شما استفاده می کنند. آن ها همیشه به مقاله اصلی شما پیوند نمی دهند و بنابراین موتور جستجو آن را “ایندکس نمی کند” و مجبور است با نسخه دیگری از همان مقاله سر و کار داشته باشد. هرچه سایت شما محبوبیت بیشتری پیدا کند، دنبال کننده های بیشتری کسب خواهید کرد و این مسئله را بیشتر و بیشتر می کند.

ترتیب پارامتر ها

دلیل متداول دیگر این است که CMS از URL های تمیز خوب استفاده نمی کند، بلکه از URL هایی مانند این موارد استفاده می کند /?id=1&cat=2، جایی که ID به مقاله و cat به دسته اشاره می کند. URL /?cat=2&id=1 در اکثر سیستم های وب سایت نتایج یکسانی را ارائه می دهد، اما برای موتور جستجو کاملاً متفاوت است.

صفحه بندی نظرات

در وردپرس، و همچنین در برخی از سیستم های دیگر، گزینه ای برای صفحه بندی نظرات شما وجود دارد. این منجر به کپی شدن مطالب در سراسر URL مقاله و URL مقاله + / comment-page-1 /، / comment-page-2 / و غیره می شود.

صفحات مناسب چاپ

اگر سیستم مدیریت محتوای شما صفحات مناسب چاپگر ایجاد کند و به صفحه های مقاله خود پیوند دهید، Google معمولاً آنها را پیدا می کند، مگر اینکه آن ها را بطور خاص مسدود کنید.

با WWW در مقابل بدون WWW

این یکی از قدیمی ترین عنوان ها است، اما گاهی اوقات موتور های جستجو هنوز آن را اشتباه می گیرند: WWW در مقابل محتوای تکراری بدون WWW، هنگامی که هر دو نسخه سایت شما قابل دسترسی است.

وضعیت دیگر کمتر متداول است اما مورد دیگری نیز وجود دارد که محتوای تکراری HTTP در مقابل HTTPS است، که در آن محتوای یکسان برای هر دو ارائه می شود.

راه حل مفهومی: یک URL کنونیکال

لینک کنونیکال

همانطور که قبلاً نیز مشاهده کردیم، این واقعیت که چندین URL به یک محتوای یکسان میرسند، یک مشکل است، اما قابل حل است. فردی که در یک نشریه کار می کند به طور معمول می تواند به راحتی به شما بگوید که URL صحیح فقط برای یک مقاله خاصی باید باشد، اما گاهی اوقات وقتی از سه نفر در یک شرکت بپرسید، سه پاسخ متفاوت دریافت خواهید کرد …

این مشکلی است که نیاز به آدرس دهی دارد زیرا در پایان، فقط یک (URL) وجود دارد. موتور های جستجو از آن URL “صحیح” برای بخشی از محتوا با عنوان  Canonical URL یاد می کنند.

 

شناسایی موضوعات تکراری

شاید ندانید که آیا در سایت خود با محتوای تکراری روبرو هستید یا خیر. استفاده از گوگل یکی از ساده ترین راه ها برای ردیابی محتوای تکراری است.

چندین اپراتور جستجو وجود دارد  که در مواردی از این دست بسیار مفید هستند. اگر می خواهید همه URL های سایت خود را که حاوی  مقاله کلیدی X شما هستند پیدا کنید، عبارت جستجوی زیر را در گوگل تایپ می کنید:

site: example.com intitle: “کلید واژه X”

سپس گوگل همه صفحات موجود در آن کلمه کلیدی در example.com را به شما نشان می دهد. برای شناسایی محتوای تکراری در وب می توانید از همین روش استفاده کنید. بیایید بگوییم عنوان کامل مقاله شما  “کلید واژه X – چرا عالی است” بود، برای آنکه آن را جستجو کنید:

intitle:"کلید واژه X - چرا عالی است"

و Google همه سایت هایی را که با این عنوان مطابقت دارند به شما می دهد. گاهی اوقات حتی ارزش جستجوی یک یا دو جمله کامل از مقاله خود را دارد، زیرا ممکن است برخی از دنبال کننده ها عنوان را تغییر دهند. در بعضی موارد، وقتی چنین جستجویی می کنید، ممکن است گوگل در صفحه آخر نتایج چنین اعلانی را نشان دهد:

محتوای تکراری

این نشانه آن است که گوگل قبلاً  نتایج “تکراری” به دست آورده است. این مورد خوب نیست، بنابراین ارزش دارد که روی پیوند کلیک کنید و سایر نتایج را ببینید تا ببینید آیا می توانید برخی از آن ها را برطرف کنید یا خیر

راه حل های عملی برای محتوای تکراری

هنگامی که تصمیم گرفتید کدام URL ،URL کنونیکال و اصلی برای محتوای شما است، باید فرآیند کنونیکال کردن آن را شروع. این بدان معناست که ما باید به موتور های جستجو در مورد نسخه اصلی یک صفحه بگوییم و به آنها اجازه دهیم آن را پیدا کنند. به ترتیب اولویت، چهار روش برای حل مسئله وجود دارد:

  1. عدم ایجاد محتوای تکراری
  2. هدایت محتوای تکراری به URL کنونیکال
  3. افزودن یک عنصر لینک کنونیکال به صفحه تکراری
  4. افزودن پیوند HTML از صفحه کپی به صفحه متعارف

اجتناب از محتوای تکراری

برخی از دلایل بالا برای محتوای تکراری راه حل های بسیار ساده ای دارند:

آیا session ID ها در URL های شما وجود دارد؟

این موارد اغلب فقط می توانند در تنظیمات سیستم شما غیرفعال شوند.

آیا صفحات چاپی (printer friendly) تکراری دارید؟

این موارد کاملاً غیر ضروری است: شما فقط باید از یک برگه سبک چاپ ساده استفاده کنید.

آیا از صفحه بندی نظرات (comment pagination) در وردپرس استفاده می کنید؟

شما فقط باید این ویژگی را (در بخش تنظیمات »بحث ) در 99٪ سایت خود غیرفعال کنید.

آیا پارامترهای شما ترتیب دیگری دارند؟

به برنامه نویس خود بگویید که یک اسکریپت ایجاد کند تا همیشه پارامتر ها را به همان ترتیب دلخواه خودتان قرار دهد (این کار اغلب به عنوان کارخانه URL شناخته می شود).

آیا مشکلات پیگیری لینک وجود دارد؟

در بیشتر موارد، می توانید به جای ردیابی مطالب مبتنی بر پارامتر تکراری، از ردیابی مطالب مبتنی بر برچسب هشتگ استفاده کنید.

آیا مشکلات WWW در مقابل بدون WWW قابل حل است؟

یکی را انتخاب کنید و با ریدایرکت کردن یکی به دیگری، با آن مشکل را حل کنید. همچنین می توانید در سرچ کنسول گوگل ترجیح یک مورد را تنظیم کنید، اما باید هر دو نسخه از نام دامنه شما پیروی کنند.

اگر مشکل شما به این راحتی برطرف نشد، باز هم ممکن است ارزش تلاش را داشته باشد. هدف باید جلوگیری از ظاهر شدن کامل مطالب تکراری باشد، زیرا با بهترین تفاوت بهترین راه حل برای این مشکل است.

ریدایرکت 301 برای محتوای تکراری

در برخی موارد، جلوگیری از ایجاد URL های اشتباه برای محتوا توسط سیستم مورد استفاده شما غیرممکن است، اما گاهی اوقات امکان هدایت مجدد یا ریدایرکت آن ها وجود دارد. اگر این برای شما منطقی نیست، هنگام صحبت با توسعه دهندگان آن را در خاطر داشته باشید. اگر شما  می خواهید از برخی از مسائل محتوای تکراری خلاص شوید، مطمئن شوید که تغییر مسیر همه آدرس های مطالب تکراری قدیمی را به نشانی های اینترنتی مناسب و کنونیکال انجام داده اید.

استفاده از لینک ها

گاهی اوقات شما نمی خواهید یا نمی توانید از نسخه تکراری مقاله خلاص شوید، حتی اگر بدانید که این URL اشتباه است. برای حل این مسئله خاص، موتور های جستجو عنصر تگ کنونیکال را معرفی کرده اند. این تگ در بخش

سایت شما قرار گرفته است و به صورت زیر است:

در hrefبخش پیوند کنونیکال، URL کنونیکال و صحیحی را برای مقاله خود قرار می دهید. هنگامی که یک موتور جستجو که از متد canonical پشتیبانی می کند، این عنصر پیوند را پیدا کند، یک ریدایرکت 301 را انجام می دهد و بیشتر مقدار پیوند جمع شده توسط آن صفحه را به صفحه متعارف شما منتقل می کند.

این روند کمی کندتر از ریدایرکت 301 است، بنابراین اگر شما می توانید مستقیما ریدایرکت 301 را انجام دهید همان کار را انجام دهید.

url کنونیکال

پیوند دادن به محتوای اصلی

اگر نمی توانید هر کدام از موارد بالا را انجام دهید، احتمالاً به این دلیل که بخش

سایتی را که محتوای شما در آن نمایش داده می شود کنترل نمی کنید، افزودن پیوند به مقاله اصلی در بالا یا پایین مقاله همیشه خوب است. ممکن است بخواهید این کار را در RSS خود با اضافه کردن لینکی به مقاله موجود در آن انجام دهید. برخی از دنبال کننده ها این لینک را فیلتر می کنند، اما برخی دیگر ممکن است آن را رها کنند. اگر گوگل با چندین لینک روبرو شود که به مقاله اصلی شما اشاره می کنند، می تواند تشخیص دهد که کدام نسخه اصلی است.

نتیجه گیری

محتوای تکراری قابل اصلاح است و باید اصلاح شود

امیدواریم شما با خواندن این مقاله اهمیت تکراری نبودن مقالات را درک کرده باشید و در صورت مواجهه با مقالات تکراری بتوانید آن ها را برطرف کنید.

ژاکت را دنبال کنید

ژاکت در اینستاگرام

ژاکت در فیسبوک

ژاکت در لینکدین

ژاکت در توییتر

فارس وب
ارسال دیدگاه

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *