ملفات PDF في نتائج البحث من Google

الخميس 1 أيلول (سبتمبر) 2011

تتمثل مهمتنا في تنظيم المعلومات في جميع أنحاء العالم وإتاحة الوصول إليها والاستفادة منها. خلال أداء هذه المهمّة الصعبة، نصادف أحيانًا ملفات بتنسيق غير HTML، مثل ملفات PDF وجداول البيانات والعروض التقديمية. لا تسمح خوارزمياتنا لأنواع الملفات المختلفة بإبطائها، فنحن نعمل جاهدين على استخراج المحتوى ذي الصلة وفهرسته على نحو يتناسب مع نتائج البحث التي نقدّمها. ويبقى السؤال: كيف يمكننا فهرسة أنواع الملفات هذه، وبما أنّها تختلف كثيرًا عن ملفات HTML العادية، ما هي الإرشادات التي تنطبق على هذه الملفات؟ ماذا لو كان مشرف الموقع لا يريد أن نفهرس هذه الملفات؟

بدأت Google في فهرسة ملفات PDF لأول مرة عام 2001، وتمت فهرسة مئات الملايين من ملفات PDF لغاية وقتنا الحالي. لقد جمعنا الأسئلة الأكثر شيوعًا بشأن فهرسة ملفات PDF، وإليك الإجابات:

س: هل بإمكان Google فهرسة أي نوع من ملفات PDF؟
ج: يمكننا بشكل عام فهرسة المحتوى النصي (المكتوب بأي لغة) من ملفات PDF التي تستخدم أنواعًا مختلفة من ترميز الأحرف، شرط ألّا تكون مشفّرة أو محمية بكلمة مرور. إذا كان النص مضمّنًا كصور، يمكن أن نعالج الصور باستخدام خوارزميات التعرُّف البصري على الأحرف لاستخراج النص. القاعدة العامة هي أنه إذا كان بالإمكان نسخ النص من مستند PDF ولصقه في مستند نصي عادي، من المفترض أن يكون بإمكاننا فهرسة هذا النص.

س: ما الذي يحدث للصور المضمّنة في ملفات PDF؟
ج: لا تتم فهرسة الصور في الوقت الحالي. لنتمكن من فهرسة صورك، عليك إنشاء صفحات HTML لها. لزيادة احتمالية عرض صورك في نتائج البحث، يُرجى الاطّلاع على أفضل ممارسات "صور بحث Google".

س: كيف يتم التعامل مع الروابط المضمّنة في مستندات PDF؟
ج: يتم التعامل مع الروابط المضمّنة في ملفات PDF عمومًا بالطريقة نفسها التي يتم بها التعامل مع الروابط المضمّنة في ملفات HTML، لأنّها يمكن أن تتجاوز نظام ترتيب الصفحات وإشارات الفهرسة الأخرى، وقد نتّبعها بعد أن نزحف إلى ملف PDF. لا يمكن في الوقت الحالي استخدام روابط nofollow داخل مستند PDF.

س: كيف يمكنني منع ظهور ملفات PDF في نتائج البحث؟ أو كيف يمكنني إزالتها إذا كانت تظهر؟
ج: إنّ أبسط طريقة لمنع مستندات PDF من الظهور في نتائج البحث هي إضافة علامة X-Robots-Tag: noindex في عنوان HTTP المستخدَم لعرض الملف. وإذا سبق أن تمت فهرستها، سيتوقف عرضها بمرور الوقت إذا كنت تستخدم علامة X-Robot-Tag في قاعدة noindex. لإجراء عمليات الإزالة بشكل أسرع، يمكنك استخدام أداة إزالة عناوين URL في "أدوات مشرفي المواقع من Google".

س: هل يمكن أن تحتل ملفات PDF ترتيبًا عاليًا في نتائج البحث؟
ج: بالتأكيد. وسيتم ترتيبها بشكل عام بطريقة مشابهة لصفحات الويب الأخرى. على سبيل المثال، في وقت نشر هذه المقالة، يعرض كل طلبات البحث mortgage market review وirs form 2011، وparacetamol expert report مستندات PDF تحتل ترتيبًا عاليًا في نتائج البحث، لأنها تتضمّن محتوى جيدًا وتم تضمينها وربطها بصفحات الويب الأخرى بطريقة مناسبة.

س: في حال كان لدي إصداران من صفحاتي بكلا التنسيقين HTML وPDF، هل يُعتبر ذلك محتوًى مكرّرًا؟
ج: عندما يكون ذلك ممكنًا، نقترح عرض إصدار واحد من المحتوى. وإذا لم يكن ذلك ممكنًا، تأكّد من الإشارة إلى الإصدار المفضّل لديك من خلال، مثلاً، تضمين عنوان URL المفضّل في خريطة الموقع أو من خلال تحديد الإصدار الأساسي في ترميز HTML أو في عناوين HTTP من ملف PDF. للحصول على مزيد من النصائح، اطّلِع على مقالة "مركز المساعدة" حول تحديد عنوان URL الأساسي.

س: كيف يمكنني التأثير في العنوان الذي يتم عرضه في نتائج البحث لمستند PDF الخاص بي؟
ج: نستخدم عنصرَين أساسيَّين لتحديد العنوان الذي يتم عرضه، وهما: البيانات الوصفية الخاصة بالعنوان ضمن الملف، ونص الرابط للروابط التي تشير إلى ملف PDF. لمنح خوارزمياتنا إشارة قوية بشأن استخدام العنوان الصحيح، نقترح تعديل العنصرَين.

للاطّلاع على المزيد من المعلومات، يمكنك مشاهدة الفيديو الذي أعدّه "مات كات" حول تحسين ملفات PDF للتوافق مع البحث، والانتقال إلى مركز المساعدة للحصول على معلومات بشأن أنواع المحتوى الذي يمكننا فهرسته. إذا كانت لديك أي ملاحظات أو اقتراحات، يُرجى إعلامنا بها من خلال منتدى مساعدة مشرف الموقع.