مصائد التحليل

"جميع النماذج خاطئة، ولكن بعضها مفيد". — جورج بوكس، 1978

على الرغم من فعالية الأساليب الإحصائية، إلا أنّ لها حدودًا. يمكن أن يساعد فهم هذه القيود الباحث في تجنُّب الأخطاء والادّعاءات غير الدقيقة، مثل تأكيد BF Skinner بأنّ شكسبير لم يستخدم التكرار الصوتي أكثر مما يتوقعه الترتيب العشوائي. (كانت دراسة سكينر غير كافية.1)

أشرطة عدم اليقين والأخطاء

من المهم تحديد عدم اليقين في التحليل. من المهم أيضًا تحديد مدى عدم اليقين في تحليلات الآخرين. نقاط البيانات التي تظهر لرسم مؤشر على رسم بياني، ولكنّها تتضمّن أشرطة خطأ متداخلة، قد لا تشير إلى أي نمط على الإطلاق. وقد يكون عدم التأكّد مرتفعًا جدًا أيضًا لاستخلاص فائدة من الاستنتاجات من دراسة معيّنة أو اختبار إحصائي معيّن. إذا كانت الدراسة البحثية تتطلّب دقة على مستوى قطعة الأرض، فإنّ مجموعة البيانات المكانية الجغرافية التي تتضمّن درجة عدم يقين تبلغ ‎500 متر +/- تتسم بعدم اليقين بشكل كبير لدرجة أنّه لا يمكن استخدامها.

بدلاً من ذلك، قد تكون مستويات عدم اليقين مفيدة أثناء عمليات اتخاذ القرار. إذا كانت البيانات تدعم معالجة مياه معيّنة مع عدم يقين بنسبة% 20 في النتائج، قد يؤدي ذلك إلى اقتراح تنفيذ عملية معالجة المياه هذه مع مواصلة مراقبة البرنامج لحلّ هذا عدم اليقين.

يمكن أن تقيس الشبكات العصبية البايزيانية مستوى عدم اليقين من خلال توقّع توزيعات القيم بدلاً من القيم الفردية.

عدم الصلة بالموضوع

كما ناقشنا في المقدمة، هناك دائمًا فجوة صغيرة على الأقل بين البيانات والواقع. على خبراء الذكاء الاصطناعي الحذرين تحديد ما إذا كانت مجموعة بياناتهم ذات صلة بالسؤال الذي يطرحونه.

يصف "هوف" دراسة سابقة عن الرأي العام تبيّن فيها أنّ إجابات الأمريكيين البيض عن سؤال مدى سهولة كسب الأمريكيين السود لحياة جيدة كانت مرتبطة مباشرةً وعكسيًا بمستوى تعاطفهم مع الأمريكيين السود. مع تصاعد المشاعر العنصرية، زاد تفاؤل المشاركين بشأن الفرص الاقتصادية المتوقّعة. وقد يكون هذا الإجراء قد تم فهمه بشكل خاطئ على أنّه علامة على حدوث تقدّم. ومع ذلك، لم تتمكّن الدراسة من توضيح أي معلومات عن الفرص الاقتصادية الفعلية المتاحة للأمريكيين السود في ذلك الوقت، ولم تكن مناسبة لاستخلاص استنتاجات عن واقع سوق العمل، بل كانت تستند فقط إلى آراء المشاركين في الاستطلاع. البيانات التي تم جمعها لم تكن ذات صلة بحالة سوق العمل.2

يمكنك تدريب نموذج على بيانات الاستطلاعات مثل تلك الموضّحة أعلاه، حيث يقيس المخرجات في الواقع التفاؤل بدلاً من الفرص. ولكن بما أنّ الفرص المتوقّعة لا صلة لها بالفرص الحقيقيّة، إذا ادّعيت أنّ النموذج كان يتوقّع الفرص الفعلية، ستكون قد أدّيت إلى تضليل بشأن ما يتوقّعه النموذج.

المتغيرات المشوّشة

المتغيّر المشوّش أو المشوّش أو المتغيّر المساعد هو متغيّر غير خاضع للدراسة ولكنه يؤثّر في المتغيّرات الخاضعة للدراسة وقد يشوه النتائج. على سبيل المثال، لنفترض أنّ نموذج تعلُّم الآلة يتنبأ بمعدلات الوفيات في بلد مُدخل استنادًا إلى ميزات سياسة الصحة العامة. لنفترض أنّ متوسّط العمر ليس سمة. لنفترض أيضًا أنّ بعض البلدان تضمّ قاعدة سكانية أقدم سنًا مقارنةً بغيرها. من خلال تجاهل المتغيّر المشوّش لمتوسط العمر، قد يتنبأ هذا النموذج بمعدلات وفيات غير صحيحة.

في الولايات المتحدة، غالبًا ما يكون العرق مرتبطًا بشدة بالوضع الاجتماعي الاقتصادي، على الرغم من أنّه يتم تسجيل العرق فقط، وليس الوضع الاجتماعي، مع بيانات الوفيات. إنّ العوامل المشوّشة المرتبطة بالفئة الاجتماعية، مثل إمكانية الحصول على الرعاية الصحية والتغذية والعمل الخطير والسكن الآمن، قد يكون لها تأثير أقوى على معدّلات الوفيات مقارنةً بالعرق، ولكن يتم تجاهلها لأنّها غير مضمّنة في مجموعات البيانات.3 إنّ تحديد هذه العوامل المشوّشة والتحكّم فيها أمرٌ بالغ الأهمية لبناء نماذج مفيدة وإيجاد استنتاجات مفيدة ودقيقة.

إذا تم تدريب نموذج على بيانات الوفيات الحالية، التي تتضمّن العرق ولكن ليس الطبقة الاجتماعية، قد يتنبّأ بالوفاة استنادًا إلى العرق، حتى إذا كانت الطبقة الاجتماعية علامة تنبؤ أقوى للوفاة. وقد يؤدي ذلك إلى افتراضات غير دقيقة بشأن العلاقة السببية وتوقّعات غير دقيقة بشأن وفيات المرضى. على خبراء الذكاء الاصطناعي السؤال عمّا إذا كانت هناك عوامل مُربكة في بياناتهم، بالإضافة إلى المتغيّرات العميقة المغزى التي قد تكون غير متوفّرة في مجموعة بياناتهم.

في عام 1985، تبيّن من خلال "دراسة صحة الممرضات"، وهي دراسة رصدية لمجموعة نموذجية من كلية الطب بجامعة هارفارد وكلية الصحة العامة في جامعة هارفارد، أنّ أعضاء المجموعة النموذجية الذين خضعوا للعلاج البديل بالاستروجين كانوا أقل عرضة للإصابة بنوبات قلبية مقارنةً بأعضاء المجموعة النموذجية الذين لم يسبق لهم استخدام الاستروجين. ونتيجةً لذلك، وصف الأطباء هرمون الإستروجين لمرضى المداواة بالهرمونات لعدة عقود، إلى أن حدّدت دراسة سريرية في عام 2002 المخاطر الصحية الناتجة عن العلاج بالهرمونات على المدى الطويل. تم إيقاف ممارسة prescribingestrogen to post-menopausal women، ولكن ليس قبل أن تتسبب في عشرات الآلاف من حالات الوفاة المبكرة المقدَّرة.

يمكن أن يكون هناك عوامل متعدّدة تسببت في حدوث الارتباط. تبيّن لعلماء الأوبئة أنّ النساء اللاتي يخضعن للعلاج الهرموني البديل، مقارنةً بالنساء اللاتي لا يخضعن له، يميلن إلى أن يكنّ أكثر رشاقة وأكثر تعليماً وثراءً وأكثر وعيًا بصحّتهن، وأكثر عرضةً لممارسة الرياضة. تبيّن من خلال دراسات مختلفة أنّ التعليم والثروة يقللان من خطر الإصابة بأمراض القلب. كانت هذه التأثيرات قد أدّت إلى تشويش العلاقة الظاهرة بين العلاج بالاستروجين والنوبات القلبية.4

النسب المئوية التي تحتوي على أرقام سالبة

تجنَّب استخدام النسب المئوية عند توفّر أرقام سالبة،5 لأنّه يمكن أن يتم حجب جميع أنواع الأرباح والخسائر المهمة. لنفترض، من أجل إجراء عملية حسابية بسيطة، أنّ مجال المطاعم يضمّ مليونَي وظيفة. إذا فقدت الصناعة مليونًا من هذه الوظائف في أواخر آذار (مارس) 2020، ولم تشهد أي تغيير صافٍ على مدار عشرة أشهر، واستعادت 900,000 وظيفة في أوائل شباط (فبراير) 2021، ستشير مقارنة بين عامَي 2020 و2021 في أوائل آذار (مارس) 2021 إلى خسارة% 5 فقط من وظائف المطاعم. بافتراض عدم إجراء أي تغييرات أخرى، تشير المقارنة بين عامَي 2020 و2021 في نهاية شهر نيسان (أبريل) 2021 إلى زيادة في وظائف المطاعم بنسبة% 90، ما يقدّم صورة مختلفة تمامًا عن الواقع.

يُفضَّل استخدام الأرقام الفعلية، بعد تسويتها حسب الاقتضاء. اطّلِع على العمل مع data الرقمية لمزيد من المعلومات.

الخطأ اللاحق والارتباطات غير الصالحة

الخلط بعد وقوع الحدث هو الافتراض بأنّ الحدث "أ" تسبّب في الحدث "ب" لأنّه تلاه. بعبارة أبسط، يعني ذلك افتراض وجود علاقة سببية في حال عدم توفّرها. بعبارة أبسط: لا تثبت العلاقات السببية.

بالإضافة إلى العلاقة الواضحة بين السبب والنتيجة، يمكن أن تنشأ الارتباطات أيضًا من:

  • الصدفة البحتة (اطّلِع على مقالة "الارتباطات الزائفة" التي كتبها تايلر فيجن للاطّلاع على الرسوم التوضيحية، بما في ذلك الارتباط القوي بين معدّل الطلاق في ولاية ماين واستهلاك المرجان).
  • علاقة حقيقية بين متغيّرين، مع أنّه لا يزال من غير الواضح أيّ من المتغيّرين هو السبب وأيّهما المتأثر.
  • سبب ثالث منفصل يؤثر في كلا المتغيّرين، على الرغم من أنّ المتغيّرات المرتبطَين غير مرتبطَين ببعضهما. على سبيل المثال، يمكن أن يؤدي التضخّم العالمي إلى رفع أسعار اليخوت والكرفس.6

ومن الخطير أيضًا استقراء الارتباط خارج نطاق البيانات الحالية. يشير "هوف" إلى أنّ بعض الأمطار ستُحسِّن المحاصيل، ولكنّ تساقط الأمطار بكميات كبيرة سيؤدّي إلى إتلافها، فالعلاقة بين الأمطار ونتائج المحاصيل غير خطية.7 (اطّلِع على الفقرتَين التاليتَين لمعرفة المزيد عن العلاقات غير الخطية). يشير "جونز" إلى أنّ العالم مليء بالأحداث غير المتوقّعة، مثل الحرب والمجاعة، ما يعرّض التوقّعات المستقبلية لبيانات السلاسل الزمنية لكميات هائلة من عدم اليقين.8

بالإضافة إلى ذلك، قد لا يكون الارتباط الحقيقي المستنِد إلى السبب والنتيجة مفعّلاً في اتخاذ القرارات. يقدّم "هوف"، على سبيل المثال، الارتباط بين الأهلية للزواج والتعليم الجامعي في الخمسينيات. كان من غير المرجّح أن تتزوج النساء اللاتي التحقّق بجامعة، ولكن من الممكن أنّه كان من غير المرجّح أن تتزوج النساء اللاتي التحقّق بجامعة منذ البداية. وفي هذه الحالة، لم يؤدّ التعليم الجامعي إلى تغيير احتمالات الزواج.9

إذا رصد التحليل ارتباطًا بين متغيّرين في مجموعة بيانات، اسأل:

  • ما هو نوع الارتباط: علاقة سببية أو زائفة أو مجهولة أو ناتجة عن متغيّر ثالث؟
  • ما مدى خطورة الاستقراء من البيانات؟ إنّ كل توقع يقدّمه النموذج استنادًا إلى بيانات غير مضمّنة في مجموعة بيانات التدريب هو في الواقع عملية استقراء أو تقريب من البيانات.
  • هل يمكن استخدام الارتباط لاتخاذ قرارات مفيدة؟ على سبيل المثال، قد يكون التفاؤل مرتبطًا ارتباطًا وثيقًا بزيادة الأجور، ولكن تحليل المشاعر لبعض النصوص الكبيرة من البيانات النصية، مثل مشاركات وسائل التواصل الاجتماعي التي ينشرها المستخدمون في بلد معيّن، لن يكون مفيدًا في توقّع زيادة الأجور في ذلك البلد.

عند تدريب نموذج، يبحث خبراء تعلُّم الآلة بشكل عام عن الميزات التي ترتبط بشدّة بالتصنيف. إذا لم تكن العلاقة بين السمات والتصنيف مفهومة جيدًا، قد يؤدي ذلك إلى حدوث المشاكل الموضّحة في هذا القسم، بما في ذلك النماذج المستندة إلى ارتباطات زائفة والنماذج التيتفترض أنّ المؤشرات السابقة ستستمر في المستقبل، بينما هي في الواقع لا تستمر.

الانحياز الخطي

في مقالة بعنوان "التفكير الخطي في عالم غير خطي"، описан Bart de Langhe وStefano Puntoni وRichard Larrick الانحياز الخطي على أنّه ميل الدماغ البشري إلى توقّع العلاقات الخطية والبحث عنها، على الرغم من أنّ العديد من الظواهر غير خطية. على سبيل المثال، العلاقة بين مواقف البشر وسلوكهم هي منحنى محدب وليس خطًا. في مقالة صدرت عام 2007 في مجلة سياسة المستهلك واستشهد بها "دي لانغيه" وآخرون، وضعت "جيني فان دورن" وآخرون نموذجًا للعلاقة بين قلق المشاركين في الاستطلاع بشأن البيئة وعمليات شراء المشاركين للمنتجات العضوية. يشترى الأشخاص الذين لديهم أكبر قدر من المخاوف بشأن البيئة المزيد من المنتجات العضوية، ولكن لم يكن هناك اختلاف بسيط جدًا بين جميع المجيبين الآخرين.

عمليات شراء المنتجات العضوية في مقابل نتيجة الاهتمام بالبيئة،
  يعرض خطًا مستويًا في الغالب مع منحنى محدب حاد إلى أعلى في أقصى يسار الرسم البياني
رسم بياني للشراءات من المنتجات العضوية في مقابل نتيجة الاهتمام بالبيئة، تم تبسيط هذا الرسم البياني وتعديله من ورقة بحث van Doorn et al.

عند تصميم النماذج أو الدراسات، ضع في الاعتبار إمكانية وجود علاقات غير خطية. بما أنّ اختبار A/B قد لا يرصد العلاقات غير الخطية، ننصحك أيضًا باختبار حالة ثالثة ومتوسطة ، وهي الحالة "ج". ننصحك أيضًا بالتفكير في ما إذا كان السلوك الأوّلي الذي يبدو خطيًا سيظلّ خطيًا، أو ما إذا كانت البيانات المستقبلية قد تُظهر سلوكًا لوغاريتميًا أو غير خطي آخر.

تلائم خطي للبيانات اللوغاريتمية يعرض تلائمًا جيدًا للنصف
  الأول من البيانات وتلائمًا سيئًا بشكل متزايد بعد ذلك
مثال على تطابق خطي ضعيف مع البيانات اللوغاريتمية

يعرض هذا المثال الافتراضي تطابقًا خطيًا خاطئًا للبيانات اللوغاريتمية. إذا كانت نقاط البيانات القليلة الأولى فقط متاحة، سيكون من المغري وغير الصحيح افتراض وجود علاقة خطية مستمرة بين المتغيّرات.

الاستيفاء الخطي

راجِع أيّ استقراء بين نقاط البيانات، لأنّ الاستقراء يُدخل نقاطًا خيالية، وقد تحتوي الفواصل الزمنية بين القياسات الفعلية على تقلّبات ذات دلالة. على سبيل المثال، إليك المخطّط البياني التالي الذي يعرض أربع نقاط بيانات متصلة بعمليات تقريب خطي:

سعة بمرور الوقت تعرِض أربع نقاط متصلة بخط مستقيم
مثال على الاستيفاء الخطي

بعد ذلك، فكِّر في هذا المثال على التقلبات بين نقاط البيانات التي يتم محوّها من خلال الاستقراء الخطي:

النقاط نفسها كما في السابق، ولكن مع تقلّبات هائلة بين النقطة الثانية والثالثة
مثال على تقلّبات ذات دلالة (زلزال) بين نقاط البيانات

هذا المثال مصطنَع لأنّ أجهزة قياس الزلازل تجمع بيانات مستمرة، وبالتالي لن يتم تفويت هذا الزلزال. ولكنّه مفيد لتوضيح الافتراضات التي يتمّ إجراؤها من خلال الاستقراءات، والظواهر الحقيقية التي قد يفوتها ممارسو البيانات.

ظاهرة Runge

ظاهرة Runge، والمعروفة أيضًا باسم "الاهتزاز المتعدد الحدود"، هي مشكلة في الطرف المقابل من المخطّط البياني للاقتران الخطي والانحياز الخطي. عند استخدام عملية interpolating لإنشاء منحنى متعدد الحدود مع البيانات، من الممكن استخدام منحنى متعدد الحدود بدرجة عالية جدًا (حيث تكون الدرجة أو الترتيب هي أكبر مركّب في معادلة المنحنى المتعدّد الحدود). ويؤدي ذلك إلى حدوث اهتزازات غريبة عند الحواف. على سبيل المثال، يؤدي تطبيق interpolation (الاستبدال) المتعدد الحدود من الدرجة 11، أي أنّ المصطلح الأعلى ترتيبًا في معادلة المتعدد الحدود هو \(x^{11}\)، على البيانات الخطية تقريبًا، إلى ناتج توقّعات سيئة بشكل ملحوظ في بداية ونهاية نطاق البيانات:

بيانات خطية تقريبًا
  تمّت ملاءمتها باستخدام تداخل متعدد الحدود من الدرجة 11، وتُظهر قفزة تصاعدية الحادة
  بين نقطتَي البيانات الأولى والقفزة الحادة للأسفل
  بين نقطتَي البيانات الأخيرة
مثال على التأثير المتغير للمعادلة المتعددة الحدود

في سياق تعلُّم الآلة، فإنّ الظاهرة المشابهة هي التطابق المفرط.

حالات تعذُّر رصد المحتوى بالاستناد إلى الإحصاءات

في بعض الأحيان، قد يكون الاختبار الإحصائي غير فعّال بما يكفي لرصد أثر صغير. إنّ انخفاض قدرة التحليل الإحصائي يعني انخفاض فرصة تحديد الأحداث الحقيقية بشكل صحيح، وبالتالي ارتفاع فرصة ظهور نتائج سلبية خاطئة. كتبت "كاثرين بوتون" وآخرون في Nature: "عندما يتم تصميم الدراسات في مجال معيّن بقوة 20%، يعني ذلك أنّه إذا كانت هناك 100 تأثير حقيقي غير صفري يجب اكتشافه في هذا المجال، من المتوقّع أن تكتشف هذه الدراسات 20 تأثيرًا فقط". يمكن أن تساعد في بعض الأحيان زيادة حجم العيّنة، كما يمكن أن يساعد تخطيط الدراسة بعناية.

ويُعدّ التصنيف أحد المشاكل المشابهة في تعلُّم الآلة، بالإضافة إلى اختيار حدّ التصنيف. يؤدي اختيار حدّ أعلى إلى منجرٍ في انخفاض عدد النتائج الموجبة الخاطئة وزيادة عدد النتائج السالبة الخاطئة، في حين يؤدي اختيار حدّ أدنى إلى منجرٍ في زيادة عدد النتائج الموجبة الخاطئة وانخفاض عدد النتائج السالبة الخاطئة.

بالإضافة إلى المشاكل المتعلّقة بالقوة الإحصائية، بما أنّ الارتباط مُصمّم لرصد العلاقات الخطية، يمكن أن يتم تجاهل الارتباطات غير الخطية بين المتغيّرات. وبالمثل، يمكن أن تكون المتغيّرات مرتبطة ببعضها غير أنّها غير مرتبطة إحصائيًا. يمكن أن تكون المتغيّرات مرتبطة سلبًا ولكنّها غير مرتبطة تمامًا، في ما يُعرف باسم مغالطة بيركسون أو تناقض بيركسون. المثال الكلاسيكي لخطأ بيركسون هو الارتباط السلبي الزائف بين أي عامل خطر والمرض الشديد عند النظر في عدد المرضى الداخليين في المستشفى (مقارنةً بإجمالي عدد السكان)، والذي ينشأ عن عملية الاختيار (حالة شديدة بما يكفي للحاجة إلى دخول المستشفى).

راجِع ما إذا كانت أي من هذه الحالات تنطبق عليك.

النماذج القديمة والافتراضات غير الصالحة

حتى النماذج الجيدة يمكن أن تنخفض جودتها بمرور الوقت لأنّ السلوك (والعالم) قد يتغيّر. كان على Netflix إيقاف نماذج التوقّعات المبكرة، لأنّه تغيرت قاعدة عملائها من المستخدمين الشباب الملمّين بالتكنولوجيا إلى عموم السكان.10

يمكن أن تتضمّن النماذج أيضًا افتراضات صامتة وغير دقيقة قد تظل مخفية إلى أن يؤدي ذلك إلى انهيار النموذج بشكل كارثي، كما حدث في انهيار السوق في عام 2008. زعمت نماذج القيمة المعرضة للخطر (VaR) في المجال المالي أنّها تقدّر بدقة الحد الأقصى للخسارة في محفظة أيّ تاجر، على سبيل المثال، الحد الأقصى للخسارة هو 100,000 دولار أمريكي متوقّع بنسبة% 99 من الوقت. ولكن في الظروف غير الطبيعية للانهيار، فقدت في بعض الأحيان مجموعة استثمارية يبلغ الحد الأقصى للخسارة المتوقّعة فيها 100,000 دولار أمريكي 1,000,000 دولار أمريكي أو أكثر.

كانت نماذج VaR مستندة إلى افتراضات خاطئة، بما في ذلك ما يلي:

  • إنّ التغييرات السابقة في السوق تتنبأ بالتغييرات المستقبلية في السوق.
  • كان التوزيع العادي (ذي الذيل الرفيع، وبالتالي المتوقّع) هو التوزيع الذي يستند إليه العائد المتوقّع.
توزيع von Mises مع k=5، يشبه التوزيع الغوسي، ويكون أكثر تسطيحًا عند k=1 وk=.2
رسم بياني لتوزيع von Mises، الذي يكون ذي ذيل خفيف عند ارتفاع قيمة K وذي ذيل كثيف عند انخفاض قيمة K.

في الواقع، كان التوزيع الأساسي ذا ذيل كثيف أو "شاذ" أو متكرّر، ما يعني أنّه كان هناك خطر أكبر بكثير من الأحداث النادرة والمفرطة والطويلة الذي يتنبّأ به التوزيع العادي. كانت الطبيعة المتأثّرة بتأثير القيم الشاذة للتوزيع الفعلي معروفة جيدًا، ولكن لم يتم اتّخاذ أي إجراء بشأنها. ما كان معروفًا بشكلٍ أقل هو مدى تعقيد الظواهر المختلفة وارتباطها الوثيق ببعضها، بما في ذلك التداول المستنِد إلى الكمبيوتر مع عمليات البيع المبرمَجة.11

مشاكل التجميع

تخضع البيانات المجمّعة، التي تشمل معظم بيانات الخصائص الديمغرافية والوبائية، لمجموعة معيّنة من الفخاخ. تحدث مغالطة سيمبسون، أو مغالطة الدمج، في البيانات المجمّعة التي تختفي فيها المؤشرات الظاهرة أو تنقلب عند تجميع البيانات على مستوى مختلف، وذلك بسبب عوامل الالتباس والعلاقات السببية التي يساء فهمها.

ينطوي الخداع البيئي على استقراء معلومات عن مجموعة سكانية على مستوى تجميع معيّن إلى مستوى تجميع آخر، ما قد يؤدي إلى عدم صحة الادّعاء. إنّ المرض الذي يصيب ‎40% من العمال الزراعيين في إحدى المقاطعات قد لا يكون متوفّرًا بالانتشار نفسه في السكان الأكبر عددًا. من المرجّح أيضًا أن تكون هناك مزارع أو بلدات زراعية معزولة في تلك المقاطعة لا تواجه معدّل انتشار مماثلًا لهذا المرض. ومن الخطأ أيضًا افتراض أنّ معدّل الانتشار يبلغ% 40 في تلك الأماكن الأقل تأثرًا.

مشكلة الوحدة المساحية القابلة للتعديل (MAUP) هي مشكلة معروفة في البيانات المكانية الجغرافية، وقد وصفها "ستان أوبنشو" في عام 1984 في CATMOG 38. استنادًا إلى أشكال المناطق وأحجامها المستخدَمة في جمع البيانات، يمكن لخبير البيانات المكانية الجغرافية إنشاء أي ارتباط تقريبًا بين المتغيّرات في البيانات. إنّ رسم حدود الدوائر الانتخابية التي تفضّل حزبًا معيّنًا على آخر هو مثال على استراتيجية MAUP.

تتضمن كل هذه الحالات استقراءً غير ملائم من مستوى جمعٍ إلى آخر. قد تتطلّب مستويات التحليل المختلفة عمليات جمع مختلفة أو حتى مجموعات بيانات مختلفة تمامًا.12

يُرجى العِلم أنّه يتم عادةً جمع بيانات الإحصاءات الديمغرافية والوبائية حسب المناطق لأسباب تتعلّق بالخصوصية، وأنّ هذه المناطق غالباً ما تكون عشوائية، أي أنّها لا تستند إلى حدود ذات مغزى في العالم الواقعي. عند العمل مع هذه الأنواع من البيانات، على خبراء الذكاء الاصطناعي التحقّق مما إذا كان أداء النموذج وتوقّعاته يتغيّران استنادًا إلى حجم المناطق المختارة وشكلها أو مستوى التجميع، وإذا كان الأمر كذلك، ما إذا كانت توقّعات النموذج تتأثّر بإحدى مشاكل التجميع هذه.

المراجع

Button, Katharine et al. "Power failure: why small sample size undermines the reliability of neuroscience." Nature Reviews Neuroscience المجلد 14 (2013)، 365-376. معرّف العنصر الرقمي: https://doi.org/10.1038/nrn3475

القاهرة، كمال. How Charts Lie: Getting Smarter about Visual Information (كيفية خداع الرسوم البيانية: التعرّف بشكل أفضل على المعلومات المرئية) نيويورك: W.W. Norton، 2019.

دافنبورت، توماس إتش "A Predictive Analytics Primer". في دليل HBR حول أساسيات تحليلات البيانات للمدراء (بوسطن: HBR Press، 2018) 81-86.

دي لانغه، بارت، وستيفانو بونتوني، وريتشارد لاريك "التفكير الخطي في عالم غير خطي" في دليل HBR الأساسي حول إحصاءات البيانات للمدراء (بوسطن: HBR Press، 2018) 131-154.

إلينبيرغ، الأردن How Not to Be Wrong: The Power of Mathematical Thinking (كيفية تجنُّب الأخطاء: قوة التفكير الرياضي) نيويورك: البطريق، 2014

Huff, Darrell. كيفية الكذب باستخدام الإحصاءات نيويورك: W.W. Norton، 1954.

جونز، بن. تجنُّب المشاكل المتعلّقة بالبيانات Hoboken, NJ: Wiley, 2020.

Openshaw، ستان. "The Modifiable Areal Unit Problem," CATMOG 38 (Norwich, England: Geo Books 1984) 37.

مخاطر النمذجة المالية: مقياس المخاطر الكلية والانهيار الاقتصادي، الكونغرس الأمريكي الحادي عشر (2009) (شهادات من نسيم ن. Taleb and Richard Bookstaber).

ريتر، داوود. "حالات اتّخاذ إجراء بشأن الترابط وحالات عدم اتّخاذه" في دليل HBR إلى dasar Data Analytics للمديرين (بوسطن: HBR Press، 2018) 103-109.

Tulchinsky, Theodore H. and Elena A. فارافيكوفا "الفصل 3: قياس صحة السكان ومراقبتها وتقييمها" في الصحة العامة الجديدة، الطبعة الثالثة، سان دييغو: Academic Press، 2014، الصفحات 91-147. DOI: https://doi.org/10.1016/B978-0-12-415766-8.00003-3.

فان دورن، جنى، بيتر سي فيرهوف، وتاممو إتش أ. Bijmolt "أهمية العلاقات غير الخطية بين السلوك والمواقف في مشاريع تنمية السياسات" Journal of Consumer Policy 30 (2007) 75–90. معرّف العنصر الرقمي: https://doi.org/10.1007/s10603-007-9028-3

مرجع الصورة

استنادًا إلى "توزيع Von Mises". Rainald62، 2018 المصدر


  1. Ellenberg 125. 

  2. Huff 77-79. يشير "هوف" إلى مكتب أبحاث الرأي العام في جامعة "برينستون"، ولكن قد يكون كان يشير إلى تقرير نيسان (أبريل) 1944 الذي أعدّه "المركز الوطني لأبحاث الرأي العام" في جامعة "دنفر". 

  3. Tulchinsky وVaravikova 

  4. Gary Taubes, Do We Really Know What Makes Us Healthy?" in The New York Times Magazine, Sep 16, 2007. 

  5. Ellenberg 78. 

  6. Huff 91-92. 

  7. Huff 93. 

  8. جونز 157-167. 

  9. Huff 95. 

  10. Davenport 84. 

  11. يمكنك الاطّلاع على شهادة "ناسيم ن" أمام الكونغرس. Taleb and Richard Bookstaber in The Risks of Financial Modeling: VaR and the Economic Meltdown, 111th Congress (2009) 11-67. 

  12. القاهرة 155، 162.