تداخل خطي (إحصاء)

من أرابيكا، الموسوعة الحرة
اذهب إلى التنقل اذهب إلى البحث
غالبا ما يكون اختبار تجانس إشارتي معامل ارتباط المتغير المستقل مع التابع مع إشارة معامل النموذج المقدر أسهل طريقة للكشف عن وجود تداخل خطي ضمن نماذج الانحدار.

التداخل الخطي (بالإنجليزية: Collinearity)‏ وتعرف أيضا بالتداخل الخطي المتعدد (Multicollinearity) في الإحصاء والنمذجة الإحصائية (خصوصا في نماذج الانحدار) هي خاصية تكون فيها متغيرات مستقلة قابلة للكتابة، عبر توليفة خطية، بدلالة متغيرات مستقلة أخرى.

يعتبر التداخل الخطي حالة غير مرغوب فيها بالنسبة للمتغيرات المفسرة بحكم أنه يشكل نوعا من تكرار المعلومة[1] مما يعني أن المتغيرات المتداخلة خطيا تفسر نفس الظاهرة ويستحسن تقليل عددها بسحب متغيرات من قائمة المتغيرات المفسرة.[2] بعبارة أخرى، تكون المتغيرات المتداخلة تؤثر سلبيا على بعضها البعض (أي تزعج بعضها البعض إحصائيا)، داخل النموذج مما يستوجب تبني إستراتيجية لإقصاء بعضها من النموذج.[3]

التداخل الخطي هو خاصية أو ظاهرة مرتبطة بالبيانات والمتغيرات وليس بالنموذج الإحصائي في حد ذاته.

العلاقة بين الارتباط والتداخل الخطي

تأثير التداخل الخطي على النماذج الإحصائية

في نماذج الانحدار الخطي، يؤدي وجود التداخل الخطي بين المتغيرات المفسرة إلى تقويض نجاعة النمذجة، خصوصا على المستويات التالية:

  • تكبير تباينات معاملات النموذج، مما يعسر التصديق على قيمها ومغزاها الإحصائي.[2]
  • إمكانية ظهور مغزى إحصائي ضعيف للمعاملات (بقيم احتمالية p-value ضعيفة مما يؤكد فرضية انعدام معاملات الانحدار) رغم وجود علاقة ارتباط بين المتغير المستقل والمتغير التابع، وهو ما قد يدفع الباحث إلى إقصاء متغير غير ذي مغزى ظاهريا عن طريق الخطأ.[2][3]
  • صعوبة تأويل المعاملات والتأثير الهامشي لتغير المتغير المستقل على قيمة المتغير التابع،[2] إضافة إلى ظهور إشارات غير منطقية لبعض المعاملات تخالف المعارف المتوفرة في مجال الدراسة.
  • عدم استقرار النموذج وحساسيته المفرطة تجاه إضافة أو حذف أفراد إحصائيين من العينة المدروسة.

تكمن خطورة التداخل الخطي في كونه يشكل عامل ضعف كامن للنموذج الإحصائي، فهو لا يؤثر على مؤشرات جودة أخرى (معامل التحديد أو نسبة خطأ التوقعات مثلا).[4]

تعريف

توجد العديد من التعريفات النظرية لمفهوم التداخل الخطي. أبسط تعريف، وهو الأكثر استخداما على المستوى العملي، ينص على اعتبار عتبة مقبولة لمعامل الارتباط بين متغيرين مستقلين (مثلا 0.8 أو 0.7)، ويتم الحسم في الإبقاء على المتغيرات أو حذفها عبر تحليل مصفوفة الارتباط من منظور هاته العتبة. هذه التقنية قد تؤدي إلى قرارات خاطئة بحكم أن ارتباطا مرتفعا بين متغيرين مفسرين لا يعني بالضرورة وجود تداخل خطي، مما يفرض تبني تعريفات وتقنيات للكشف أكثر رصانة من المنظور الإحصائي.[3]

باعتبار نموذج انحدار لكتابة متغير تابع Y بدلالة p متغير مستقل X=(X1,X2,...,Xp): Y^=X^β+ε ، انطلاقا من عينة مكونة من n فرد إحصائي.

  • X^=(1x11...x1p1...xij...1xn1...xnp) مصفوفة n×(p+1) لقيم X الملاحظة.
  • Y^=(y1,y2,...,yn)tمنقولة متجهة قيم Y الملاحظة.
  • β وε، على التوالي، منقولتا متجهتي المعاملات المقدرة والأخطاء الهامشية للنموذج.

للتبسيط، يفترض أن المتغيرات موسطة ومختزلة، حتى تكون مصفوفة التغاير مطابقة لمصفوفة الارتباط.[5]

نعتبر r منقولة متجهة معاملات الارتباط بين Xj وY.

التداخل الخطي التام

طريقة المربعات الصغرى في تقدير المعاملات β تفترض أن مصفوفة الارتباط R (مصفوفة معاملات الارتباط (p+1)×(p+1)) قابلة للعكس، أي أن رتبتها تساوي p+1 (أي لها p+1 قيمة ذاتية موجبة قطعا):

β=1nR1X^tY^=R1r.

حالة التداخل الخطي التام هي التي تكون فيها R غير قابلة للعكس أي: Rank(XtX)<p+1 أو قيمة واحدة أو أكثر من قيمها الذاتية منعدمة.[4]

التداخل الخطي الحاد

حالة التداخل الخطي الحاد تكون إذا كان محدد مصفوفة التغاير قريبا من det(XtX)0 وهو ما يعني بأن معكوسة مصفوفة التغاير تضم قيما جد مرتفعة، ونفس الأمر بالنسبة لمصفوفة تغاير القيم المقدرة لمعاملات النموذج Ωβ^^=σ^ε2(XtX)1. بالتالي تتخذ إحصائية اختبار ستيودنت tβ^j=β^jσ^β^j لاختبار المغزى الإحصائي للمعاملات قيما ضعيفة مما يدفع إلى إقصاء المتغير الموافق Xj من النموذج.[3]

طرق الكشف عن التداخل الخطي

الطرق التالية تفترض القيام بتطبيق أولي لنموذج انحدار خطي، ويمكن أن تؤدي إلى تطبيق تكراري للنمذجة إلى غاية تحييد التداخلات الخطية.

قاعدة كلاين

وهي قاعدة اعتباطية (ليست باختبار إحصائي) تقضي بوجود تداخل خطي لمتغيرين Xj1 وXj2 إذا كان مربع معامل ارتباطهما أكبر من معامل تحديد النموذج rj1,j22R2.[6]

عامل تضخم التباين

قاعدة كلاين تسمح فقط بترشيح المتغيرات التي يمكن أن تكون مفسرة للتداخل الخطي بشكل ثنائي. من أجل تقييم عام للتداخل الخطي، من الضروري نمذجة كل متغير مستقل Xj بدلالة ال (p1) متغيرات الأخرى واعتبار معامل التحديد الموافق Rj2.

يعرف عامل تضخم التباين بالصيغة التالية: vj=11Rj2 وترجع تسميته بمعامل التضخم لأن قيمته تدخل في حساب الانحراف المعياري لمقدرات معاملات النموذج: V(β^j)=σε2nvj وبالتالي كلما كبرت قيمة vj، تزايد عدم استقرار مقدر المعامل βj مما يقلل حظوظه في أن ينجح في اختبار المغزى الإحصائي لعدم مساواته 0.

المقدار 1Rj2 يعرف بمستوى تحمل التداخل الخطي (Tolerance).

يتم تعريف عتبة للإقرار بمسؤولية Xj في التسبب في حالة تداخل خطي، العتبات المتعارف عليها يمكن أن تساوي بالنسبة لعامل التضخم vj 4 أو 5 أو 10 (عامل تضخم 4 يوافق مستوى تحمل 0.25).[7]

عمليا، حساب p نموذج انحدار خطي لكل متغير مستقل بدلالة المتغيرات المفسرة الأخرى قد يكون مرهقا. يمكن البرهنة على أن المصفوفة العكسية لمصفوفة الارتباط يكون قطرها مشكلا من القيم vj: vj=(XtX)(j,j)1.

اختبار تجانس الإشارات

يمكن الكشف عن التداخل الخطي عبر مقارنة إشارة معامل ارتباط Xj والتابع Y (بعد التأكد من مغزاها الإحصائي) مع إشارة معامل النموذج المقدر β^j.

إذا كانت sgn(rY,Xj)≢sgn(β^j) فذلك يعني أن المتغير Xj يقدم «تفسيرا» متناقضا للمتغير التابع وهو ما يرشحه بقوة لكي يكون مسؤولا عن تداخل خطي.

اختبار فارار وغلاوبر

اختبار فارار وغلاوبر (Farrar & Glauber)، الذي نشر سنة 1967، يمكن من اختبار وجود التداخل الخطي بطريقة شاملة، ويفترض أن يتم تطبيقه كشكل من التصديق النهائي على «سلامة» النموذج بعد استيفاء الاختبارات السابقة. الفرضية المنعدمة المختبرة هي:

  • H0: استقلالية المتغيرات المفسرة (أو تعامدها بالمعنى الجبري).

إحصائية الاختبار هي: SFG=(n116(2p+5)) وهي موزعة وفق توزيع مربع خي ذي p(p1)2 درجات حرية: SFGχp(p1)22.[8]

مراجع

  1. ^ "La multicolinéarité et son diagnostic". مؤرشف من الأصل في 2019-12-27.
  2. ^ أ ب ت ث "Multicolinéarité dans la régression". مؤرشف من الأصل في 2019-06-08.
  3. ^ أ ب ت ث "La régression dans la pratique" (PDF). مؤرشف من الأصل (PDF) في 2018-05-16.
  4. ^ أ ب "COLINÉARITÉ ET RÉGRESSION LINÉAIRE". مؤرشف من الأصل في 2019-12-27.
  5. ^ "Covariance et matrice de variances-covariances". مؤرشف من الأصل في 2019-02-11.
  6. ^ "Colinéarité et Sélection de Variables" (PDF). مؤرشف من الأصل (PDF) في 2018-11-23.
  7. ^ Ricco Rakotomalala. "Pratique de la Régression Linéaire Multiple - Diagnostic et Sélection de variables" (PDF). مؤرشف من الأصل (PDF) في 2018-05-16.
  8. ^ "Test d'indépendance des variables explicatives". مؤرشف من الأصل في 2019-12-29.