انحدار خطي بسيط

من أرابيكا، الموسوعة الحرة
اذهب إلى التنقل اذهب إلى البحث

الانحدار الخطي البسيط هو حساب المربعات الصغرى من نموذج الانحدار الخطي مع متغير تفسيري واحد.[1][2][3] وبعبارة أخرى، الانحدار الخطي البسيط هو خط مستقيم يمر بمجموعة من النقاط بطريقة تجعل مجموع مربع النقط المتبقية من النموذج (أي، المسافات الرأسية بين النقطة المتبقية والخط) أقل ما يمكن. هذا يشير الي حقيقة أن الانحدار هو واحد من أبسط الأساليب المستخدمة في مجال الإحصاء حيث أن ميل الخط يساوي العلاقة بين y و x مصححة بنسبة الانحرافات المعيارية لهذه المتغيرات. نقطة تقاطع الخط مع محور الصادات هي مركز كتلة نقاط البيانات (x, y). توجد طرق انحدار أخرى بجانب المربعات الصغرى البسيطة (انظر الانحدار الخطي). علي وجه الخصوص، عندما يريد شخص أن يقوم بفعل الانحدار عن طريق العين فانه يميل عادة الي رسم خط حاد قليلا ويكون قريبا من ذلك الذي ينتج من طريقة أقل مربعات كليه. يحدث هذا لأنه طبيعي أكثر لعقل الإنسان ملاحظة المسافات المتعامدة علي خط الانحدار بدلا من تلك الراسية كما يحدث في طريقة المربعات الصغرى.

عمل خط الانحدار

افترض ان لديك عدد n من النقاط {(Xi,Yi),i=1,2,.....n} فان الدالة التي تصف Y و X هي: yi = α + β xi + εi والهدف هو ايجاد معادلة الخط المستقيم y = α + β x التي تعطي أفضل تمثيل للنقاط. هنا الأفضل يعرف بأنه طريقة المربعات الصغيرة: الخط الذي يقلل مجموع مربعات المتبقيات لنموذج الانحدار الخطي. وبعبارة أخرى، α (نقطة التقاطع مع محور y) و β (الميل) يشاركوا في حل مشكلة التقليل التالية: Find minα,βQ(α,β),for Q(α,β)=i=1nεi2=i=1n(yiαβxi)2

باستخدام الحساب هندسة المساحات الداخلية للشكل أو التوسع البسيط للحصول علي معادلة من الدرجة الثانية في α و β ، فإنه من الممكن ايجاد قيم α و β التي تقلل الدالة كالتالي:

β^=i=1n(xix¯)(yiy¯)i=1n(xix¯)2[6pt]=i=1nxiyi1ni=1nxij=1nyji=1nxi21n(i=1nxi)2[6pt]=xyx¯y¯x2x¯2=Cov[x,y]Var[x]=rxysysx,[6pt]α^=y¯β^x¯,

حيث rxy هو معامل الارتباط بين x و y

sx هو الانحراف المعياري ل x

sy هو الانحراف المعياري ل y الخط الأفقي علي فوق الكمية يعبر عن المتوسط. فعلى سبيل المثال: xy=1ni=1nxiyi.

بالتعويض بالمعادلة السابقة في f=α^+β^x, يؤدي ذلك الي: fy¯sy=rxyxx¯sx

و هذا يدل علي الدور الذي يقوم به rxy في خط الانحدار لنقط البيانات. وفي بعض الأحيان يكون من المفيد حساب rxy من البيانات بشكل مستقل باستخدام المعادلة التالية:

rxy=xyx¯y¯(x2x¯2)(y2y¯2)

معامل التحديد (R تربيع) يساوي rxy2 عندما يكون النموذج خطي وبه متغير مستقل واحد. انظر نموذج معامل الارتباط لتفاصيل أكثر

انحدار خطي بدون جزء التقاطع

في بعض الأحيان، يعتبر الناس نموذج الانحدار الخطي البسيط دون جزء التقاطع y = βx في مثل هذه الحالة، تقدير OLS لايجاد β يبسط ل β^=i=1nxiyii=1nxi2=xyx2

ويصبح معامل ارتباط العينة: rxy=xy(x2)(y2)

خصائص عددية

  1. الخط يمر عبر نقطة مركز الكتلة (x, y)
  2. مجموع المتبقيات يساوي صفر إذا وجد ثابت في النموذج: i=1nε^i=0.
  3. التركيبة الخطية للمتبقيات، في حالة المعاملات هي قيم x، تساوي صفر: i=1nxiε^i=0.

خصائص ايجاد نموذج

وصف الخصائص الإحصائية للمقدرات من الانحدار الخطي البسيط يتطلب استخدام نموذج احصائي. التالي يعتمد علي افتراض صحة النموذج في حالة أن التقديرات مثالية. ومن الممكن أيضا لحساب الخصائص تحت قيود افتراضات أخرى، مثل عدم التجانس، ولكن يتم مناقشة ذلك في أماكن أخرى.

عدم التحيز

حساب α^ و β^ هي منحازة وهذا يتطلب أن نفسر المقدرات كمتغيرات عشوائية وعلينا أن نفترض أن لكل قيمة ل x القيمة المقابلة لها في y تنتج كنتيجة متوسطة α + βx بالإضافة الي قيمة متغير عشوائي اضافي ε يسمي الخطأ. هذا الخطأ يجب أن يساوي صفر عند حساب المتوسط لكل قيمة ل x وتحت هذا التفسير، تقدير المربعات الصغيرة α^ و β^ سوف يكونوا متغيرات عشوائية وسوف تحسب القيم الحقيقية ل α و β بدون تحيز.

فترات التأكيد

المعادلات المعطاة في الجزء السابق تمكننا من حساب تقديرات النقط ل α و β وهم معاملات خط الانحدار لمجموعة معينة من البيانات. ومع ذلك، هذه المعادلات لا تخبرنا مدي الدقة في التقديرات أي كم المقدرات α^ و β^ تختلف من نموذج لاخر لحجم العينة المحدد. لذا وضع ما يسمي فترات التأكيد لتعطي مجموعة معقولة من القيم التي يمكن تقديرها إذا كررت التجربة عدد هائل من المرات. الطريقة التقليدية لحساب فترات التأكيد لمعاملات الانحدار الخطي تعتمد علي فرض الثبات الذي له ما يبرره إذا ما:

  1. الخطأ في الانحدار كان متوزع طبيعي (ما يسمي افتراض الانحدار الكلاسيكي)
  2. عدد الملاحظات n كان كبير بشكل كافي في حالة المقدرات كانت موزعة تقريبا بشكل طبيعي

هذا ما يبرر الحالة الأخيرة من نظرية حدود المركز

افتراض الوضع الطبيعي

في ظل الافتراض الأول أعلاه، الذي من طبيعته وجود خطأ، تقدير معامل الميل سوف يوزع بشكل طبيعي بمتوسط β وتباين σ2/(xix¯)2, حيث σ2 هو الفرق في الخطأ (انظر البراهين التي تنطوي علي المربعات الصغري). في نفس الوقت، مجموع مربع المتبقيات Q يوزع بالتناسب مع χ2 بعدد درجات حرية n-2 وبشكل مستقل عن β^. وهذا يسمح لنا بعمل احصائية t. t=β^βsβ^tn2,

حيث

sβ^=1n2i=1nε^i2i=1n(xix¯)2

هو الخطأ المعياري للمقدر احصائية t لديها توزيع t للطلاب بعدد n-2 درجة حرية وباستخدامها نستطيع تكوين فترة تأكيد ل β:

β[β^sβ^tn2*,β^+sβ^tn2*],

في مستوي التأكيد (1−γ) حيث tn2* هي (1−γ/2)-th من توزيع tn−2 على سبيل المثال، إذا γ = 0.05 ثم مستوي التأكيد 95% وبالمثل، فترة التأكيد لمعامل الاعتراض α يعطي ب

α[α^sα^tn2*,α^+sα^tn2*],

في مستوي التأكيد (1−γ) حيث

sα^=sβ^1ni=1nxi2=1n(n2)(j=1nε^j2)i=1nxi2i=1n(xix¯)2

انحدار بفترة تأكيد 95%.

فترة التأكيد ل α وβ تعطينا الفكرة الرئيسية حيث معاملات الانحدار من الأرجح أن تكون. على سبيل المثال، في قانون Okun الانحدار ظاهر في بداية المقال النقط المقدرة هي α^=0.859,β^=1.817.

و فترة التأكيد لهذه المقدرات 95%: α[0.76,0.96],β[2.06,1.58].

من أجل تمثيل هذه المعلومات بيانيا في شكل فترات تأكيد ول خط الانحدار فعلي الشخص أن يمضي بحذر وحساب التوزيع المشترك للمقدرات. ويمكن أن تظهر أنه في فترة التأكيد (1−γ) رابطة التأكيد تأخذ شكل قطع زائد يعطي بالمعادلة:

y^|x=ξ[α^+β^ξ±tn2*(1n2ε^i2)(1n+(ξx¯)2(xix¯)2)].

الافتراضات التقريبية

الافتراض الثاني البديل ينص علي أنه عندما يكون عد النقاط كبير بشكل كاف، وقانون الأعداد الكبيرة ونظرية حدود المركز قابلين للتطبيق، ومن ثم توزيع المقدرات أمر طبيعي تقريبا. تحت هذا الافتراض جميع الصيغ المشتقة في القسم السابق لا تزال سارية المفعول، مع استثناء وحيد وهو أن t*n−2 لتوزيع t من الطلاب يتم استبداله ب q* من التوزيع الطبيعي القياسي. أحيانا الكسر 1/n−2 يتم استبداله ب 1/n في حالة n تكون كبيرة ومثل هذا التغير لا يغير النتائج بشكل ملحوظ.

مثال عددي

هذا المثال يتعلق بمجموعة بيانات من المربعات الصغري العادية. هذه المجموعة تعطي متوسط كتل السيدات كدالة في طولهم في عينة من النساء الأمريكان في عمر 39-30 . وعلى الرغم أن OLS تقول أنه من الأكثر ملائمة عمل انحدار من الدرجة الثانية لهذه البيانات لكن الانحدار الخطي البسيط يمكن تطبيقه هنا بدلا من ذلك.

xi 1.47 1.50 1.52 1.55 1.57 1.60 1.63 1.65 1.68 1.70 1.73 1.75 1.78 1.80 1.83  Height (m)
yi 52.21 53.12 54.48 55.84 57.20 58.57 59.93 61.29 63.11 64.47 66.28 68.10 69.92 72.19 74.46  Mass (kg)

يوجد عدد النقاط (n=15) في هذه البيانات ويتم بدأ الحسابات باليد بحساب المجاميع الخمسة التالية:

Sx=xi=24.76,Sy=yi=931.17Sxx=xi2=41.0532,Sxy=xiyi=1548.2453,Syy=yi2=58498.5439

هذه الكميات تستخدم لحساب معاملات الانحدار وأخطائهم القياسية

β^=nSxySxSynSxxSx2=61.272α^=1nSyβ^1nSx=39.062sε2=1n(n2)(nSyySy2β^2(nSxxSx2))=0.5762sβ2=nsε2nSxxSx2=3.1539sα2=sβ21nSxx=8.63185

0.975 من توزيع t للطلاب ب 13 درجة حرية يكون t*13=2.1604 وبالتالي 95% فترة تأكيد ل α and β تكون:

α[α^t13*sα]=[45.4,32.7]β[β^t13*sβ]=[57.4,65.1]

و يمكن أيضا حساب ناتج معامل تصحيح الارتباط كالتالي:

r^=nSxySxSy(nSxxSx2)(nSyySy2)=0.9945

هذا المثال يوضح أن الحسابات المعقدة لن تتغلب علي استخدام البيانات المعدة بشكل سيئ. الأطوال أعطت بالبوصة وقد تم تحويلها لأقرب سنتيمتر. ولأن معامل التحويل هو 2.54 فهذا تحويل غير صحيح لأن البوصة الأصلية يمكن استردادها بحوالي (x/0.0254) ومن ثم إعادة تحويلها لمتر. إذا فعلت ذلك تصبح النتئج:

β^=61.6746,α^=39.7468.

و بالتالي اختلاف صغير في البيانات لديه تأثير حقيقي

الاشتقاق من متغيرات الانحدار الخطي

نحن نبحث عن α^,β^ التي تقلل مجموع مربع الخطأ، minα^,β^SSE(α^,β^) التي تعرف كالتالي SSE(α^,β^)=i=1n(yiα^β^xi)2

لايجاد الأقل نقوم بالاشتقاق الجزئي بالنسبة ل α^ و β^

SSE(α^,β^)α^=2i=1n(yiα^β^xi)=0
i=1n(yiα^β^xi)=0
i=1nyi=i=1nα^+β^i=1nxi

بضرب الطرفين في 1n

1ni=1nyi=α^1ni=1n1+β^1ni=1nxi.

نحصل علي:

y¯=α^+β^x¯

قب الاشتقاق الجزئي بالنسبة ل β^ عوض بالنتيجة السابقة ل α^

minα^,β^i=1n(yi(y¯β^x¯)β^xi)2

minα^,β^i=1n[(yiy¯)β^(xix¯)]2

الآن، اشتق جزئيا بالنسبة ل β^:

SSE(α^,β^)β^=2i=1n[(yiy¯)β^(xix¯)](xix¯)=0

i=1n(yiy¯)(xix¯)β^i=1n(xix¯)2=0
β^=i=1n(yiy¯)(xix¯)i=1n(xix¯)2=Cov(x,y)Var(x)

و في النهاية عوض ب β^ لتحديد α^

α^=y¯β^x¯

مراجع

  1. ^ Lane، David M. Introduction to Statistics (PDF). ص. 462. مؤرشف من الأصل (PDF) في 2019-12-10.
  2. ^ "What is Simple Linear Regression?". Pennsylvania State University. مؤرشف من الأصل في 2018-12-19. اطلع عليه بتاريخ 2016-10-17.
  3. ^ "Statistical Sampling and Regression: Simple Linear Regression". Columbia University. مؤرشف من الأصل في 2017-12-11. اطلع عليه بتاريخ 2016-10-17. When one independent variable is used in a regression, it is called a simple regression;(...)