حكم مقارن تكيفي

الحكم المقارن التكيفي هو تقنية مستعارة من الفيزياء النفسية، قادرة على توليد نتائج موثوقة للتقييم التعليمي -وبالتالي فهو بديل عن وضع العلامات في الامتحانات التقليدية. في هذا النهج، يُقدّم للحُكّام أزواجًا من عمل الطلاب ثم يُطلَب منهم اختيار أيّهما أفضل من الآخر. عن طريق خوارزمية تكرارية وقابلة للتكيف، يمكن بعد ذلك الحصول على توزيع متدرّج لعمل الطالب دون الرجوع إلى معايير.

مقدمة

بدأ وضع العلامات التقليدي للامتحانات في كامبريدج عام 1792 عندما كانت أعداد الطلاب الجامعيين في تزايد، إذ ازدادت أهمية إيجاد ترتيب مناسب للطلاب. لذا في عام 1792، قدم وليام فاريش، مُشرف الاختبارات الجديد، عملية وضع العلامات، وهي عملية يعطي فيها كل فاحص درجة عددية لكل إجابةٍ من قبل كل طالب، ويُوضع الطلاب في ترتيب نهائي بناءً على العلامة الإجمالية. لاحظ فرانسيس غالتون (1869) في نحو عام 1863، أن مرتبة السينيور رانجلر أحرزت 7,634 من أصل 17,000 كحد أقصى، بينما أحرزت الرانجلر الثاني 4,123 (وأحرزت »الوودن سبوون« 237 فقط).

قبل عام 1792، اجتمع فريق من الفاحصين في كامبريدج في الساعة الخامسة مساءً في اليوم الأخير من الامتحان، وقاموا بمراجعة الأوراق الـ 19 التي وضعها كل طالب –ونشروا ترتيبهم في منتصف الليل. حلّ وضع العلامات مشاكل الأعداد المتزايدة من الطلاب ومنع التحيز الشخصي غير العادل من قبل الفاحصين، وكان إدخاله خطوة نحو اختبار موضوعي حديث، بالشكل الأنسب له. ولكن تكنولوجيا الاختبار التي تلت ذلك، بتركيزها بشكل كبير على الموثوقية وأتمتة العلامات، كانت شريكًا غير مريح لبعض مجالات التحصيل التعليمي: يحتاج تقييم الكتابة أو التحدث وأنواع الأداء الأخرى إلى شيء أكثر نوعيةً وتحكيمًا.

تقنية الحكم المقارن التكيفي هي بديل عن وضع العلامات. وهي تعود إلى فكرة ما قبل عام 1792 حول فرز الأوراق وفقًا لجودتها، لكنها تحتفظ بضمان الموثوقية والإنصاف. وتعتبر الطريقة الأكثر موثوقية لتقييم المقالات أو العروض الأكثر تعقيدًا. وهي أيضًا أبسط بكثير من وضع العلامات، وقد فضلها جميع الفاحصين الذين جربوها. تكمن الجاذبية الحقيقية للحكم المقارن التكيفي في كيفية إعادة استخدام الاحترافية في نشاط التقييم وإعادة دمج التقييم مع التعلم.

تاريخ

قانون ثورستون للحكم المقارن

«لا وجود للحكم المطلق» –ليمنغ (2004)

بدأ علم الحكم المقارن مع لويس ليون ثورستون، رائدُ الفيزياء النفسية من جامعة شيكاغو. إذ اقترح عدة طرق لبناء مقاييس لقياس الإحساس وغيرها من الخصائص النفسية. كان أحدها قانون الحكم المقارن (ثورستون، 1927إيه، 1927بي)، الذي حدد طريقة رياضية لنمذجة فرصة أن «يهزم» شخص ما الشخص الآخر في مقارنة، مع إعطاء قيم لـ «جودة» كل واحد منهما. هذا كل ما هو مطلوب لبناء نظام قياس كامل.^[1]^[2]

يوضّح تباين في نموذجه (انظر مقارنة بّيروايز ونموذج بي تي إل) أن الفرق بين قيم جودتهما يساوي لوغاريثم احتمالات تغلب الشخص A على الشخص B.

قبل توفر أجهزة الكمبيوتر الحديثة، كانت الرياضيات اللازمة لحساب «قيم» جودة كل شخص تعني أنه لا يمكن استخدام الطريقة إلا مع مجموعات صغيرة من الأشخاص، وكان تطبيقها محدودًا. بالنسبة إلى ثورستون، كانت العناصر المدروسة عمومًا عبارة عن أحاسيس، مثل الشدة أو المواقف كخطورة الجرائم أو الآراء. واصل الباحثون الاجتماعيون استخدام هذه الطريقة، كما فعل الباحثون التسويقيون الذين قد تكون العناصر المدروسة لديهم تخطيطات مختلفة لغرف الفنادق أو أشكال مختلفة لمقترح بسكويت جديد.

في السبعينيات والثمانينيات من القرن العشرين، ظهر الحكم المقارن لأول مرة تقريبًا في التقييم التعليمي، كأساس نظري أو سلف لنظريات الصفات الكامنة أو عناصر الإجابة (أندريش، 1978). أصبحت هذه أصبحت الآن معاييرًا، خاصةً في الأنظمة البنكية والاختبارات التكيّفية.

إعادة إدخاله في التعليم

كانت أول ورقة منشورة تستخدم الحكم المقارن في التعليم هي لبوليت وموراي (1994)، وهي في الأساس ورقة بحثية تتعلق بطبيعة مقياس الكفاءة في اللغة الإنجليزية التي قُيّمت في جزء المحادثة لامتحان «سي بّي إي» في كامبريدج. كانت العناصر المدروسة هي المرشّحين للاختبار، ويمثّلهم مقتطفات مدتها دقيقتين من تسجيلات فيديو لجلسات اختبارهم، وكان الحكام من طلاب الدراسات العليا المختصّين في علم اللغويات دون تدريب مسبق على عملية التقييم. قارن الحكّام بين أزواج من مقاطع الفيديو، إذ قاموا ببساطة بالإبلاغ عن رأيهم حول الطالب الأفضل، ثم قُوبلوا واقعيًا لتوضيح أسباب قراراتهم.

بعد ذلك، قدم بوليت الحكم المقارن إلى اللجان المانحة في المملكة المتحدة، بمثابة طريقة لمقارنة معايير المستوى «إيه» في لجان مختلفة. استبدل الحكم المقارن طريقتهم الحالية التي تتطلب الحكم المباشر للنص باستخدام معيار رسمي للجنة ما. خلال أول سنتين أو ثلاث سنوات من هذا، نفذ بوليت جميع التحليلات لجميع اللجان، وذلك باستخدام برنامج كان قد كُتب لهذا الغرض. أصبح الحكم المقارن على الفور الطريقة التجريبية الوحيدة المستخدمة للتحقيق في مقارنة الامتحانات في المملكة المتحدة؛ التطبيقات لهذا الغرض من 1996 إلى 2006 موصوفة بالكامل في براملي (2007).^[3]

في عام 2004، قدم بوليت ورقة في مؤتمر الرابطة الدولية للتقييم التعليمي بعنوان «دعونا نتوقف عن وضع العلامات الاختبارية»، وآخر في نفس المؤتمر في عام 2009 بعنوان «إلغاء العلامات». كان الهدف من كل ورقة هو إقناع مجتمع التقييم بوجود مزايا هامة لاستخدام الحكم المقارن بدلاً من وضع العلامات على بعض أنواع التقييم. في عام 2010، قدم ورقة في جمعية التقييم التعليمي في أوروبا بعنوان «كيفية تقييم الكتابة بطريقة موثوقة وصحيحة»، والتي قدمت دليلاً على الموثوقية العالية للغاية المحققة باستخدام الحكم المقارن في تقييم مهارة تلاميذ المدارس الابتدائية في الكتابة باللغة الأم الإنجليزية.

الحكم المقارن التكيفي

يصبح الحكم المقارن كبديل لوضع العلامات قابلاً للتطبيق عندما يُنفّذ كنظام تقييم معتمِد على الويب. وفيه يُعاد تقدير «الدرجات» (معامل التغيير النموذجي لكل عنصر) بعد كل «جولة» من التحكيم والتي، في المتوسط، يُقيّم كل عنصر فيها مرة أخرى. في الجولة التالية، يُقارن كل نص فقط بنموذج آخر مشابه بالدرجة الُمقدّرة، مما يزيد من كمية المعلومات الإحصائية الموجودة في كل تقييم. نتيجة لذلك، تكون عملية التقدير أكثر كفاءة من الاقتران العشوائي أو أي نظام اقتران محدد مسبقًا، مثل تلك المستخدمة في تطبيقات الحكم المقارن الكلاسيكية (بوليت، 2012).^[4]

كما هو الحال مع الاختبار المعتمد على الكمبيوتر، فإن هذه القدرة على التكيف تزيد من فعالية عملية التقييم، مما يزيد التباعد بين الدرجات ويقلل من الأخطاء القياسية. الميزة الأكثر وضوحًا هي ما ينتج عنه من دقّة معززة بشكل كبير، مقارنة بالتقييم عبر وضع علامة، دون فقدان صحة المعلومات.

وبخصوص ما إذا كان الحكم المقارن التكيفي يزيد الموثوقية حقًا، فهو أمر غير مؤكد. (براملي، فيتيلو، 2016).^[5]

مراجع

^ Thurstone, L L (1927a). Psychophysical analysis. American Journal of Psychology, 38, 368-389. Chapter 2 in Thurstone, L.L. (1959). The measurement of values. University of Chicago Press, Chicago, Illinois.
^ Thurstone, L L (1927b). The method of paired comparisons for social values. Journal of Abnormal and Social Psychology, 21, 384-400. Chapter 7 in Thurstone, L.L. (1959). The measurement of values. University of Chicago Press, Chicago, Illinois
^ Bramley, T (2007) Paired comparison methods. In Newton, P, Baird, J, Patrick, H, Goldstein, H, Timms, P and Wood, A (Eds). Techniques for monitoring the comparability of examination standards. London, QCA.
^ Pollitt, A (2012) The method of Adaptive Comparative Judgement. Assessment in Education: Principles, Policy & Practice. 19: 3, 1-20. DOI:10.1080/0969594X.2012.665354
^ Bramley, T and Vitello, S (2016) The effect of adaptivity on the reliability coefficient in adaptive comparative judgement. Assessment in Education: Principles, Policy & Practice. 26: 1, 43-58. DOI:10.1080/0969594X.2017.1418734

بوابة علم النفس

[1] Thurstone, L L (1927a). Psychophysical analysis. American Journal of Psychology, 38, 368-389. Chapter 2 in Thurstone, L.L. (1959). The measurement of values. University of Chicago Press, Chicago, Illinois.

[2] Thurstone, L L (1927b). The method of paired comparisons for social values. Journal of Abnormal and Social Psychology, 21, 384-400. Chapter 7 in Thurstone, L.L. (1959). The measurement of values. University of Chicago Press, Chicago, Illinois

[3] Bramley, T (2007) Paired comparison methods. In Newton, P, Baird, J, Patrick, H, Goldstein, H, Timms, P and Wood, A (Eds). Techniques for monitoring the comparability of examination standards. London, QCA.

[p2012-4] Pollitt, A (2012) The method of Adaptive Comparative Judgement. Assessment in Education: Principles, Policy & Practice. 19: 3, 1-20. DOI:10.1080/0969594X.2012.665354

[p2016-5] Bramley, T and Vitello, S (2016) The effect of adaptivity on the reliability coefficient in adaptive comparative judgement. Assessment in Education: Principles, Policy & Practice. 26: 1, 43-58. DOI:10.1080/0969594X.2017.1418734

[1]

[2]

[3]

[4]

[5]