بيانات مصنفة

البيانات المعلمة وتسمة ايضا بالبيانات المصنفة هي مجموعة من العينات التي تم تمييزها بعلامة واحدة أو أكثر. عادةً ما يأخذ التصنيف مجموعة من البيانات غير المعلمة ويزيد كل جزء منها بعلامات إعلامية. على سبيل المثال ، قد تشير تسمية البيانات إلى ما إذا كانت الصورة تحتوي على حصان أو بقرة ، وما هي الكلمات التي تم نطقها في تسجيل صوتي ، ونوع الإجراء الذي يتم تنفيذه في مقطع فيديو ، وما هو موضوع المقالة الإخبارية ، أو ما إذا كانت النقطة في الأشعة السينية هي ورم.

يمكن تعليم البينانات (تصنيفها) من خلال مطالبة البشر بإصدار أحكام حول جزء معين من البيانات غير معلمة, يعد الحصول على البيانات المصنفة أكثر تكلفة بكثير من الحصول على البيانات الأولية الغير مصنفة.

حشد البيانات المصنفة

في عام 2006 ، شرع Fei-Fei Li ، المدير المشارك لمعهد ستانفورد للذكاء الاصطناعي، في تحسين نماذج وخوارزميات الذكاء الاصطناعي للتعرف على الصور من خلال توسيع بيانات التدريب بشكل كبير. قام الباحثون بتنزيل ملايين الصور من شبكة الويب العالمية وبدأ فريق من الطلاب الجامعيين في تصنيف كل صورة.

في عام 2007 ، استعان لي بمصادر خارجية لأعمال التصنيف على البيانات في Amazon Mechanical Turk ، وهو سوق عبر الإنترنت لعمل القطع الرقمية. شكلت الصور البالغ عددها 3.2 مليون والتي تم تصنيفها من قبل أكثر من 49000 عامل وفقا ل ImageNet ، وهي واحدة من أكبر قواعد البيانات المسمى مخطط التعرف على الأشياء يدويا . ^[1]

تصنيف البيانات الآلي

بعد الحصول على مجموعة بيانات معنونة ، يمكن تطبيق نماذج التعلم الآلي على البيانات بحيث يمكن تقديم بيانات جديدة غير مصنفة إلى النموذج الذي تم تدريبه على بيانات مصنفة وبذلك يقوم النموذج بتصنيفها آليا .

التحيز القائم على البيانات

خوارزمية صنع القرار ( decision-making ) الذي يدربه المبرمج على البيانات المعلمةالمنحازة. ستؤدي إلى نتائج منحازة وإغفالات في النموذج التنبؤي ، على الرغم من شرعية خوارزمية التعلم الآلي. يجب أن تكون البيانات المصنفة المستخدمة لتدريب خوارزمية معينة للتعلم الآلي عينة تمثيلية إحصائيًا غير منحازة النتائج. ^[2] نظرًا لأن البيانات المصنفة المتاحة لتدريب أنظمة التعرف على الوجه لم تكن ممثلة لمجموعة سكانية ، فإن المجموعات الممثلة تمثيلا ناقصًا في البيانات المصنفة غالبًا ما يتم تصنيفها بشكل خاطئ في وقت لاحق. في عام 2018 ، أظهرت دراسة أجراها Joy Buolamwini و Timnit Gebru أن مجموعتي بيانات تحليل الوجه اللتين تم استخدامهما لتدريب خوارزميات التعرف على الوجه ، IJB-A و Adience ، تتكونان من 79.6٪ و 86.2٪ من البشر ذوي البشرة الفاتحة على التوالي.

مصادر

^ Mary L. Gray؛ Siddharth Suri (2019). Ghost Work: How to Stop Silicon Valley from Building a New Global Underclass. Houghton Mifflin Harcourt. ص. 7. ISBN:9781328566287.
^ Xianhong Hu, Neupane, Bhanu, Echaiz, Lucia Flores, Sibal, Prateek, Rivera Lam, Macarena (2019). Steering AI and advanced ICTs for knowledge societies: a Rights, Openness, Access, and Multi-stakeholder Perspective. UNESCO Publishing. ص. 64. ISBN:9789231003639.

^[1]

^ Xianhong Hu, Neupane, Bhanu, Echaiz, Lucia Flores, Sibal, Prateek, Rivera Lam, Macarena (2019). Steering AI and advanced ICTs for knowledge societies: a Rights, Openness, Access, and Multi-stakeholder Perspective. UNESCO Publishing. ص. 66. ISBN:9789231003639.

[1] Mary L. Gray؛ Siddharth Suri (2019). Ghost Work: How to Stop Silicon Valley from Building a New Global Underclass. Houghton Mifflin Harcourt. ص. 7. ISBN:9781328566287.

[2] Xianhong Hu, Neupane, Bhanu, Echaiz, Lucia Flores, Sibal, Prateek, Rivera Lam, Macarena (2019). Steering AI and advanced ICTs for knowledge societies: a Rights, Openness, Access, and Multi-stakeholder Perspective. UNESCO Publishing. ص. 64. ISBN:9789231003639.

[3] Xianhong Hu, Neupane, Bhanu, Echaiz, Lucia Flores, Sibal, Prateek, Rivera Lam, Macarena (2019). Steering AI and advanced ICTs for knowledge societies: a Rights, Openness, Access, and Multi-stakeholder Perspective. UNESCO Publishing. ص. 66. ISBN:9789231003639.

[1]

[2]

[1]

بيانات مصنفة

محتويات

حشد البيانات المصنفة

تصنيف البيانات الآلي

التحيز القائم على البيانات

مصادر

قائمة التصفح

بيانات مصنفة

حشد البيانات المصنفة

تصنيف البيانات الآلي

التحيز القائم على البيانات

مصادر

قائمة التصفح

بحث