الذكاء الاصطناعي للمراقبة بالفيديو

يستخدم الذكاء الاصطناعي للمراقبة بالفيديو برامج الكمبيوتر التي تقوم بتحليل الصوت والصور من كاميرات المراقبة بالفيديو من أجل التعرف على البشر والمركبات والأشياء والأحداث. برنامج مقاولي الأمن هو برنامج لتحديد المناطق المحظورة داخل عرض الكاميرا (مثل منطقة مسيجة، موقف سيارات، ولكن ليس رصيفًا أو شارعًا عامًا خارج منطقة (قطعة أرض محددة)) وبرنامجًا لأوقات من اليوم (مثل بعد إغلاق النشاط التجاري) للممتلكات التي تحميها المراقبة بالكاميرا. يرسل الذكاء الاصطناعي A.I تنبيهًا إذا اكتشف وجود متسلل يكسر مجموعة «القاعدة» التي لا يسمح لأي شخص الدخول أو الوجود في تلك المنطقة خلال تلك الفترة من اليوم.

يعمل برنامج الذكاء الاصطناعي باستخدام رؤية الماكينة. رؤية الماكينة هي سلسلة من الخوارزميات (تسلسل محدود من التعليمات المحددة جيدًا والقابلة للتنفيذ بواسطة الكمبيوتر، عادةً لحل فئة من المشاكل أو لإجراء عملية حسابية)، أو الإجراءات الرياضية، والتي تعمل مثل مخطط التدفق أو سلسلة من الأسئلة لمقارنة الكائن الذي تمت رؤيته بمئات الآلاف من الصور المرجعية المخزنة للبشر في المواقف والزوايا والمواقف والحركات المختلفة. يسأل الذكاء الاصطناعي نفسه عما إذا كان الجسم المرصود يتحرك مثل الصور المرجعية، وما إذا كان تقريبًا نفس الحجم بالنسبة للعرض، وإذا كان لديه ذراعان مميزان وساقان، وإذا كان يتحرك بسرعة مماثلة، وإذا كان رأسيًا بدلاً من الأفقي. هناك العديد من الأسئلة الأخرى الممكنة، مثل درجة انعكاس الجسم، ودرجة ثباته أو اهتزازه، والسلاسة التي يتحرك بها. من خلال الجمع بين جميع القيم أو التقييمات من الأسئلة المختلفة، يتم اشتقاق ترتيب عام يعطي الذكاء الاصطناعي احتمالية أن يكون الكائن إنسانًا أو لا. إذا تجاوزت القيمة الحد المعين، يتم إرسال التنبيه. من سمات هذه البرامج أنها تتعلم ذاتيًا إلى حد ما، وتتعلم، على سبيل المثال أن البشر أو المركبات تظهر أكبر في أجزاء معينة من الصورة المراقبة -تلك المناطق القريبة من الكاميرا- من أجزاء أخرى، تلك هي المناطق الأبعد من الكاميرا.

بالإضافة إلى القاعدة البسيطة التي تقيد البشر أو المركبات من مناطق معينة في أوقات معينة من اليوم، يمكن تعيين قواعد أكثر تعقيدًا. قد يرغب مستخدم النظام في معرفة ما إذا كانت المركبات تسير في اتجاه واحد لا في الاتجاه الآخر. قد يرغب المستخدمون في معرفة أن هناك أكثر من عدد معين مسبقًا من الأشخاص داخل منطقة معينة. الذكاء الاصطناعي قادر على الحفاظ على مراقبة مئات الكاميرات في وقت واحد. إن قدرتها على اكتشاف المتعدي في المسافة (نقطة نائية) أو في المطر أو الوهج متفوقة على قدرة البشر على القيام بذلك.

يُعرف هذا النوع من الذكاء الاصطناعي للأمان باسم "rule-based" أي بمعنى الذكاء الاصطناعي القائم على القواعد لأنه يجب على المبرمج البشري وضع قواعد لجميع الأشياء التي يرغب المستخدم في أن يتم تنبيهها. هذا هو الشكل الأكثر انتشارًا من A.I للأمن. تتضمن العديد من أنظمة كاميرات المراقبة بالفيديو اليوم هذا النوع من قدرات (إمكانيات) الذكاء اصطناعي. يمكن وضع القرص الصلب الذي يحتوي على البرنامج في الكاميرات نفسها أو يمكن أن يكون في جهاز منفصل يتلقى الإدخال من الكاميرات.

هناك شكل أحدث من A.I. للأمن يسمى «التحليلات السلوكية» جرى تطويره. هذا البرنامج هو للتعلم الذاتي بالكامل بدون إدخال برمجة أولية من قبل المستخدم أو مقاول الأمان. في هذا النوع من التحليلات (اكتشاف وتفسير وتوصيل أنماط ذات مغزى في البيانات)، يتعلم الذكاء الاصطناعي ما هو السلوك الطبيعي للأشخاص والمركبات والآلات والبيئة بناءً على ملاحظته الخاصة لأنماط الخصائص المختلفة مثل الحجم والسرعة والانعكاس واللون والتجمع والرأس أو الاتجاه الأفقي وما إلى ذلك. يقوم الذكاء الاصطناعي بتطبيع البيانات المرئية، ما يعني أنها تصنف وتضع علامة على الأشياء والأنماط التي تلاحظها، وتبني تعريفات مصقولة باستمرار لما هو طبيعي أو متوسط السلوك لمختلف الكائنات المرصودة. بعد عدة أسابيع من التعلم بهذه الطريقة، يمكن التعرف على أو معرفة متى تكسر الأشياء النمط. عندما يلاحظ مثل هذه الحالات الشاذة يرسَل تنبيه. على سبيل المثال، من الطبيعي أن تسير السيارات في الشارع. إن السيارة التي تُرى وهي تقود على الرصيف ستكون حالة شاذة. إذا كانت ساحة مسيجة فارغة عادة في الليل، فإن الشخص الذي يدخل تلك المنطقة سيكون شذوذًا.

التاريخ

عرض للمشكلة

أدت القيود المفروضة على قدرة البشر على مراقبة اللقطات الحية للمراقبة بالفيديو بعناية إلى زيادة الطلب على الذكاء الاصطناعي الذي يمكن أن يخدم المهمة بشكل أفضل. يفقد البشر الذين يشاهدون شاشة فيديو واحدة لأكثر من عشرين دقيقة 95٪ من قدرتهم على الحفاظ على الانتباه الكافي لتمييز الأحداث المهمة.^[1] مع شاشتين، يجري تجاوز هذا بمقدار النصف.^[2] نظرًا إلى أن العديد من المرافق أو المنشأت بها عشرات أو حتى مئات الكاميرات، فمن الواضح أن المهمة تتجاوز القدرة البشرية. بشكل عام، فإن مشاهد الكاميرا للممرات الفارغة، ومرافق التخزين، مواقف السيارات أو الهياكل مملة للغاية، وبالتالي يتم تقليل الانتباه بسرعة. عندما تتم مراقبة كاميرات متعددة، وعادةً ما تستخدم شاشة حائط أو مجموعة من الشاشات ذات مناظر تقسيم الشاشة وتدور كل عدة ثوانٍ بين مجموعة من الكاميرات والأخرى، فإن الملل البصري يصبح سريعًا للغاية. في حين أن كاميرات المراقبة بالفيديو انتشرت بتبنٍّ كبير من قبل المستخدمين بدءًا من وكلاء السيارات وساحات التسوق إلى المدارس والشركات إلى المنشآت عالية الأمان مثل المصانع النووية، فقد تم الاعتراف بعد فوات الأوان بأن المراقبة بالفيديو من قبل الضباط البشريين (تسمى أيضًا «المشغلين») كانت غير عملية وغير فعالة. جرى إهمال أنظمة المراقبة بالفيديو المكثفة لمجرد التسجيل لاستخدام الطب الشرعي المحتمل لتحديد أو التعرف على شخص ما، بعد حادثة سرقة أو حرق أو هجوم أو حادث. حيث تم استخدام مناظر الكاميرا ذات الزاوية الواسعة، خاصة في المناطق الخارجية الكبيرة، تم اكتشاف قيود شديدة حتى لهذا الغرض بسبب عدم كفاية الدقة،^[3] وفي هذه الحالات من المستحيل تحديد المتعدي أو الجاني لأن صورهم تكون صغيرة جدًا على الشاشة.

محاولات سابقة للحل

كاميرات كشف الحركة

رداً على عيوب أو نقائص الحراس البشريين في أو لمراقبة شاشات المراقبة على المدى الطويل، كان الحل الأول هو إضافة أجهزة كشف الحركة إلى الكاميرات. كان من المنطقي أن حركة الدخيل أو الجاني سترسل تنبيهاً إلى ضابط المراقبة عن بعد لتجنب الحاجة إلى اليقظة البشرية المستمرة. كانت المشكلة أنه في البيئة الخارجية، هناك حركة مستمرة أو تغييرات في وحدات البكسل تتضمن إجمالي الصورة المعروضة على الشاشة. حركة الأوراق على الأشجار التي تهب في الريح، والقمامة على طول الأرض، والحشرات، والطيور، والكلاب، والظلال، والمصابيح الأمامية، وأشعة الشمس، وما إلى ذلك كلها تشكل الحركة. تسبب هذا في مئات أو حتى الآلاف من التنبيهات الكاذبة يوميًا، ما جعل هذا الحل غير قابل للتشغيل إلا في البيئات الداخلية خلال أوقات ساعات عدم التشغيل.

كشف حركة الفيديو المتقدم

قلل التطور التالي من التنبيهات الكاذبة إلى حد ما ولكن على حساب المعايرة اليدوية المعقدة والمستهلكة للوقت. الآن، تم الكشف عن تغييرات في هدف مثل شخص أو مركبة بالنسبة لخلفية ثابتة. عندما تتغير الخلفية موسمياً أو بسبب تغييرات أخرى، تتدهور الموثوقية (الدقة أو إمكانية التشغيل) بمرور الوقت. أثبتت اقتصاديات الرد على الكثير من التنبيهات الكاذبة مرة أخرى أنها عقبة وهذا الحل لم يكن كافيًا.

ظهور تحليلات الفيديو الحقيقية

يرتبط التعلم الآلي للتعرف البصري (في مجال رؤية الكمبيوتر لإيجاد وتحديد الأشياء في صورة أو تسلسل فيديو) بالأنماط وتصنيفها.^[4]^[5] يمكن لتحليلات الفيديو الحقيقية التمييز بين الشكل البشري والمركبات والقوارب أو الأشياء المحددة من الحركة العامة لجميع الكائنات الأخرى والثابتة المرئية أو التغييرات في وحدات البكسل على الشاشة.

يحدث ذلك من خلال التعرف على الأنماط عندما ينتهك أو يكسر شيء أو كائن مثير للاهتمام -على سبيل المثال الإنسان- قاعدة محددة مسبقًا، على سبيل المثال أن عدد الأشخاص يجب ألا يتجاوز الصفر في منطقة محددة مسبقًا خلال فترة زمنية محددة، ثم يتم إرسال تنبيه. عادةً ما يتبع المستطيل الأحمر أو ما يسمى «المربع المحيط» تلقائيًا الدخيل المكتشف تلقائيًا، ويتم إرسال مقطع فيديو قصير من هذا كتنبيه.

مراجع

^ Green, Mary W. (1999) The Appropriate and Effective Use of Security Technologies in U.S. Schools, A Guide for Schools and Law Enforcement Agencies, Sandia National Laboratories نسخة محفوظة 2017-03-29 على موقع واي باك مشين.
^ Sulman, N.; Sanocki, T.; Goldgof, D.; Kasturi, R., How effective is human video surveillance performance?, Pattern Recognition, ICPR 2008. 19th International Conference on, vol., no., pp.1,3, 8-11 Dec. 2008 نسخة محفوظة 2019-08-13 على موقع واي باك مشين.
^ Nuechterlein, K.H., Parasuraman, R., & Jiang, Q. (1983). Visual sustained attention: Image degradation produces rapid sensitivity decrement over time. Science, 220, 327-329 نسخة محفوظة 2020-09-11 على موقع واي باك مشين.
^ Pedro Domingos, The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World, September 22, 2015 Basic Books
^ Davies, E. R. (2012) Computer and Machine Vision, Fourth Edition: Theory, Algorithms, Practicalities Academic Press, Waltham Mass. نسخة محفوظة 2020-09-11 على موقع واي باك مشين.

[1] Green, Mary W. (1999) The Appropriate and Effective Use of Security Technologies in U.S. Schools, A Guide for Schools and Law Enforcement Agencies, Sandia National Laboratories نسخة محفوظة 2017-03-29 على موقع واي باك مشين.

[2] Sulman, N.; Sanocki, T.; Goldgof, D.; Kasturi, R., How effective is human video surveillance performance?, Pattern Recognition, ICPR 2008. 19th International Conference on, vol., no., pp.1,3, 8-11 Dec. 2008 نسخة محفوظة 2019-08-13 على موقع واي باك مشين.

[3] Nuechterlein, K.H., Parasuraman, R., & Jiang, Q. (1983). Visual sustained attention: Image degradation produces rapid sensitivity decrement over time. Science, 220, 327-329 نسخة محفوظة 2020-09-11 على موقع واي باك مشين.

[4] Pedro Domingos, The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World, September 22, 2015 Basic Books

[5] Davies, E. R. (2012) Computer and Machine Vision, Fourth Edition: Theory, Algorithms, Practicalities Academic Press, Waltham Mass. نسخة محفوظة 2020-09-11 على موقع واي باك مشين.

[1]

[2]

[3]

[4]

[5]