هذه المقالة يتيمة. ساعد بإضافة وصلة إليها في مقالة متعلقة بها
يرجى مراجعة هذه المقالة وإزالة وسم المقالات غير المراجعة، ووسمها بوسوم الصيانة المناسبة.

تقليل الأبعاد غير الخطية

من أرابيكا، الموسوعة الحرة
اذهب إلى التنقل اذهب إلى البحث

قد يكون من الصعب تفسير البيانات متعددة الأبعاد، وهي البيانات التي تتطلب أكثر من بعدين أو ثلاثة أبعاد لتمثيلها. تتمثل إحدى طرق تمثيلها في افتراض أن البيانات ذات الأهمية تكمن في مساحة أقل بُعدًا. إذا كانت البيانات ذات الأهمية منخفضة بشكل كافٍ، فيمكن تصور البيانات في الفضاء ذي الأبعاد المنخفضة.

فيما يلي ملخص لبعض الطرق المعروفة لتقليل الأبعاد غير الخطية.[1] ترتبط العديد من طرق تقليل الأبعاد غير الخطية  بالطرق الخطية التالية. حيث يمكن تصنيف الطرق غير الخطية على نطاق واسع إلى مجموعتين: تلك التي توفر تخطيطًا (إما من الفضاء عالي الأبعاد إلى التضمين منخفض الأبعاد أو العكس)، وتلك التي تعطي تصورًا فقط للأبعاد.[2]

طرق التحليل الخطي

  • تحليل المكونات المستقلة (ICA)
  • تحليل المكون الرئيسي (PCA)
  • تحلل القيمة المفردة (SVD)
  • تحليل العامل

تطبيقات

ضع في اعتبارك مجموعة بيانات ممثلة كمصفوفة أو كجدول قاعدة بيانات، بحيث يمثل كل صف مجموعة من السمات المحددة أو الأبعاد التي تصف مثيلًا معينًا لشيء معين. إذا كان عدد السمات كبيرًا، فإن مساحة الصفوف كبيرة. وبالتالي، كلما زادت الأبعاد، زادت صعوبة أخذ عينات من الفضاء. هذا يسبب العديد من المشاكل. تميل الخوارزميات التي تعمل على بيانات عالية الأبعاد يسبب التعقيد ووقت كثير للغاية. العديد من خوارزميات التعلم الآلي، على سبيل المثال، تعارض مع البيانات عالية الأبعاد. غالبًا ما يؤدي تقليل البيانات إلى أبعاد أقل إلى جعل خوارزميات التحليل أكثر كفاءة، ويمكن أن يساعد خوارزميات التعلم الآلي في إجراء تنبؤات أكثر دقة.[3]

رسم النقاط ثنائية الأبعاد الناتجة عن استخدام خوارزمية تقليل الأبعاد غير الخطية

غالبًا ما يواجه البشر صعوبة في فهم البيانات ذات الأبعاد العالية. وبالتالي، فإن تقليل البيانات إلى عدد صغير من الأبعاد مفيد للفهم.

غالبًا ما يشار إلى تمثيلات البيانات ذات الأبعاد المختصرة باسم «المتغيرات الجوهرية». يشير هذا الوصف إلى أن هذه هي القيم التي تم إنتاج جميع البيانات منها. على سبيل المثال، ضع في اعتبارك مجموعة بيانات تحتوي على صور للحرف (A)، والذي تم تحجيمه وتدويره بمقادير متفاوتة. تحتوي كل صورة على 32 × 32 بكسل يمكن تمثيل كل صورة كمتجه من قيم 1024 بكسل. كل صف عبارة عن عينة على مشعب ثنائي الأبعاد في مساحة 1024 بُعدًا. الأبعاد الجوهرية هي اثنان، لأن المتغيرين هما (الدوران والمقياس) تم تنويعهما من أجل إنتاج هذه البيانات. المعلومات حول شكل أو مظهر الحرف (A) ليست جزءًا من المتغيرات الجوهرية لأنها هي نفسها في كل حالة. سيؤدي تقليل الأبعاد غير الخطية إلى تجاهل المعلومات المرتبطة بشكل الحرف (A) واسترداد المعلومات المتغيرة فقط (الدوران والمقياس). تُظهر الصورة الموجودة على اليمين صورًا نموذجية من مجموعة البيانات هذه لتوفير مساحة.

بالمقارنة، إذا تم استخدام تحليل المكون الرئيسي، وهو خوارزمية لتقليل الأبعاد الخطية، لتقليل مجموعة البيانات نفسها إلى بُعدين،[4]فإن القيم الناتجة ليست منظمة بشكل جيد كما في الطرق غير الخطية.

المراجع

  1. ^ Lawrence، Neil D. (2012). "A Unifying Probabilistic Perspective for Spectral Dimensionality Reduction: Insights and New Models". Journal of Machine Learning Research. ج. 13 ع. 51: 1609–1638. ISSN:1533-7928. مؤرشف من الأصل في 2020-10-29.
  2. ^ "PCA, SOM and GSOM". www.math.le.ac.uk. مؤرشف من الأصل في 2021-04-15. اطلع عليه بتاريخ 2021-10-07.
  3. ^ "Download Limit Exceeded". citeseerx.ist.psu.edu. مؤرشف من الأصل في 2021-01-31. اطلع عليه بتاريخ 2021-10-07.
  4. ^ Donoho، David L.؛ Grimes، Carrie (13 مايو 2003). "Hessian eigenmaps: Locally linear embedding techniques for high-dimensional data". Proceedings of the National Academy of Sciences of the United States of America. ج. 100 ع. 10: 5591–5596. DOI:10.1073/pnas.1031596100. ISSN:0027-8424. PMID:16576753. مؤرشف من الأصل في 2021-08-11.