تخفيض الأبعاد
يفتقر محتوى هذه المقالة إلى الاستشهاد بمصادر. (يناير 2022) |
في الإحصاء، والتعلم الآلي، ونظرية المعلومات فإن تخفيض الأبعاد أو تقليل الأبعاد هو عملية تقليل عدد المتغيرات العشوائية تحت ظروف.عن طريق الحصول على مجموعة من المتغيرات الرئيسية. يمكن تقسيم المناهج إلى اختيار الخصائص واستخراج الخصائص
اختيار ميزة
تحاول أساليب تحديد الميزات العثور على مجموعة فرعية من متغيرات الإدخال (وتسمى أيضًا الميزات أو السمات). الاستراتيجيات الثلاثة هي: إستراتيجية التصفية (مثل الحصول على المعلومات)، واستراتيجية المجمع (مثل البحث مع الاسترشاد بالدقة)، والاستراتيجية المضمنة (تضاف الميزات المحددة أو تتم إزالتها أثناء إنشاء النموذج استنادًا إلى أخطاء التنبؤ).
ميزة الإسقاط
يحول إسقاط الميزة (يُسمى أيضًا استخراج المعالم) البيانات في الفضاء ذي الأبعاد العالية إلى مساحة ذات أبعاد أقل. قد يكون تحويل البيانات خطيًا، كما هو الحال في تحليل المكون الرئيسي (PCA)، ولكن توجد أيضًا العديد من تقنيات تقليل الأبعاد غير الخطية. بالنسبة للبيانات متعددة الأبعاد، يمكن استخدام تمثيل الموتر في تقليل الأبعاد من خلال تعلم الفضاء الفرعي متعدد الخطوط.
تحليل المكون الرئيسي (PCA)
تقوم التقنية الخطية الرئيسية لتخفيض الأبعاد، وهي التحليل الأساسي للمكونات، بإجراء تعيين خطي للبيانات إلى حيز ذي أبعاد أقل بحيث يتم تعظيم تباين البيانات في التمثيل المنخفض الأبعاد. في الممارسة العملية، يتم إنشاء مصفوفة التغاير (وأحيانًا الارتباط) للبيانات ويتم حساب المتجهات الذاتية في هذه المصفوفة. يمكن الآن استخدام المفاعلات الذاتية التي تتوافق مع أكبر القيم الذاتية (المكونات الرئيسية) لإعادة بناء جزء كبير من تباين البيانات الأصلية. علاوة على ذلك، غالبًا ما يمكن تفسير المحفزات القليلة الأولى من حيث السلوك المادي على نطاق واسع للنظام، لأنها تساهم غالبًا في الغالبية العظمى من طاقة النظام، وخاصة في الأنظمة منخفضة الأبعاد. ومع ذلك، يجب إثبات ذلك على أساس كل حالة على حدة، حيث لا تظهر جميع الأنظمة هذا السلوك. تم تقليل المساحة الأصلية (مع بُعد عدد النقاط) (مع فقد البيانات، ولكن نأمل الاحتفاظ بالتباين الأكثر أهمية) إلى المساحة التي يمتد بها عدد قليل من المتجهات الذاتية.
عامل المصفوفة غير السلبية (NMF)
تحلل NMF مصفوفة غير سالبة لمنتجين غير سلبيين، والتي كانت أداة واعدة في المجالات التي توجد فيها فقط إشارات غير سلبية.مثل علم الفلك. NMF معروف جيدًا منذ قاعدة التحديث المضاعف من قِبل Lee & Seung، والتي تم تطويرها بشكل مستمر: إدراج أوجه عدم اليقين، والنظر في البيانات المفقودة والحساب الموازي، والبناء المتسلسل الذي يؤدي لاستقرار وخطي NMF ، وكذلك التحديثات الأخرى.
مع أساس ثابت للمكون أثناء البناء، وعملية النمذجة الخطية، فإن NMF التسلسلي قادر على الحفاظ على التدفق في التصوير المباشر للهياكل المحيطة بالقمر في علم الفلك، كواحدة من طرق اكتشاف الكواكب الخارجية، خاصة بالنسبة للكتلة المباشرة التصوير من الاقراص النجميه الدوارة. بالمقارنة مع PCA ، لا يزيل NMF متوسط المصفوفات مما يؤدي إلى تدفقات غير سلبية غير مادية، وبالتالي فإن NMF قادر على الحفاظ على مزيد من المعلومات أكثر من PCA كما هو موضح من قبل Ren et al .
نواة PCA
يمكن استخدام تحليل المكون الرئيسي بطريقة غير خطية عن طريق خدعة kernel . التقنية الناتجة قادرة على إنشاء تعيينات غير خطية تعمل على زيادة التباين في البيانات. التقنية الناتجة بعنوان kernel PCA .
الرسم البياني القائم على النواة PCA
تشمل التقنيات الأخرى غير الخطية البارزة تقنيات التعلم المتعددة مثل Isomap ، والتضمين الخطي محليًا (LLE)، و Hessian LLE ، و eigenmaps لصور الجينات، وأساليب تعتمد على تحليل مساحة الظل. تقوم هذه التقنيات بإنشاء تمثيل بيانات منخفض الأبعاد باستخدام دالة تكلفة تحتفظ بالخصائص المحلية للبيانات، ويمكن عرضها على أنها تعريف kernel المستندة إلى الرسم البياني لـ Kernel PCA.
في الآونة الأخيرة، تم اقتراح تقنيات، بدلاً من تحديد نواة ثابتة، حاول أن تتعلم النواة باستخدام البرمجة شبه النهائية. وأبرز مثال على هذه التقنية هو التباين الأقصى الذي يتكشف (MVU). الفكرة الأساسية لـ MVU هي الحفاظ على جميع المسافات الزوجية بين أقرب الجيران (في مساحة المنتج الداخلية)، مع زيادة المسافات بين النقاط التي ليست أقرب جيران.
يتمثل النهج البديل للحفاظ على الحي في تقليل دالة التكلفة التي تقيس المسافات بين مسافات المدخلات والمخرجات. ومن الأمثلة المهمة لهذه التقنيات ما يلي: القياس الكلاسيكي متعدد الأبعاد، والذي يماثل PCA ؛ Isomap ، الذي يستخدم المسافات الجيوديسية في مساحة البيانات؛ خرائط النشر، التي تستخدم مسافات الانتشار في مساحة البيانات؛ تضمين الجار العشوائي t الموزع (t-SNE)، والذي يقلل من الاختلاف بين التوزيعات على أزواج من النقاط؛ والتحليل الخطي للمكون.
هناك طريقة مختلفة للحد من الأبعاد غير الخطية من خلال استخدام أجهزة التشفير التلقائي، وهو نوع خاص من الشبكات العصبية ذات التغذية التلقائية مع طبقة مخفية عنق الزجاجة. عادة ما يتم تنفيذ برامج التشفير العميقة باستخدام التدريب المسبق الجشع للطبقة الحكيمة (على سبيل المثال، باستخدام كومة من آلات Boltzmann المقيدة) التي تليها مرحلة التجهيز النهائي القائمة على التعرية الخلفية.
تحليل التمييز الخطي (LDA)
يعد التحليل التمييزي الخطي (LDA) تعميمًا لمميّز فيشر الخطي، وهي طريقة مستخدمة في الإحصاء والتعرف على الأنماط والتعلم الآلي لإيجاد مزيج خطي من الميزات التي تميز أو تفصل بين فئتين أو أكثر من الكائنات أو الأحداث.
التحليل التمييزي المعمم (GDA)
تتعامل GDA مع التحليل التمييزي غير الخطي باستخدام مشغل دالة kernel. النظرية الأساسية قريبة من آلات ناقلات الدعم (SVM) بقدر ما توفر طريقة GDA تعيينًا لمتجهات الإدخال في مساحة الميزة عالية الأبعاد.على غرار LDA ، يتمثل هدف GDA في العثور على إسقاط للميزات في مساحة أقل بعدًا عن طريق زيادة نسبة الانتثار بين الطبقة إلى الانتثار داخل الطبقة.
Autoencoder
يمكن استخدام برامج الترميز التلقائي لتعلم وظائف وترميزات الحد من الأبعاد غير الخطية مع وظيفة عكسية من الترميز إلى التمثيل الأصلي.
t-SNE
إن تضمين Stochastic Neighbor Embedding (t-SNE) هو تقنية لتقليل الأبعاد غير الخطية المفيدة لتصور مجموعات البيانات عالية الأبعاد.
UMAP
التقريب الموحد المتشعب والإسقاط (UMAP) هو أسلوب لتقليل الأبعاد غير الخطية. مرئيًا، يشبه t-SNE ، لكنه يفترض أن البيانات موزعة بشكل موحد على مشعب ريمانيان متصلاً محليًا وأن مقياس ريمانيان ثابت محليًا أو ثابت محليًا تقريبًا.
الحد من البعد
بالنسبة إلى مجموعات البيانات عالية الأبعاد (أي بعدد أبعاد يزيد عن 10)، يتم إجراء تقليل الأبعاد عادة قبل تطبيق خوارزمية جيران أقرب (K-NN) لتفادي تأثيرات لعنة الأبعاد.
يمكن الجمع بين استخراج المعالم وتقليل الأبعاد في خطوة واحدة باستخدام تحليل المكون الرئيسي (PCA)، أو التحليل التمييزي الخطي (LDA)، أو تحليل الارتباط الكنسي (CCA)، أو معاملات المصفوفة غير السلبية (NMF) كخطوة ما قبل المعالجة المتبعة عن طريق التجميع بواسطة K-NN على متجهات الميزة في مساحة البعد المنخفض. في التعلم الآلي ، تسمى هذه العملية أيضًا التضمين المنخفض الأبعاد.
بالنسبة إلى مجموعات البيانات عالية الأبعاد للغاية (على سبيل المثال، عند إجراء بحث عن التشابه على دفق الفيديو المباشر أو بيانات الحمض النووي أو السلاسل الزمنية عالية الأبعاد) التي تدير بحثًا تقريبيًا سريعًا K-NN باستخدام التجزئة الحساس للمنطقة، الإسقاط العشوائي، «اسكتشات» أو غيرها من تقنيات البحث التشابه عالية الأبعاد من مربع الأدوات VLDB قد يكون الخيار الوحيد الممكن.
مزايا تخفيض الأبعاد
- فهو يقلل من الوقت ومساحة التخزين المطلوبة.
- تعمل إزالة الخطية المتعددة على تحسين تفسير نماذج نموذج التعلم الآلي.
- يصبح من الأسهل تصور البيانات عند تصغيرها إلى أبعاد منخفضة للغاية مثل الأبعاد الثنائية أو الثلاثية الأبعاد.
- إنه يتجنب لعنة الأبعاد.
تطبيقات
تقنية الحد من الأبعاد التي يتم استخدامها في بعض الأحيان في علم الأعصاب هي أبعاد غنية بالمعلومات،[بحاجة لمصدر] الذي يجد تمثيلًا أقل بُعدًا لمجموعة البيانات بحيث يتم الاحتفاظ بأكبر قدر ممكن من المعلومات حول البيانات الأصلية.