هذه المقالة يتيمة. ساعد بإضافة وصلة إليها في مقالة متعلقة بها

مسافة جارو وينكلر

من أرابيكا، الموسوعة الحرة
اذهب إلى التنقل اذهب إلى البحث

في علم الحاسوب والإحصاءات، فإن مسافة جارو وينكلر هي مقياس سلسلة يقيس مسافة التعديل بين سلسلتين. هو البديل الذي اقترحه في عام 1990 من قبل وليام إي وينكلر من مقياس مسافة جارو (1989، ماثيو أ. جارو).

تستخدم مسافة جارو وينكلر مقياس البادئة p الذي يعطي تقييمات أكثر ملاءمة للسلاسل التي تتطابق منذ البداية مع طول البادئة المحدد .

كلما قلت المسافة بين جارو وينكلر عن السلسلتين، كلما كانت الخيوط أكثر تشابهًا. يتم تطبيع النتيجة بحيث يعني 0 تطابقًا تامًا و1 يعني عدم وجود تشابه. تشابه جارو وينكلر هو الانعكاس، (1 - مسافة جارو وينكلر).

على الرغم من أنه غالبًا ما يشار إليه بمقياس دالة المسافة، فإن مسافة جارو وينكلر ليست مقياسًا بالمعنى الرياضي لهذا المصطلح لأنها لا تطيع متباينة المثلث.

تعريف

تشابه جارو

تشابه جارو simj من سلسلتين s1 وs2 يكون

simj={0m=0(m|s1|+m|s2|+mtm)

حيث:

  • |si| هو طول السلسلة si.
  • m هو عدد الأحرف المطابقة (انظر أدناه).
  • t هو نصف عدد عمليات النقل (انظر أدناه).

حرفان من s1 وs2 على التوالي، تعتبر مطابقة فقط إذا كانت متطابقة وليست بعيدة عن max(|s1|,|s2|)21 الأحرف بصرف النظر.

كل حرف s1 مقارنة مع جميع الحروف المطابقة في s2. عدد الأحرف المطابقة (ولكن ترتيب تسلسل مختلف) مقسومًا على 2 يحدد عدد عمليات النقل. على سبيل المثال، عند مقارنة CRATE بـ TRACE، فقط الأحرف "R" "A" "E" هي الأحرف المتطابقة، أي m = 3. على الرغم من ظهور "C" "T" في كلا السلسلتين، إلا أنهما أبعد من 1 (نتيجة 521). لذلك، t = 0. في DwAyNE مقابل DuANE، تكون الحروف المطابقة بالفعل بنفس الترتيب D-A-N-E، لذلك لا حاجة إلى عمليات تبديل.

التشابه بين جارو وينكلر

يستخدم تشابه جارو وينكلر مقياس البادئة p الذي يعطي تقييمات أكثر ملاءمة للسلاسل التي تتطابق من البداية لطول بادئة محدد . نظرا لسلسلتين s1 وs2، تشابههم بين جارو وينكلر simw يكون:

simw=simj+p(1simj),

حيث:

  • simj  هو تشابه جارو للسلاسل s1  وs2.
  • هو طول البادئة الشائعة في بداية السلسلة بحد أقصى أربعة أحرف.
  • p هو عامل تحجيم ثابت لمدى تعديل النتيجة لأعلى للحصول على بادئات مشتركة. p  يجب ألا يتجاوز 0.25، وإلا يمكن أن يصبح التشابه أكبر من 1. القيمة القياسية لهذا الثابت في عمل وينكلر هي p=0.1.

مسافة جارو وينكلر dw  تعرف بdw=1simw.

على الرغم من أنه غالبًا ما يشار إليه بمقياس المسافة، فإن مسافة جارو وينكلر ليست مقياسًا بالمعنى الرياضي لهذا المصطلح لأنها لا تطيع متباينة المثلث.[1] كما أن مسافة جارو وينكلر لا ترضي بديهية الهوية d(x,y)=0x=y.

العلاقة مع مقاييس مسافة التعديل الأخرى

هناك مقاييس شائعة أخرى لمسافة التعديل، والتي يتم حسابها باستخدام مجموعة مختلفة من عمليات التحرير المسموح بها. على سبيل المثال:

  • تسمح مسافة ليفينشتين بالحذف والإدخال والاستبدال.
  • تسمح مسافة Damerau-Levenshtein بالإدخال والحذف والاستبدال ونقل حرفين متجاورين.
  • أطول تسلسل مشترك (LCS) تسمح فقط بالإدخال والحذف، وليس الاستبدال.
  • تسمح مسافة هامينج بالاستبدال فقط، وبالتالي، فهي لا تنطبق إلا على سلاسل بنفس الطول.

عادة ما يتم تعريف مسافة التعديل كمقياس قابل للمعلمة محسوب مع مجموعة محددة من عمليات التنعديل المسموح بها، ويتم تعيين تكلفة لكل عملية (ربما لا نهائية). يتم تعميم هذا أيضًا عن طريق خوارزميات التراصف التسلسلي للحمض النووي مثل خوارزمية سميث - ووترمان، والتي تجعل تكلفة العملية تعتمد على مكان تطبيقها.

انظرأيضًا

هوامش

  1. ^ "Jaro-Winkler «  Inviting Epiphany". RichardMinerich.com. مؤرشف من الأصل في 2019-12-31. اطلع عليه بتاريخ 2017-06-12.

مراجع

روابط خارجية