ترميز الكلام

تشفير المحادثة هو عبارة عن تطبيق ضغط البيانات الصادرة من إشارات الصوت الرقمي التي تتضمن كلام.

نبذة

يستخدم هذا التشفير نظرية التقدير لمعامل خاص بالكلام، وذلك باستخدام تقنيات معالجة الإشارة الصوتية لتشكيل إشارته، إلى جانب خوارزميات ضغط البيانات النوعية لتقديم المتغيرات المتشكلة الناتجة على هيئة تيار من البت المدمجة.^[1] وبعض استعمالات تشفير المحادثة تتمثل في الاتصالات المتنقلة، والصوت المنقول عبر بروتوكول الإنترنت (VoIP).^[2] ولعل من أكثر تقنيات تشفير المحادثة استعمالا في المهاتفة بالمتنقل هي التشفير التنبئي الخطي (LPC)، بينما الأكثر استعمالا في تطبيقات VoIP هي تقنيات LPC وتحويل جيب التمام المتقطع المعدل (MDCT).

وتتشابه التقنيات المستعملة في تشفير المحادثة مع تلك المستعملة في ضغط البيانات الصوتية وتشفير الصوت، إذ تُستعمل المعرفة في علم النفس المتعلق بدراسة الأصوات لنقل البيانات المرتبطة بنظام السمع البشري وحسب. فعلى سبيل المثال عند تشفير المحادثة عبر نطاق تردد الصوت، يتم فقط نقل المعلومات بنطاق التردد ما بين 400 إلى 3500 هرتز، إلا أن الإشارة معادة التكوين قد تكون كفيلة بالفهم.

ويختلف تشفير المحادثة عن الأنواع الأخرى من تشفير الصوت، إذ يعد الكلام أبسط مقارنة بمعظم الإشارات الصوتية الأخرى من حيث الإشارة، وأنه ثمة الكثير من الإحصائيات فيما يتعلق بخصائص الكلام. ونتيجة لذلك، فإن بعض المعلومات الصوتية تعد غير ضرورية في حال تشفيره، إذ يتمثل أهم معيار في تشفير المحادثة بالمحافظة على مفهومية و «متعة» التحدث مع كم قليل من البيانات المنقولة.^[3] كما تتطلب أغلب تطبيقات التحدث وقف تنفيذ قصير، إذ أن ذلك الوقف يعيق من التفاعل بالكلام.^[4]

الأنواع

برامج ترميز الكلام نوعان: تنقسم أجهزة تشفير المحادثة إلى نوعين:^[5]

تشفير بالشكل الموجي للصوت

نطاق الزمن PCM, ADPCM
نطاق التردد sub-band coding, ATRAC

التشفير الصوتي

التشفير الخطي التنبئي (LPC)
تشفير صوت الكلام

عينة لمقلص ينظر إليه على أنه نموذج لتشفير المحادثة

وفقاً لوجهة النظر هذه، يمكن عد الخوارزميات (G.711)μ-law و A-law المستخدمة في الاتصال الرقمي التقليدي PCM على أنها عامل سابق لتشفير المحادثة، إذ أنها تتطلب 8 بت فقط لكل إنموذج، إلا أنها تعطي 12 بت من الدقة بفاعلية. وتتوافق قوانين التقليص اللوغاريتمية مع قدرة إدراك السمع البشري، إذ يتم سماع اضطراب بسعة منخفضة مع إشارة كلام بسعة منخفضة كذلك، ولكن يتم كتمها من قبل إشارة بسعة مرتفعة. وعلى الرغم من أن هذا الأمر يمكن أن يولد تشتتاً غير مرغوب به على إشارة الموسيقى، إلا أن طبيعة موجات الكلام ذات النبرة العالية، مع بنية التردد البسيطة له بوصفه شكل لموجات دورية له تردد أساسي واحد، مع دفعات صوت إضافية عارضة، كل ذلك يجعل من خوارزميات الضغط الفوري البسيطة للغاية مقبولة للكلام

وقد تم تجربة عدة أنواع من الخوارزميات الأخرى في ذلك الوقت، غالبيتها على المتغيرات المعدلة لدلتا، غير أنه بعد بحث متأن وقع الاختيار على خوارزميات القانون A-law/μ- من مصممي أنظمة الاتصال الرقمية الأقدم. وفي وقت تصميمهم، أسفر تدني نطاق التردد بنسبة 33% عن انخفاض كبير للتعقيد، مما نتج عنه حل هندسي متميز، وبقى أداؤها الصوتي مقبولا إلى حد ما ولم يكن هنالك لزوم لاستبدالهم في شبكة الهواتف الثابتة.

وفي عام 2008، تم توحيد برنامج التشفير G.711.1 ذا الهيكل القابل للتطوير، وذلك من قطاع تقييس الاتصالات (ITU-T)، وكان معدل تقنية التشفير المدخلة 16 كيلوهرتز.

طرق ضغط الكلام الحديثة

كان الدافع لعدة أعمال لاحقة من ضغط المحادثة هو البحث العسكري في الاتصالات الرقمية لأجهزة الراديو العسكرية المحمية، إذ أن معدل ضئيلا من البيانات كان مطلوبا لإتاحة أداء العملية العسكرية بكفاءة في بيئة العدو التي تغطيها موجات الراديو. وفي الوقت ذاته، كان يوجد قوة أداء أفضل بكثير للمعالجة على شكل حلقات VLSI مقارنة بتقنيات الضغط المتاحة آنذاك، وبالتالي فإنه يمكن لخوارزميات ضغط الكلام الحديثة أن تستعمل تقنيات أكثر تعقيدا مما كان متواجد في ستينات القرن الماضي، وذلك للحصول على نسب أعلى من الضغط.

وقد كانت تلك التقنيات متوفرة من خلال البحث العام للوثائق، وذلك يسمح بإنشاء شبكات اتصالات رقمية للهواتف المحمولة بقدرات أعلى للقنوات مقارنة بأنظمة التناظر التي سبقتها.

وتعتمد خوارزميات تشفير المحادثة الأكثر استعمالا على التشفير الخطي التنبئي (LPC) بشكل خاص، ويعد LPC-based Code Excited Linear Prediction (CELP) برنامج تشفير المحادثة الأوسع انتشارا الذي يُستخدم على سبيل المثال في المقياس العالمي للاتصالات النقالة GSM. وفي CELP يتم تقسيم التصميم إلى مرحلتين، مرحلة خطية تقوم بالتنبؤ وتعمل على تصميم الغلاف الطيفي والإنموذج المعتمد على كتاب التشفير للمتبقي من التصميم الخطي التنبئي. وفي CELP، يتم حساب معاملات التنبؤ الخطي (LPC) وتحديد مقدارها، وذلك بالعادة كأزواج طيف خطية (LSPs)، بالإضافة إلى تشفير الكلام الحقيقي للإشارة. ويعد غالباً من الضروري استخدام تشفير القناة للإرسال، وذلك لتجنب الخسائر جراء أخطاء الإرسال. وفي العادة، يقتضي اختيار كل من طرق تشفير المحادثة وتشفير القناة على هيئة أزواج، مع حماية مجموعة البت الأكثر أهمية في تيار بيانات الكلام بتشفير أقوى للقناة، للحصول على أفضل نتائج شاملة للتشفير.

وقد تم تهيئة تحويل جيب التمام المنفصل والمعدل (MDCT) وهو نوع من خوارزمية لتحويل جيب التمام المنفصل (DCT) لخورازمية تشفير محادثة يطلق عليها LD-MDCT المستعملة في تنسيق AAC-LD الذي تم تقديمه في عام 1999، ومنذ ذلك الوقت تم اتخاذ MDCT للعمل على نطاق واسع في تطبيقات نقل الصوت عبر الإنترنت (VoIP)، مثل تطبيق تشفير الصوت واسع النطاق G.729.1 الذي تم تقديمه عام 2006، وكذلك تطبيق Apple Facetime (باستخدام AAC-LD) الذي تم تقديمه عام 2010، وأخيراً تطبيق التشفير CELT الذي تم تقديمه عام 2011.

ويعد Opus تطبيق مجاني لتشفير المحادثة، إذ يجمع كلا خوارزميات ضغط الصوت MDCT و LPC، ويستعمل على نطاق واسع في المكالمات عبر شبكة الإنترنت في تطبيق WhatsApp، وكذلك تستعمل وحدة التحكم في جهاز Playstation 4 تطبيق CELT/Opus لنظام محادثة المجموعة عبر الإنترنت.

وأيضاً Codec2 وهو تطبيق لتشفير المحادثة، الذي يعمل على تحقيق ضغط جيد للغاية بمقدار يصل إلى 700 بت في الثانية.

مجالات فرعية

التشفير الصوتي واسع النطاق

Linear predictive coding (LPC)
AMR-WB for WCDMA networks
VMR-WB for CDMA2000 networks
Speex, IP-MR, SILK and Opus for voice-over-IP (VoIP) and videoconferencing
- Modified discrete cosine transform (MDCT)
  - AAC-LD, G.722.1, G.729.1, CELT and Opus for VoIP and videoconferencing
- Adaptive differential pulse-code modulation (ADPCM)
  - G.722 for VoIP

تشفير صوتي ضيق النطاق

LPC
FNBDT for military applications
SMV for CDMA networks
Full Rate, Half Rate, EFR and AMR for GSM networks
G.723.1, G.728, G.729, G.729.1 and iLBC for VoIP or videoconferencing
ADPCM
G.726 for VoIP

انظر أيضا

المراجع

^ M. Arjona Ramírez and M. Minami, "Low bit rate speech coding," in Wiley Encyclopedia of Telecommunications, J. G. Proakis, Ed., New York: Wiley, 2003, vol. 3, pp. 1299-1308.
^ M. Arjona Ramírez and M. Minami, “Technology and standards for low-bit-rate vocoding methods,” in The Handbook of Computer Networks, H. Bidgoli, Ed., New York: Wiley, 2011, vol. 2, pp. 447–467.
^ P. Kroon, "Evaluation of speech coders," in Speech Coding and Synthesis, W. Bastiaan Kleijn and K. K. Paliwal, Ed., Amsterdam: Elsevier Science, 1995, pp. 467-494.
^ J. H. Chen, R. V. Cox, Y.-C. Lin, N. S. Jayant, and M. J. Melchner, A low-delay CELP coder for the CCITT 16 kb/s speech coding standard. IEEE J. Select. Areas Commun. 10(5): 830-849, June 1992.
^ Soo Hyun Bae, ECE 8873 Data Compression & Modeling, Georgia Institute of Technology , 2004

روابط خارجية

في كومنز صور وملفات عن: ترميز الكلام

[1] M. Arjona Ramírez and M. Minami, "Low bit rate speech coding," in Wiley Encyclopedia of Telecommunications, J. G. Proakis, Ed., New York: Wiley, 2003, vol. 3, pp. 1299-1308.

[2] M. Arjona Ramírez and M. Minami, “Technology and standards for low-bit-rate vocoding methods,” in The Handbook of Computer Networks, H. Bidgoli, Ed., New York: Wiley, 2011, vol. 2, pp. 447–467.

[3] P. Kroon, "Evaluation of speech coders," in Speech Coding and Synthesis, W. Bastiaan Kleijn and K. K. Paliwal, Ed., Amsterdam: Elsevier Science, 1995, pp. 467-494.

[4] J. H. Chen, R. V. Cox, Y.-C. Lin, N. S. Jayant, and M. J. Melchner, A low-delay CELP coder for the CCITT 16 kb/s speech coding standard. IEEE J. Select. Areas Commun. 10(5): 830-849, June 1992.

[5] Soo Hyun Bae, ECE 8873 Data Compression & Modeling, Georgia Institute of Technology , 2004

[1]

[2]

[3]

[4]

[5]