Принципи кодування мови

Матеріал з Вікі ЦДУ
Перейти до: навігація, пошук

3.2 Принципи кодування мови

Як стало зрозуміло з часу винаходу Олександра Белла, для того, щоб передати мова через телефонну мережу, мовну інформацію потрібно перетворити в аналоговий електричний сигнал. При переході до цифрових мереж зв'язку виникла необхідність перетворити аналоговий електричний сигнал в цифровий формат на передавальній стороні, тобто закодувати, і перевести назад в аналогову форму, тобто декодувати, на приймальній стороні.
Процес перетворення аналогового мовного сигналу в цифрову форму називають аналізом або цифровим кодуванням мови, а зворотний процес відновлення аналогової форми мовного сигналу - синтезом або декодуванням мови.
Мета будь-якої схеми кодування - отримати таку цифрову послідовність, яка вимагає мінімальної швидкості передачі і з якої декодер може відновити вихідний мовний сигнал з мінімальними спотвореннями.
При перетворенні мовного сигналу в цифрову форму, так чи інакше, мають місце два процеси - дискретизація (sampling), тобто формування дискретних у часі відліків амплітуди сигналу, і квантування, тобто дискретизація отриманих відліків по амплітуді (кодування безперервної величини - амплітуди - числом з кінцевою точністю). Ці дві функції виконуються т.зв. аналого-цифровими перетворювачами (АЦП), які розміщуються в сучасних АТС на платі абонентських комплектів, а у разі передачі мови по IP-мереж - в терміналі користувача (комп'ютері або IP-телефоні).
Так звана теорема відліків свідчить, що аналоговий сигнал може бути успішно відновлений з послідовності вибірок з частотою, що перевищує, як мінімум, удвічі максимальну частоту, присутню в спектрі сигналу. У телефонних мережах смуга частот мовного сигналу навмисно, за допомогою спеціальних фільтрів, обмежена діапазоном 0.3 - 3.4 кГц, що не впливає на розбірливість мови і дозволяє дізнаватися співрозмовника по голосу. З цієї причини частота дискретизації при аналого-цифровому перетворенні обрано рівної 8кГц, причому така частота використовується в усіх телефонних мережах на нашій планеті.

VoIP 3.4.png
Рис. 3.4. Дискретизація і квантування аналогового мовного сигналу


При квантуванні безперервна величина відображається на безліч дискретних значень, що, природно, призводить до втрат інформації. Для того, щоб забезпечити в такій схемі достатній динамічний діапазон (здатність передавати без спотворень як сильні, так і слабкі сигнали), дискретна амплітуда сигналу кодується 12/13-ті розрядним двійковим числом за лінійним законом. Процес аналого-цифрового перетворення отримав, стосовно до систем зв'язку, назва імпульсно-кодової модуляції (ІКМ).
Щоб знизити необхідну швидкість передачі бітів, застосовують нелінійний (логарифмічний) закон квантування, тобто квантованию піддається не амплітуда сигналу, а її логарифм. У даному випадку має місце процес «стиснення» динамічного діапазону сигналу, а при відновленні сигналу відбувається зворотний процес.
Після тривалих і бурхливих дебатів щодо законів кодування сьогодні застосовуються дві основні різновиди ІКМ:
з кодуванням по (m-закону і по А-закону. У результаті стиску сигнал з амплітудою, що кодуються, 12-13 бітами, описується всього вісьмома бітами. Розрізняються ці різновиди ІКМ деталями процесу стиснення (m-закон кодування краще використовувати при малій амплітуді сигналу і при малому відношенні сигнал / шум). Історично склалося так, що в Північній Америці використовується кодування за m-закону, а в Європі - по А-закону. Тому при міжнародній зв'язку в багатьох випадках потрібно перетворення m-закону в А-закон, відповідальність за яке несе країна, в якій використовується m-закон кодування. В обох випадках кожен відлік кодується 8 бітами, або одним байтом, який можна вважати звуковим фрагментом. Для передачі послідовності таких фрагментів необхідна пропускна здатність каналу, рівна 64 Кбіт / с. Це визначається простими арифметичними діями: 4 000 Гц * 2 = 8000 відліків / с, 8 000 відліків / с * 8 бітів = 64 Кбіт / с, що складає основу всієї цифрової телефонії. Оскільки ІКМ була першою стандартною технологією, що отримала широке застосування в цифрових системах передачі, пропускна здатність каналу, рівна 64 Кбіт / с, стала всесвітнім стандартом для цифрових мереж усіх видів, причому - стандартом, який забезпечує передачу мови з дуже гарною якістю. Відповідні процедури кодування та декодування стандартизовані ITU-T в рекомендації G.711.
Однак таке висока якість передачі мовного сигналу (що є еталоном при оцінці якості інших схем кодування) досягнуто в системах ІКМ за рахунок явно надмірною, при сучасному рівні технології, швидкості передачі інформації.
Щоб зменшити притаманну ІКМ надмірність і знизити вимоги до смуги пропускання, послідовність чисел, отримана в результаті перетворення мовного аналогового сигналу в цифрову форму, піддається математичним перетворенням, що дозволяє зменшити необхідну швидкість передачі. Ці перетворення «сирого» цифрового потоку в потік меншій швидкості називають «стисненням» (а часто - кодуванням, розглядаючи ІКМ як якусь відправну точку для подальшої обробки інформації). Існує безліч підходів до «стискання» мовної інформації; всі їх можна розділити на три категорії: кодування форми сигналу (waveform coding), кодування вихідної інформації (source coding) і гібридне кодування, що представляє собою поєднання двох попередніх підходів.
3.2.1 Кодування форми сигналу
3.2.2 Кодери вихідної інформації (вокодер) та гібридні алгоритми
3.2.3 Процесори цифрової обробки сигналів для мовних кодеків
3.2.4 Основні алгоритми кодування мови, що використовуються в IP-телефонії

--Козінцев Олексій 36 гр. 14:40, 16 листопада 2010 (EET)