Обробка зображень лабораторна №5 Козін Іван

Матеріал з Вікі ЦДУ
Перейти до: навігація, пошук

Вивчення представлення звуку

Sampling.jpg

Для зберігання, обробки та відтворення звуку комп'ютеру необхідно перетворити неперервний сигнал у дискретний. Ця операція називається дискретизацією. Головним її параметром є частота дискретизації, яка визначає кількість сигналів за секунду при перетворенні неперервного сигналу в дискретний. Вимірюється в герцах. Найпопулярніші частоти дискретизації: 44100 Гц (покриває весь діапазон приблизного середнього людського слуху, від 20 Гц до 22 КГц) та 48000 Гц. Із цим параметром пов'язаний ще один термнін — частота Найквіста, що дорівнює половині частоти дискретизації та визначає максимальну частоту цифрового сигналу (виходячи за цей поріг може виникнути деформація сигналу).

Bit depth.jpg

Цифрові формати збереження аудіо-даних, що використовують PCM (імпульсно-кодову модуляцію) мають ще однин важливий параметр — розрядність (bit depth), який визначає ширину діапазону можливих значень кожного семпла аудіо-файлу, а саме кількість бітів, що його визначають. Більша глибина, звичайно, збільшує розмір файлу, але є показником більшого доступного динамічного діапазону. Параметр, що визначає кількість біт, яка передається на одиницю часу називається бітрейтом (bitrate) і буває статичним (CBR), “плаваючим” (VBR), або усереденим (ABR)

Формати для зберігання звуку поділяються на три основних класи: нестисненні формати (можуть мати найбільший розмір у порівнянні із стисненними, але є найбільш подібними до оригінального звуку при записі), стисненні без втрат (lossless, полягають у можливості відтворення нестисненного сигналу без спотворень), стисенні із втратами (lossy, унеможливлюють відтворення оригінального сигналу внаслідок специіальних алгоритмів стиснення, але, зазвичай, мають найменший розмір).

Формати без стиснення

  • CD-Audio (Compact Disc Digital Audio) — частота дискретизації 44.1 КГц, розрядність 16 біт, двоканальний.
  • WAV (Waveform Audio Format) — можлива частота дискретизації 11.025 - 192.0 КГц, можлива розрядність 8 - 32 біт, число каналів від одного до шести.
  • AIFF (Audio Interchange File Format) — можлива частота дискретизації 11.025 - 192.0 КГц, можлива розрядність 8 - 32 біт, число каналів від одного до шести. Використовується переважно із продукцією Apple.

Формати із стисненням без втрат

  • FLAC (Free Lossless Audio Codec ) — частота дискретизації 1Гц - 655.350 КГц, можлива розрядність 4 - 32, число каналів від одного до восьми, відкритий та багатоплатформний.
  • APE (Monkey's Audio) — частота дискретизації 8 - 96 КГц, можлива розрядність 16, або 24, двоканальний, відкритий.
  • ALAC (Apple Lossless Audio Codec) — частота дискретизації 44.1 - 192 КГц, можлива розрядність 16, або 24, підтримка до шести каналів. Основне призначення формату в сумісністності із сервісами Apple, які не підтримуюсь FLAC.

Формати із стисненням з втратами

  • MP3 (MPEG-1 Audio Layer 3) — частота дискретизації до 48 КГц, розрядність 16 бітна, двоканальний, бітрейт обмежений діапазоном 8 — 320 кбіт/c.
  • OGG (Ogg Vorbis) — частота дискретизації до 192 КГц, розрядність до 32 біт, число каналів до 255, багатоплатформений та більш гнучкий в налаштуванні.
  • AAC (Advanced Audio Coding) — частота дискретизації до 192 КГц, число каналів до 48, на останій час є менш популярним форматом у порівнянні із mp3 та ogg.
Author - Title - Length WAV (2822) MP3 (320) MP3 (256) MP3 (128) Spectrogram
IAMX - No Maker Made Me - 03:59 wav 80.7 MB 320 9.16 MB 256 7.32 MB 128 3.66 MB GIF
65daysofstatic - Retreat! Retreat! - 04:09 wav 84.1 MB 320 9.53 MB 256 7.63 MB 128 3.81 MB GIF
Xploding Plastix - Funnybones & Lazylegs - 04:48 wav 97.0 MB 320 11.0 MB 256 8.80 MB 128 4.40 MB GIF

Результати порівняння

У порівнянні між нестисненим та стисненим (320 кбіт/с) форматами не було помічено суттєвих відмінностей. Між двома варіантами стиснених форматів (320 проти 256 кбіт/с) на деяких ділянках відчувалась різниця частотного діапазону. Найгірша в даному порівняні якість стисненого формату (128 кбіт/с) дає можливість не тільки відчути різницю у частотному спектрі, а також помітити спотворення сигналу на граничних для цього бітрейту частотах.

Порівняння якості звуку

128 kbps мають менший розмір за рахунок видалення високих частот в деяких випадках (>16 kHz). Проте, потрібно враховувати тип музики, яка сжимається (багато високих частот, фокус на ударних інструментах) а також вік слухаючого.
При порівнянні представлених композицій я помітив, що при використанні 128 kbps більше чути переходи і місцями музика наче обривається на долю секунди. При прослуховуванні 320 kbps музика звучить плавніше і майже не помітно "обривів".
Але якщо потрібно визначити різницю між 128, 256 та 320 kbps, то треба використовувати спеціальне обладнання.