Previous: 2.3 Цифровые каналы T1 и Е1 UP: 2 Преобразование, кодировка и передача информации
Down: 2.4.1 Дельта-модуляция
Next: 2.5 Методы преобразования и передачи изображения

2.4 Методы преобразования и передачи звуковых сигналов

Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)

Номер раздела	Название раздела	Объем в страницах	Объем в кбайт
2.4.1	Дельта-модуляция	2	10
2.4.2	Кодировщики голоса (Vocoder)	2	2
2.4.3	Передача голоса по каналам Интернет	6	12
Итого		0	0

А- и мю-преобразования

Адаптивные преобразователи голоса в код

Стандарт MUSICAM

Телефонные сети

На физическом уровне в ISDN используется кодово-импульсная модуляция с частотой стробирования 8кГц (что превосходит ограничение Найквиста = 2×3.3кГц, где 3.3кГц - полоса пропускания канала для традиционной телефонной сети). Эмпирически установлено, что для удовлетворительного воспроизведения речи, достаточно 4096 уровней квантования сигнала (12 разрядов АЦП). Такое разрешение диктуется большим динамическим диапазоном сигналов. По этой причине возникает возможность преобразования 12-битных кодов в 8-битные, что формирует информационный поток в 64 Кбит/c. Для этого используется логарифмическое преобразование. Природа позаботилась о человеке, снабдив его логарифмической чувствительностью слуха, в противном случае у нас в мозгу перегорали бы предохранители при близком выстреле или грозовом разряде. Следует учесть, что цифровое преобразование звукового сигнала существенно понижает его энтропию. Логарифмическое преобразование наталкивается на определенные трудности при низких значениях входного сигнала, ведь логарифм для значений меньше 1 имеет отрицательную величину. Функция же преобразования должна пройти через нуль. В США две логарифмические кривые смещаются в направлении оси ординат (вертикальная ось), в результате получается функция вида:

А- и мю-преобразования

y ~ log(1 +mx)	(так называемая m-зависимость [m-law])
В Европе используется функция преобразования вида:
y ~ ax	в области значений x вблизи нуля и
y ~ 1 + log(Ax)	при “больших” значениях x (A-зависимость [a-law], см. рис. 2.4.1)

Для дальнейшего упрощения процесса преобразования реальные кривые апроксимируются последовательностью отрезков прямых, наклоны которых каждый раз меняется вдвое. На практике функция табулируется (рекомендация G.711) и отличия m- и A-функций пренебрежимо малы. Но следует учитывать, что при реализации практической связи между Европой и Америкой, например телефонной, необходим m/A-конвертор.

Для кодирования используется симметричный код, у которого первый бит характеризует полярность сигнала.

Рис. 2.4.1. Иллюстрация функций преобразования сигналов

Адаптивные преобразователи голоса в код

Дальнейшим усовершенствованием схемы PCM является адаптивный дифференциальный метод кодово-импульсной модуляции (Рис. 2.4.2). Здесь преобразуется в код не уровень сигнала в момент времени t_i, а разница уровней в моменты t_i и t_i-1. Так как обычно сигнал меняется плавно, что типично для человеческой речи, можно заметно сократить необходимое число разрядов АЦП. Принципиальное отличие между PCM и ADPCM (1984 год) заключается в использовании адаптивного АЦП и дифференциального кодирования, соответственно. Адаптивный АЦП отличается от стандартного PCM-преобразователя тем, что в любой момент времени уровни квантования расположены однородно (а не логарифмически), причем шаг квантования меняется в зависимости от уровня сигнала. Применение адаптивного метода базируется на том, что в человеческой речи последовательные уровни сигнала не являются независимыми. Поэтому, преобразуя и передавая лишь разницу между предсказанием и реальным значением, можно заметно снизить загрузку линии, а также требования к широкополосности канала. Следует иметь в виду, что метод не лишен серьезных недостатков: уровень шумов, связанный с квантованием сигнала, выше; при резких изменениях уровня сигнала, превышающих диапазон АЦП, возможны серьезные искажения.

Рис. 2.4.2. Адаптивный преобразователь голоса в код

Расширение диапазона преобразования достигается умножением шага квантования на величину несколько больше (или меньше) единицы.

При дифференциальном преобразовании на вход кодировщика подается не сам сигнал, а разница между текущим значением сигнала и предыдущим (рис. 2.4.3).

Рис. 2.4.3. ADPCM-преобразователь голоса в код для 32кбит/с

Блок прогнозирования является адаптивным фильтром, который использует предшествующий код для оценки последующего стробирования. На вход кодировщика поступает сигнал, пропорциональный разнице между входным сигналом и предсказанием. Чем точнее предсказание, тем меньше бит нужно, чтобы с нужной точностью закодировать эту разницу. Характер человеческой речи позволяет заметно снизить требования к каналу при использовании адаптивного дифференциального преобразователя.

Для компактных музыкальных дисков (CD) характерна полоса 50Гц - 20 кГц, обычная же речь соответствует полосе 50 Гц - 7 кГц. Только звуки типа Ф или С имеют заметные составляющие в высокочастотной части звукового спектра. Для высококачественной передачи речи используется субдиапазонный ADPCM-преобразователь (Adaptive Differential Pulse Code Modulation). В нем звук сначала стробируется с частотой 16 кГц, производится преобразование в цифровой код с разрешением не менее 14 бит, а затем подается на квадратурный зеркальный фильтр (qmf), который разделяет сигнал на два субдиапазона (50Гц-4кГц и 4кГц-7кГц). Диапазоны этих фильтров перекрываются в области 4кГц. Нижнему диапазону ставится в соответствие 6 бит (48кбит/с), а верхнему 2 бита (16 Кбит/с). Выходы этих фильтров мультиплексируются, формируя 64 кбит/с -поток.

Стандарт MUSICAM

На CD используется 16-битное кодирование с частотой стробирования 44,1 кГц, что создает информационный поток 705 Кбит/c. Для стерео сигнала этот поток может удвоиться. Практически это не так - сигналы в стереоканалах сильно коррелированы, и можно кодировать и передавать лишь их разницу, на практике высокочастотные сигналы каналов суммируются, для различия каналов передается код их относительной интенсивности. Исследования показывают, что для акустического восприятия тонкие спектральные детали важны лишь в окрестности 2 кГц. Для передачи звуковой информации с учетом этих факторов был разработан стандарт MUSICAM (Masking pattern Universal Sub-band Integrated Coding and Multiplexing), который согласуется с ISO MPEG (Moving Picture Expert Group; стандарт ISO 11172). При кодировании музыкальных произведений не всякие комбинации звуков возможны (они воспринимались бы как неблагозвучные). Это является базой для дополнительного сжатия музыкальных данных. C точки зрения энтропии одной ноте соответствует <3 бита. Анологичное утверждение справедливо и для передачи человеческого голоса, только здесь вместо нот следует рассматривать фонемы. При разговоре за счет вариации скорости произношения информационный поток может варьироваться до 5 раз. MUSICAM развивает идеологию деления звукового диапазона на субдиапазоны, здесь 20кГц делится на 32 равных интервалов.

Существует также стандарт MIDI (Musical Instrument Digital Interface), где заданы коды музыкальных инмтрументов и схема кодирования музуки.

Логарифмическая чувствительность человеческого уха и эффект маскирования позволяет уменьшить число разрядов кодирования. Эффект маскирования связан с тем, что в присутствии больших звуковых амплитуд человеческое ухо нечувствительно к малым амплитудам близких частот. Причем чем ближе частота к частоте маскирующего сигнала, тем сильнее этот эффект (см. рис. 2.4.4). Сплошной линией на рисунке показана нормальная зависимость порога чувствительности уха, а пунктиром - зависимость порога чувствительности в присутствии 500-герцного тона с амплитудой в 110 дБ.

Рис. 2.4.4. Изменение порога чувствительности человеческого уха под влиянием эффекта маскирования.

При разбиении на субдиапазоны можно оценить эффект маскирования и передавать только ту часть информации, которая этому эффекту не подвержена. При этом уровень ошибок квантования следует держать лишь ниже порога маскирования, что также снижает информационный поток. Для стробирования высококачественных звуковых сигналов используются частоты 32, 44,1 или 48 кГц. Стандартом предусмотрено три уровня кодирования звука, отличающиеся по сложности и качеству. На первом уровне производится разбивка на 32 диапазона, определение диапазонных коэффициентов и формирование кадров, несущих по 384 результатов стробирования. Уровень 2 формирует кадры с 1152 результатами стробирования и дополнительными данными. Уровень 3 допускает динамическое разбиение на субдиапазоны и уплотнение данных с использованием кодов Хафмана. Любой декодер способен работать на своем и более низком уровне.

Для улучшения качества передачи низких частот в дополнение к суб-диапазонным фильтрам, используется быстрое Фурье-преобразование (FFT). Результирующая частота бит при передаче звуковых данных оказывается не постоянной. Практическое измерение показывает, что частота редко превышает 110кбит/с, применение 128кбит/с делает качество воспроизведения неотличимым от CD. Ограничение скорости на уровне 64 Кбит/с вносит лишь незначительные искажения.

Телефонные сети

Люди, работающие на ЭВМ дома, часто подсоединяются к Интернету посредством модема через коммутируемую телефонную сеть с привлечением протоколов SLIP или PPP. Схема подключения показана на рис. 2.17.

Рис. 2.4.5. Подключение ЭВМ через модем и цифровую телефонную станцию.

Рис. 2.4.6. Подключение к Интернету через модемный пул.

Если телефонная станция — аналоговая, то кодеки не нужны. Число промежуточных телефонных станций может варьироваться в широких пределах. Сервис-провайдеры обычно имеют у себя модемные пулы, которые позволяют подключиться большому числу клиентов одновременно (рис. 2.4.6).

В традиционной телефонной сети для соединения с требуемым клиентом используются аппаратные коммутаторы. Если коммутатор имеет N входов и N выходов, то число коммутирующих ключей будет равно N2 и одновременно можно реализовать не более N связей. Реально это число всегда меньше, и клиент слышит в трубке «короткие гудки» сигнала «занято». На рис. 2.4.7 показана обобщенная схема большой телефонной сети.

Рис. 2.4.7. Схема телефонной сети.

Телефонные компании знают, что некоторые каналы-направления оказываются загружены особенно сильно, например, Москва–СанктПетербург. В таких случаях иерархия станций может быть нарушена. На самом верхнем уровне станции образуют полносвязный граф, чтобы исключить неоправданные транзитные связи. Неоднозначность пути устраняется процессорами станций, при этом всегда выбирается кратчайший путь.

Ниже в таблицах представлены данные по скоростям передачи аудиоданных по традиционным цифровым и отповолоконным каналам (см. также раздел 3.5.6).

Таблица 2.4.1 Скорости передачи данных по цифровым каналам

Линия	Быстродействие Мбит/с	Число аудио каналов
DS-0	0,064	1
T-1	1,544	24
T-1C	3,152	48
T-2	6,312	96
T-3	44,736	672

Таблица 2.4.2. Скорости передачи данных по оптическим каналам

Линия OC-x	Быстродействие Мбит/с	Число аудио каналов	STM-x
1	51,84	672	-
3	155,52	2016	1
9	466,56	6048	3
12	622.08	8064	4
24	1244,16	16128	8
48	2488,32	32256	6
6	976,64	4512	2
92	953,28	29024	4

Еще одним методом, нацеленным на повышение эффективности преобразования входного аналогового сигнала в код, является дельта-модуляция.

2.4 Методы преобразования и передачи звуковых сигналов

Семенов Ю.А. (ИТЭФ-МФТИ)Yu. Semenov (ITEP-MIPT)

А- и мю-преобразования

Адаптивные преобразователи голоса в код

Стандарт MUSICAM

Телефонные сети

Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)