previous up index search

Previous: 2.4.2 Кодировщики голоса (Vocoder)    UP: 2.4 Методы преобразования и передачи звуковых сигналов

2.4.3 Передача голоса по каналам Интернет
Семенов Ю.А. (ГНЦ ИТЭФ)


Несколько лет назад появился новый вид услуг в Интернет - голосовая связь (IP-phone, Vocaltec, Skype). Сегодня имеется 30 миллионов абонентов, регулярно пользующихся IP-phone и его аналогами, ожидается до 200 миллионов до конца текущего десятилетия, качество передачи постепенно приближается к уровню цифровой телефонии.

Среди пользователей есть те, для кого это лишь возможность общения, как для радиолюбителей; но все больше людей использует IP-phone для деловых контактов или даже как объект бизнеса.

Существуют два алгоритма сжатия звуковой информации, используемых для IP-телефонных переговоров: GSM (Global system for mobile communications, ftp.cs.tu-berlin.de/pub/local/kbs/tubmik/gsm), которая обеспечивает коэффициент сжатия 5, и алгоритм DSP-группы (true speech) с коэффициентом сжатия данных 18 (работает при частотах 7.7 кбит/с). Добавление аппаратных средств сжатия информации позволяет сократить необходимую полосу до 6.72 Кбит/с. Потеря 2-5% пакетов остается незамеченной, 20% оставляет разговор понятным. В таблице 2.4.3.1 представлена зависимость необходимой полосы телекоммуникационного канала от частоты стробирования звукового сигнала, которая определяет качество воспроизведения.

Таблица 2.4.3.1.

Пропускная способность
[бит/с]
Частота стробирования
[1/с]
9600 4000
14400 6000
19200 8000
28800 11000

Для подключения к сети IP-phone необходима мультимедийная карта, микрофон, динамики (или наушники), 8 Мбайт оперативной памяти, доступ к Интернет и соответствующее программное обеспечение. Качество передачи звука зависит от загруженности IP-канала. В качестве транспорта используется протокол UDP. Для обеспечения высокого качества звука нужна гарантированная ширина IP-канала, ведь задержанные сверх меры UDP-дейтограммы теряются безвозвратно, что и приводит к искажениям. Внедрение протоколов, гарантирующих определенную ширину канала сделают IP-phone значительно более привлекательным. Многие компании уже предлагают такое оборудование и программы. Программы и описания этого вида услуг можно найти по адресам:


ftp://cs.ucl.ac.uk/mice/videoconference
http://www.pulver.com/netwatch
http://www.planeteers.com
http://www.newparadigm.com
http://www.vocaltec.com
http://www.itelco.com
http://www.quarterdeck.com

В последнее время технология передачи звука по каналам Интернет стала широко использоваться для трансляции новостей и музыки. При этом обеспечивается вполне удовлетворительное качество даже при передаче стерео программ. В этом случае имеется возможность применить более эффективное сжатие информации и протоколы типа RTP и RTCP. Задержка при передаче в этом случае никакого значения не имеет, а качество доставки гарантировано. Современные системы ip-телефонии снабжены гибкой системой буферов, позволяющих использовать для передачи паузы, когда один из партнеров молчит. (См. также "RTP Payload for DTMF Digits, Telephony Tones and Telephony Signals. H. Schulzrinne, S. Petrack. May 2000" RFC-2833 и "URLs for Telephone Calls. A. Vaha-Sipila. April 2000". RFC-2806).

В настоящее время имеется практически полный набор технологий, чтобы создать электронную книгу. Такая книга будет представлять собой систему размером с ноут-бук, снабженное устройством для чтения CD-дисков. Текст книги вместе с иллюстрациями и необходимыми командными последовательностями записывается на CD. При этом в перспективе можно рассматривать возможность того, что такое устройство будет читать "книгу" вслух (вывод на наушники). В настоящее время имеется достаточно большое количество книг, записанных на cd. Это, прежде всего, энциклопедические словари, альбомы музеев, библия и многие другие. Преимущество такой формы книги уже сегодня ощутимо - вы можете использовать современные поисковые средства, чтобы найти нужный раздел или какую-то конкретную информацию. По мере развития этой технологии и интеграции ее с сетями можно будет осуществлять поиск не только по данной книге, но и по книгам или журналам, ссылки на которые в данной книге содержатся, что может быть особенно полезно при первичном знакомстве с какой-то проблемой. Я здесь не говорю о компактности, а в перспективе, и долговечности такой формы записи информации. При звуковом воспроизведении читатель сможет выбирать, голосом какого актера или актеров будет читаться данная книга. Разумеется, для этого не потребуется начитывать данный текст самим актерам. Достаточно иметь запись характерных особенностей голоса и интонаций конкретного голоса, а процессор сам при генерации звука будет использовать голосовые особенности того или иного человека. Немного фантазии и можно будет представить, как ЭВМ будет воспроизводить текст в виде фильма, который она сгенерировала по выданному ей тексту (ведь сгенерирован же на ЭВМ корабль "Титаник" и море, по которому он плывет). Аналогичные услуги смогут оказываться и через сеть Интернет. Наибольшие трудности вызовет реализация качественного воспроизведения. Программы способные преобразовывать символьный текст в голос уже существуют. Проблема распознавания индивидуального голоса давно решена в охранных системах. Осталось научиться использовать результаты такого анализа при воспроизведении.

Подробные подсчеты показали, что дополнительная информация, содержащаяся в интонации, громкости и индивидуальных особенностях голоса при обычном разговоре не должна превышать 75% от "смысловой" информации, а при очень быстрой речи она составляет не более 30%, за то при медленном разговоре эта информация может достигать 150% (в этих условиях человек может различать больше нюансов).

Оперируя с устной речью, в отличии от письменной приходится иметь дело с фонемами, а не буквами. В русском языке их существует 42 (энтропия Е=log42=5,38). Но существуют и другие оценки числа фонем, например, 48. Для английского языка характерно использование 45 фонем. Информационная избыточность фонем составляет 80-85%. Устная речь может быть записана, а письменная прочитана, отсюда можно сделать вывод, что информация, содержащаяся в определенном тексте, не зависит от ее формы:

Е(буквы) × число букв = Е(фонемы) × число фонем

Отсюда следует, что:

Е(фонемы) =Е(буквы) × n

где n - среднее число букв, приходящихся на одну фонему (средняя длина фонемы в буквах). Для английского языка n≈1,2.

Для записи музыки характерны аналогичные закономерности. Если мы будем записывать последовательность нот случайным образом, энтропия такой последовательности будет велика. Однако с музыкальной точки зрения такая последовательность безсмысленна. Для обеспечения приемлемо мелодичности в такую последовательность нужно внести определенную избыточность. Но при слишком большой избыточности, когда последующие ноты почти однозначно задаются предыдущими, мы получим слишком монотонную мелодию. По этой причине избыточность простых мелодий не меньше, чем избыточность нормальной речи. Анализ показал, что для простых мелодий энтропия одной ноты Е=log8=3 битам.

Активно разрабатываются многие новые стандарты и протоколы для обеспечения передачи звука по IP-каналам, проведения видеоконференций и управления в реальном масштабе времени. К таким протоколам относятся RTP (Real Time Protocol, RFC-1889, -1890), RTCP (Real-Time Control Protocol), который является дополнением RTP, и RSVP (resource reservation protocol, см. разделы проектов IETF nic.nordu.net, ftp.isi.edu, munnari.oz.au и ds.internic.net или ftp.ietf.org/internet-drafts/draft-ietf-rsvp-spec-16.txt), служащий для обеспечения своевременной доставки данных при работе в реальном времени. Протокол RTP способен работать помимо UDP/IP в сетях CLNP, ATM и IPX. Он обеспечивает детектирование потерь, идентификацию содержимого, синхронизацию и безопасность (доступ по шифрованному паролю, см. RFC-1423). Проблема синхронизации при передаче звука особенно важна, так как даже для локальных сетей время доставки пакетов может варьироваться в весьма широких пределах из-за используемого алгоритма доступа (например, CSMA/CD), а это приводит к искажениям при воспроизведении. Протоколы RTP и RTCP позволяют одновременное голосовое общение неограниченного числа людей в рамках сети Интернет. Протокол же RSVP (или его аналог) в случае внедрения гарантирует качество связи (разумеется, при достаточной широкополосности канала) за счет повышения приоритета пакетов реального времени. Следует иметь в виду, что голосовое общение, хотя и весьма привлекательно, не является единственной и даже главной целью разработчиков. По мере совершенствования протоколов Интернет сделает возможным управление в реальном масштабе времени довольно сложными удаленными объектами.

В таблице 2.4.2 представлены характеристики аудио-кодеков, которые можно использовать в IP-телефонии.

Таблица 2.4.2. Характеристики аудио-кодеков

Кодек Выходная скорость кодека
G.711 64 кбит/с
g.723.1 5,3 или 6,4 кбит/с
g.722 48, 56 или 64 кбит/с
g.728 16 кбит/с
g.728/g.729a 8 кбит/с

При внедрении IP-телефонии желательно, чтобы сетевая инфраструктура обеспечивала:

Одна из возможных реализаций IP-телефонии показана на рис. 2.4.3.1. (MVD – Multiflex Voice/WAN модуль, включаемый в маршрутизатор, например, Cisco-3662).

Рис. 2.4.3.1. Пример реализации систем в IP-телефонии

На рисунке MVW-модуль (Multiflex Voice/WAN), включаемый в маршрутизатор, например, CISCO-3662, служит для связи с общедоступной телефонной сетью. Если сеть “А” размещена в Рио-де-Жанейро, а “В” в Москве, то любой клиент нижней сети сможет разговаривать с клиентом в Рио “бесплатно”, а с клиентами телефонных сетей “А” и “B” по локальным тарифам. В левой части рисунка показаны телефонные аппараты, которые подключаются непосредственно к сегменту локальной сети. Такие приборы уже поступили в продажу.

Связь может осуществляться как с традиционной старой аналоговой телефонной сетью, так и с ISDN. Телефонные аппараты могут подключаться непосредственно к интерфейсу маршрутизатора, к сетевой рабочей станции или к специальному сетевому адаптеру.

Стек протоколов Н.323 представлен в таблице ниже (Э.Танненбаум, Компьютерные сети, 4-е издание, стр. 776).


Речь Управление
G.7xxRTCPH.225
(RAS)
Q.931
(Сигналы при вызове)
H.245
(Управление вызовами)
RTP
UDPTCP
Протокол передачи данных
Протокол физического уровня

RAS - Registration/Admission/Status - Регистрация/Получение доступа/Статус.


Марк Либерман посчитал объем памяти, которая нужна, чтобы записать все, что было когда-либо сказано людьми. Для этого нужно 42 зеттабайт, если оцифровка выполняется с частотой 16 кГц с разрешением 16-бит.

Previous: 2.4.2 Кодировщики голоса (Vocoder)    UP: 2.4 Методы преобразования и передачи звуковых сигналов