Previous: 2.4 Методы преобразования и передачи звуковых сигналов UP: 2 Преобразование, кодировка и передача информации
Down: 2.5.1 Стандарт MPEG-4
Next: 2.6 Методы сжатия информации

2.5 Методы преобразования и передачи изображения

Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)

Номер раздела	Название раздела	Объем в страницах	Объем в кбайт
2.5.1	Стандарт MPEG-4	68	400
2.5.2	Стандарт MPEG-7	61	1400
2.5.3	Архитектура мультимедиа MPEG-21	13	109
Итого		0	0

JPEG

MPEG-1 и -2

Интерактивное телевидение

MPEG-4

MPEG-7

MPEG-21

Передача изображения представляет собой наиболее тяжелую проблему, так как человеческий глаз с информационной точки зрения несравненно совершеннее уха.

В 1902 году Артур Корн (Германия) запатентовал систему фотоэлектрического сканирования изображения, а в 1910 году заработала первая международная факсимильная связь Берлин-Париж-Лондон. До 60-х годов этого века рынок факсимильной аппаратуры был ограничен.

Основу получения и передачи изображения составляет преобразование его в матрицу пикселей (pixel - picture element - элемент картинки). Такое преобразование обычно делается путем сканирования изображения (построчного и покадрового), показанного на рис. 2.5.1.

Рис. 2.5.1. Схема разложения изображения на элементы методом сканирования

Обратный ход луча строчной и кадровой развертки делаются невидимыми. В передающих приборах изображение представляется в виде потенциальной картинки, в которой яркость элемента определяется количеством электронов, размещенных в определенной области экрана. Это может делаться, например, с помощью электронно-лучевой трубки. Начиная с 80-х годов, для разложения изображения на элементы начали использоваться приборы с зарядовой связью (ПЗС), в этом случае каждому пикселю ставится в соответствие полупроводниковый конденсатор, заряд которого пропорционален яркости элемента. Если изображение цветное, каждой точке ставится в соответствие 3 величины, пропорциональные яркости изображения по трем базовым цветам (красному, зеленому и голубому - RGB). Отношение ширины изображения к высоте обычно равно 4:3. В Северной и Южной Америке число строк развертки равно 525, а частота кадров составляет 30/сек, а в Европе 625 строк при 25 кадрах/сек. Только 483 из 525 строк в NTSC и 576 из 625 строк в PAL/SECAM отображаются. Время обратного хода кадровой развертки во многих случаях используется для передачи телетекста (новости, погода, спорт, биржевые цены и пр.). Восприятие телевизионной картинки зависит от времени реакции памяти глазных видео датчиков. У пожилых людей это время обычно меньше и по этой причине они воспринимают картинку, передаваемую с частотой кадров 25/сек, как мигающую. Чтобы улучшить восприятие без увеличения частоты кадров (это потребовало бы большей полосы передачи), используется алгоритм, при котором сначала воспроизводятся нечетные строки, а затем четные. Каждый из этих полукадров называется полем, а сам алгоритм черезстрочной разверткой. Первым стандартом цветного телевидения был NTSC (National Television Standards Committee, США). В Европе цветное телевидение появилось позже, что позволило использовать новые более прогрессивные технологии. Так появилась система SECAM (Sequential Couleur Avec Memorire; Франция и Восточная Европа) и PAL (Phase Alternating Line; остальная Европа). Во всех указанных системах приходилось решать проблему совместимости с черно-белым телевидением, для чего приходилось осуществлять линейное сложение RGB-сигналов для получения сигнала яркости (Y). Сигнал яркости передается на частотах, используемых для черно-белого телевидения, а сигналы цветности на прилегающих более высокочастотных диапазонах.

В России в 1967 году был принят стандарт SECAM. Географическое распределение телевизионных стандартов представлено на рисунке ниже.

Рис. 2.5.1a. Географическое распределение телевизионных стандартов (взято из википедии)

Последние годы ознаменовались интенсивными разработками систем телевидения высокого разрешения - HDTV (High Definition TeleVision). Эти системы характеризуются удвоением разрешения. И вновь разработки США, Европы и Японии совершенно не совместимы. Все эти системы характеризуются несколько иным отношением ширины картинки к высоте 16:9 вместо 4:3, что ближе к форме кадра 35-мм пленки на которую до сих пор снималось кино. Весь мир готовится к переходу на цифровое телевидение. В простейшем варианте цифровое видео - это последовательность кадров, каждый из которых характеризуется прямоугольной матрицей пикселей. Пиксел можно характеризовать одним битом, тогда мы получим качество, которое получается при передаче цветной фотографии обычным факсом. При описании пикселя 8 битами можно иметь до 256 уровней яркости, что вполне пригодно для черно-белого видео. Для цветного отображения картины используются электронно-лучевые трубки, где по соседству располагаются три окошка маски, по одному для каждого из цветов. В этом вы можете убедиться, вооружившись лупой и рассмотрев через нее экран своего дисплея. Непрерывный аналоговый сигнал строчной развертки в цифровом варианте заменяется последовательностью кодов, длина которой определяется разрешением по горизонтали. В цифровом варианте возможна замена черезстрочной развертки отображением одного и того же кадра четыре раза. К сожалению, для широковещательного телевидения такое решение неприемлемо, так как современные телевизионные приемники не имеют памяти.

Известно, что для корректной передачи цвета требуется 16 миллионов оттенков (8 бит на каждую из трех цветовых компонент). Самое интересное, что человеческий глаз не способен различить такое число оттенков! Таким образом, для описания картинки на экране, содержащей 575 линий по 720 пикселей, требуется 1,240 Мбайта. Для передачи такой информации по B-каналу ISDN, если не используется сжатие данных, потребуется около 2,5 минут. Эта цифра помогает понять актуальность проблемы сжатия графической информации. XGA-стандарт дисплея (1024×768 × 24 бита на пиксел при 24 кадрах/сек) требует потока цифровых данных 453 Мбит/с.

При передаче чисто текстовой информации электронная почта имеет по этой причине абсолютное преимущество перед факсом, ведь в случае факса передается отсканированное черно-белое изображение. В перспективе можно ожидать внедрения обязательного сжатия информации при передаче почтовых сообщений с последующей дешифровкой данных принимающей стороной. Первым шагом на этом пути является внедрение системы MIME. Такое усовершенствование электронной почты сделает ее еще более грозным конкурентом факс-машин. Ведь передача графических образов уже не является монополией факсимильных систем, а возможность шифрования почтовых сообщений (например, в PGP) и электронные подписи делает электронную почту более устойчивой в отношении перехвата.

Современная транспортировка мультимедийных данных совершенно не мыслима без использования одного или даже нескольких методов сжатия информации.

В 1968 году CCITT разработала рекомендации по факсимильному оборудованию, которое было способно передавать страницу за 6 минут при разрешении 3.85 линий на мм. Позднее в 1976 году аналоговая факсимильная техника была улучшена. Это позволило сократить время передачи страницы до 3 минут. В 1980 году разработан стандарт для цифровых факс-машин (группа 3), здесь уже предусматривается сжатие информации, что позволяет сократить время передачи страницы до 1 мин при скорости передачи 4800 бит/с. Следует иметь в виду, что сжатие информации в сочетании с ошибками пересылки может приводить к неузнаваемости изображения локальному или полному. По этой причине число линий сканирования, которые используются при обработке изображения, с целью сжатия может варьироваться (1-4) и определяется в результате диалога между отправителем и получателем, а передача каждой скан-линии завершается довольно длинным кодом, предназначенным для надежного распознавания завершения строки сканирования, а также коррекции ошибок. Факсимильное оборудование группы 3 может и не обеспечивать сжатия передаваемых (принимаемых) данных. В 1984 году разработаны требования к факс-аппаратам группы 4. Система базируется на двухмерной системе кодирования изображения (MMR - Modified Modified Reed).

Факсимильное оборудование поделено на 4 группы. Первая группа практически совпадает с традиционным фототелеграфным оборудованием (6 минут на страницу при разрешении 3.85 линий на миллиметр). Динамической вариации кодовой таблицы не предусмотрено. При этом для кодирования очередной линии сканирования используются результаты, полученные для предшествующей линии. Следует учитывать, что зона сканирования факс-машины больше размера изображения и всегда имеются пустые строки и поля, что предоставляет дополнительные возможности для сжатия передаваемой информации. Существует три режима кодирования: вертикальный, горизонтальный и проходной. Последний режим реализуется, когда позиция в эталонной строке a2 находится слева от b1 (см. рис. 2.5.2; вериткальному и горизонтальному режиму соответствует нижняя часть рисунка). При “вертикальном” режиме кодирования (a2 справа от b1 и |b1a1|<= 3) позиция b1 кодируется относительно позиции a1. Относительное положение b1a1 может принимать одно из семи значений V(0), V_R(1), V_R(2), V_R(3), V_L(1), v_L(2) и V_L(3) (см. табл. 2.5.1). Индексы r и l указывают на то, что b1 находится справа или слева по отношению к a1, а число в скобках обозначает расстояние b1a1. Если используется “горизонтальный” режим кодирования (a2 справа от b1 и |b1a1|>3), длины b0b1 и b1b2 отображаются с помощью кодовой комбинации H+M(b0b1)+M(b1b2). H представляет собой код 001, взятый из двумерной кодовой таблицы. M(b0b1) и M(b1b2) являются кодовыми словами, которые характеризуют длину и цвет субстрок b0b1 и b1b2 соответственно.

Рис. 2.5.2. Режимы кодирования: проходной; вертикальный; горизонтальный

Стандарт JPEG (Joint Photographic Expert Group) имеет четыре режима и много опций. Схема работы алгоритма JPEG с частичной потерей данных показана на рис. 2.5.3. Коэффициент сжатия данных составляет 20:1 или даже больше.

Рис. 2.5.3. Преобразование данных в протоколе JPEG

Отображение графического образа может выполняться последовательно (примерно так, как мы читаем текст: слева направо и сверху вниз) или с использованием прогрессивного кодирования (сначала передается вся картинка с низким разрешением, затем последовательно четкость изображения доводится до максимальной). Последний метод весьма удобен для систем WWW, где, просмотрев изображение низкого разрешения, можно отменить передачу данных, улучшающих четкость, и тем самым сэкономить время. Хорошо распознаваемое изображение получается при сжатии порядка 0,1 бита на пиксел.

Факс-оборудование группы 4 может поддерживать так называемый расширенный режим, когда часть рабочего поля кодируется без использования алгоритмов уплотнения информации (как правило, это участки, где попытка сжать либо ничего не дает, либо даже приводит к увеличению объема передаваемых данных). Оборудование этой группа использует на канальном уровне процедуры HDLC LAPB. Рекомендуемой полосой пропускания канала, к которому подключается такое оборудование, является 64 Кбит/с.

Таблица 2.5.1. Кодирование элементов изображения

Режим кодирования	Элементы, подлежащие кодированию	Обозначение	Код
Проход	a1a2	p	0001
Горизонтальный	b0b1,b1b2	h	001+m(b0b1)+m(b1b2)
Вертикальный	b1 под a1 b1a1=0 b1 справа от a1 b1a1=1 b1a1=2 b1a1=3 b1 слева от a1 b1a1=1 b1a1=2 b1a1=3	v(0) v_r(1) v_r(2) v_r(3) v_l(1) v_l(2) v_l(3).	1 011 000011 0000011 010 000010 0000010 0000001ххх

Перед началом передачи терминалы должны обменяться своими идентификаторами (TID - terminal identification). В последнее время появились факс-аппараты, которые печатают изображение на обычную бумагу с разрешением 300-400 точек на дюйм. Такая схема удобна, но имеет некоторые недостатки. Такие аппараты дороги, печать может начаться не ранее, чем будет передана вся страница; передающий аппарат может иметь более низкое разрешение, нужно уметь адаптироваться к любому разрешению, что приводит к тому, что скорость печати изображения при низком разрешении остается столь же низкой, как и при высокой.

В 1970 году в Бритиш Телеком были разработаны основные принципы еще одного вида передачи графической информации - телетекста, первые опыты по его внедрению относятся к 1979 году. Стандарт на мозаичное представление символов был принят CEPT в 1983 году. Каждому символу ставится в соответствие код длиной в 7-8 бит. На экране такой символ отображается с помощью специального знакового генератора, использующего таблицу.

Полному экрану видео текста, содержащему 24 строки по 40 символов, соответствует 960 байт, для передачи которых по коммутируемой телефонной сети требуется 6,4 секунды. D-канал ISDN может пропустить эту информацию за 1 сек, а B-канал быстрее за 0,1 сек. Телетекст позволяет более эффективно использовать каналы связи и не налагает чрезмерных требований на устройства отображения.

Известно, что для корректной передачи цвета требуется 16 миллионов оттенков (8 бит на каждую из трех цветовых компонент). Таким образом, для описания картинки на экране, содержащей 575 линий по 720 пикселей, требуется 1,240 Мбайта. Для передачи такой информации по B-каналу ISDN, если не используется сжатие, потребуется около 2,5 минут. Эта цифра помогает понять актуальность проблемы сжатия графической информации. Таким образом, чтобы выдержать конкуренцию со стороны электронной почты разработчикам факс-систем нужно упорно работать.

Стандарты для представления и передачи изображения разрабатывает Joint Photographic Expert Group (JPEG). Для сжатия графической информации в настоящее время используется дискретное косинусное двухмерное преобразование (DCT - Discrete Cosine Transform), которое дает субъективно наилучший результат и описывается уравнением:

[2.5.1]

где v - горизонтальная координата графического блока, u - вертикальная, x - вертикальная координата внутри блока, а y - горизонтальная координата внутри блока, C(u), C(v) = 1/ для u,v = 0 и С(u), С(v) = 1 в противном случае. Два члена в квадратных скобках являются ядрами преобразования, показанными ниже на рис. 2.5.4, а p(x,y) представляет собой пиксельные данные блока реального рисунка. Начало координат в обоих случаях в верхнем левом углу. Процесс кодирования сводится к разбиению изображения на блоки 8*8 пикселей и выполнению процедуры двухмерного DCT для каждого из этих блоков. Полученные коэффициенты преобразования дискретизируются. 64 числа, характеризующие уровень сигнала, превращаются в 64 коэффициента преобразования (амплитуды пространственных частот), которые хорошо поддаются процедуре сжатия. Дискретизатор округляет коэффициенты, эта процедура вносит некоторые ошибки, но обратное преобразование на принимающей стороне за счет усреднения частично устраняет вносимые искажения. На практике дискретизатор реализует несколько более сложный алгоритм.

Интуитивно метод DCT базируется на выявлении того, насколько вышестоящий блок отличается от нижестоящего. Для реального представления (сжатия) коэффициентов преобразования здесь также используются коды Хафмана.

Рис. 2.5.4. Графическое представление двухмерного преобразования по формуле [2.5.1]

DCT обеспечивает сжатие на уровне 0.5-1.0 бит/пиксель при хорошем качестве изображения. Сжатие требует времени, а максимально приемлемым временем задержки при пересылке изображения является 5 секунд. На рис. 2.5.5 приведена качественная оценка четкости и соответствия оригиналу изображения в зависимости от величины сжатия (DCT). Если использовать скорость обмена 64 кбит/с, то степени сжатия 0,01 бита на пиксель будет соответствовать время передачи изображения 0,04 секунды, а сжатию 10 - время передачи 40сек.

Рис. 2.5.5. Качество DCT-изображения для различных значений сжатия информации (картинка имеет разрешение 512*512 пикселей; заполненные квадратики соответствуют цветному изображению, а незаполненные - черно-белому)

Отдельную проблему представляет печать изображения. Здесь полутона реализуются с помощью вариации размера элементов изображения. При цветной печати помимо RGB представления используется CMYC система ( Cyan, Magenta, Yellow и Black)и соответствующие картриджи. Черный цвет в RGB соответствет коду 0,0,0, а в CMIK - 75%; 68%; 67% и 90%. Сжатие требует времени, а максимально приемлемым временем задержки при пересылке изображения является 5 секунд. Если использовать скорость обмена 64 Кбит/с, то степени сжатия 0,01 бита на пиксел будет соответствовать время передачи изображения 0,04 секунды, а сжатию 10 - время передачи 40сек. Порядок передачи оцифрованных значений не совпадает с классической схемой развертки и отображен на рис. 2.5.6.

Рис. 2.5.6. Порядок передачи оцифрованных параметров изображения в рамках стандарта JPEG

Все системы сжатия требуют наличия двух алгоритмов: один для сжатия данных отправителем, другой для восстановления получателем. Эти алгоритмы принципиально асимметричны. Во-первых, для многих приложений мультимедийный документ, например, фильм может быть сжат один раз (при записи на сервер или DVD-диск), а декодироваться тысячи раз на стороне клиентов. По этой причине процедура сжатия может быть достаточно сложной, дорогой и долгой. Алгоритм же декодирования должен быть достаточно простым и дешевым. Впрочем, в случае видеоконференций медленное кодирование (сжатие) совершенно неприемлемо. По этой причине алгоритмы сжатия данных в реальном масштабе времени принципиально отличаются от алгоритмов кодирования данных при записи на видео или DVD.

Еще одним источником асимметрии сжатия-декомпрессии для мультимедиа является отсутствие требования обратимости процедур. В результате работы программы декомпрессии получится совсем не тот файл, который поступил на вход программы сжатия медиа-данных. Это происходит потому, что процесс сжатия в этом случае сопряжен с потерей части данных. Схемы сжатия могут быть поделены на две категории: энтропийное кодирование и кодирование отправителем.

Энтропийное кодирование подразумевает сжатие данных без потери. К этому типу относится, например алгоритмы Хафмана и Зива-Лемпеля (статистическое сжатие). Рассмотрим также простой случай такого кодирования. Пусть мы имеем кодовую последовательность:

314159260000000000000271828182811111111110707193800000002001

Предположим также, что каким-то образом мы добились того, что символ R в последовательности встретиться не может, тогда указанную выше строку можно переписать в виде:

31415926R0132718281828R11007071938R072001

Здесь повторения одного и того же символа отображаются символом R, за которым следует код повторяющегося символа и число этих повторений. Понятно, что в такой схеме двойные или тройные повторения какого-либо сокращения строки не вызовут. Еще одним примером энтропийного кодирования является метод CLUT (Color Look Up Table). При RGB-представлении изображения каждый пиксел характеризуется тремя байтами, что соответствует 224 оттенков. На практике такое многообразие встречается не так уж часто. Например, в случае мультипликационного фильма число цветов может не превышать 256. Можно получить коэффициент сжатия почти в три раза путем построения таблицы объемом в 768 байт, куда будут занесены коды используемых 256 цветов. Каждый пиксел в этом варианте характеризуется индексом его RGB-кода в таблице. Данный алгоритм может служить примером, когда кодирование более трудоемко, чем декодирование.

Кодирование на стороне отправителя обычно сопряжено с потерей определенной доли данных. Одним из довольно часто используемых способов кодирования является привлечение дифференциальных методик. Здесь предполагается, что значительных изменений уровня сигнала быть не может. Если это происходит, то данные теряются и неизбежны искажения. Другим примером кодирования этого рода является DCT, описанное выше. Еще одним кодированием отправителя можно считать векторное дискретное преобразование изображения. Такое преобразование подразумевает разбивку изображения на равные прямоугольные области. Формируется также кодовая книга, которая также содержит набор прямоугольных блоков изображения, возможно получаемых из некоторой картинки. Вместо пересылки прямоугольника изображения посылается значение индекса соответствующего элемента из кодовой книги. Если эта книга формируется динамически, то она также должна быть послана получателю. При этом подразумевается, что исходное изображение может быть разложено на элементы, содержащиеся в кодовой таблице. В принципе данный метод представляет собой двухмерную реализацию алгоритма CLUT. В реальной картинке могут встретиться фрагменты, несовпадающие элементами из кодовой книги. В этом случае может быть выполнена подмена элементом, наиболее похожим на имеющийся фрагмент.

Проблема сжатия и передачи движущегося изображения еще сложнее. Алгоритм кодирования такого изображения описан в рекомендациях CCITT H.261 и предполагает, что скорость передачи при этом лежит в интервале 40кбит/с - 2Мбит/с. Следует иметь в виду, что видео телефония и видеоконференции требуют синхронной передачи звука и изображения (стандарт H.221, например 46,4 Кбит/с для видео и 16 Кбит/с для звука). Нормальный формат телевидения имеет 625 и 525 строк развертки и частоту кадров 25-30 в секунду. Цветное телевидение использует сигналы R (red), G (green) и B (blue), причем яркость луча (y) определяется соотношением: Y = 0.30R + 0.59G + 0.11B (при отображении белого цвета). Информация о цветах определяется формулами: С_B = B - Y и C_R = R - Y. Зная величины y, C_B и С_R, можно восстановить значения R, G и B. При сжатии цветного изображения учитывается тот факт, что человеческий глаз извлекает большую часть информации из контуров предметов, а не из цветных деталей. Например в рекомендации CCIR 601 предлагается использовать полосу 13.5 Мгц для кодирования Y и только по 6.75 Мгц для С_B и C_R. Такая схема требует 216 Мбит/с, что в 3375 раза превышает возможности стандартного 64кбит/с B-канала ISDN. Приемлемыми решениями могут быть:

снижение числа строк до 288 (формат 625 строк) для отображения яркости;
использование максимально возможного сжатия графических данных;
повышение пропускной способности канала. Для разрешение по горизонтали вполне достаточно 3 Мгц. Рекомендация 601 требует 720 пикселей для яркости и 360 для каждой из составляющих цветов. В настоящее время используется стандарт CIF (Common Intermediate Format). Для некоторых приложений рекомендовано вдвое более низкое разрешение по каждой из осей (quarter CIF). PCM-кодирование CIF с 8 битами на пиксель требует 352х288х(1+1/4+1/4)х29.97х8 = 36.5 Мбит/с.

Проблема сжатия информации была, есть и всегда будет актуальной. При известных современных методах, чем больше эффективность сжатия - больше задержка (наилучший результат можно получить, используя сжатие всего фильма, чем кадра или тем более строки). В каждом конкретном случае выбирается то или иное компромиссное решение. При работе в реальном масштабе времени, где в процессе обмена участвует человек, задержки более секунды вызывают раздражение, и приходится ограничиваться сравнительно скромными коэффициентами сжатия.

При просматре нескольких кадров мы можем предсказать, что будет на очередном кадре. Эта особенность в перспективе может дать новые возможности для компрессии изображения.

При пересылке движущегося изображения производится сравнение текущего кадра с предшествующим. Если кадры идентичны, никакого информационного обмена не происходит. Если кадры отличаются лишь смещением какого-то объекта, выявляются границы этого объекта, направление и величина вектора его перемещения. Так как использование индивидуальных векторов перемещения для каждого пикселя слишком расточительно, используется общий вектор для блока пикселей 16*16 по яркости и для соответствующего блока 8*8 по цвету. Точность задания вектора перемещения обычно лежит в пределах 1/2 пикселя (стандарт MPEG-2). Только эта информация и передается по каналу связи. Выявление движущихся объектов осуществляется путем вычитания изображения двух последовательных кадров. Если бы передавалась всегда только разница кадров, происходило бы накопление ошибок. Кроме того, как кодер, так и декодер содержат прямой и обратный DCT-преобразователь. Если комбинация прямого и обратного DCT-преобразования не приводит к получению исходного объекта, то такого рода эффекты могут заметно усилиться. Для исключения этого время от времени производится передача непосредственно видеосигнала. Практически преобразователь изображения представляет чудо современной технологии, которое даст работу еще не одному поколению математиков и инженеров.

Нисколько не проще система передачи и мультиплексирования потока видео данных, который содержит помимо обычной информации описания формы движущихся объектов, векторы перемещения, коэффициенты дискретизации и многое другое. Схема передачи графической информации имеет 4-х уровневую, иерархическую структуру. Передача каждого кадра изображения начинается с 20-битного кода PSC (Picture Start Code, эта сигнатура позволяет выделить начало кадра изображения в общем потоке), далее следует 5-битовый код TR (Temporal Reference, временная метка, которая позволяет поместить соответствующую часть изображения в правильную точку экрана). Изображение пересылается частями, имеется 4 уровня: кадр, группа блоков GoB (Group of Blocks), макроблоки (MB) и просто блоки.

Ядро всей структуры составляет процедура передачи кадра (внутренний слой, существуют еще слои GoB, MB и блока, см. рис. 2.5.7, 2.5.8, 2.5.9)

Рис. 2.5.7. Схема передачи кадра изображения

Поле Ptype содержит 6 бит, которые характеризуют формат изображения (используется ли формат CIF или QCIF). Однобитное поле PEI указывает на то, следует ли далее 8-битное поле PSpare (предназначено на будущее). Если PEI=0, начинается цикл передачи GoB. Группа блоков составляет одну двенадцатую картинки CIF или одну треть QCIF. GoB описывает Y (яркость), 176 пикселей для каждой из 48 строк и соответствующие 88*24 элементов для C_B и C_R.

GBSC - (Group of Blocks Start Code) представляет собой 16-разрядное слово, за которым следует 4 бита номера GoB (GN - GoB number). GN указывает, какой части изображения соответствует данный GoB. Поле gquant имеет 5 бит и указывает на номер преобразователя (одного из 31 дискретизаторов), который используется данным GoB. Смысл GEI идентичен PEI. GEI и GSpare позволяют сформировать структуру данных, идентичную той, что используется на уровне кадра.

Формат пересылки mb сложнее (см. [17]). Каждый GoB делится на 33 макроблока (MB), каждый из которых соответствует 16 строкам по 16 пикселей Y (четыре блока 8*8) и C_B и C_R. Каждый макроблок начинается с его адреса MBA (MacroBlock Address), имеющего переменную длину и определяющего положение макроблока в GoB.

Рис. 2.5.8. Блок-схема кодирования и передачи изображения

Макроблоки не передаются, если данная часть изображения не изменилась. За MBA следует код переменной длины Mtype, характеризующий формат макроблока (применен ли метод подвижного вектора MVD и т.д.) и последующую информацию. CBP (Coded Block Pattern) представляет собой кодовое слово переменной длины, которое несет в себе информацию о том, какой из шести блоков преобразования (8*8) содержит коэффициенты (слой блоков). CBP нужно не для всех типов макроблоков. Каждый блок завершается флагом EOB (End of Block).

Рис. 2.5.9. Размещение блоков в макроблоках

Сама природа алгоритма кодирования и передачи графических данных такова, что число бит передаваемых в единицу времени зависит от характера изображения. Чем динамичнее изменяется картинка, тем больше поток данных. Для выравнивания потока данных широко используется буферизация. Буферизация в свою очередь порождает дополнительные задержки, которые в случае видео-конференций или видео-телефонии не должны превышать нескольких сотен миллисекунд.

Так как при передаче изображения широко используются коды переменной длины, она крайне уязвима для любых искажений. В случае ошибки будет испорчена вся информация вплоть до следующего стартового кода GoB. Из-за рекурсивности алгоритма формирования картинки, искажения будут оставаться на экране довольно долго. Использование векторов перемещения может привести к дрейфу искажений по экрану и расширению их области. Для того чтобы уменьшить последствия искажений, в передаваемый информационный поток включаются коды коррекции ошибок BCH (511,493; Forward Error Correction Code), которые позволяют исправить любые две ошибки или кластер, содержащий до 6 ошибок в блоке из 511 бит (см. рис. 2.5.10). Алгоритм работает в широком диапазоне скоростей передачи информации. Для реализации коррекции ошибок в поток двоичных данных включается 8 пакетов, каждый из которых включает в себя 1 кадровый бит, 1 бит индикатор заполнения, 492 бита кодированных данных и 18 бит четности. Поле Fi (индикатор заполнения) может равняться нулю, тогда последующие 492 бита не являются графической информацией и могут игнорироваться. Алгоритм предназначен для работы в динамическом диапазоне частот 40:1.

Рис. 2.5.10. Схема передачи данных с коррекцией ошибок

Во время переговоров или в ходе видеоконференции может возникнуть необходимость отобразить текст, выделить на экране какой-то объект, послать факс и т.д. Для решения таких задач можно использовать D-канал, но это не оптимально, так как он имеет свои специфические функции. Поэтому более привлекательным представляется создание специального протокола, работающего в рамках B-канала (H.221). Для этих целей используется младший бит каждого из октетов, что позволяет создать канал с пропускной способностью 8 Кбит/с. этот сервисный канал использует кадры по 80 бит. Первые 8 бит служат для целей синхронизации (FAS - Frame Alignment Signal) и выполняют следующие функции:

выделение начала кадра (исключение имитации этого в информационном потоке);

выделение начала блока кадров (опционно до 16 кадров);

выполнение функций счетчика в многокадровых блоках (по модулю 16), может использоваться в многоточечных соединениях;

нумерация соединений;

CRC-контроль (опционно);

”A-бит” для определения кадр/мультикадр/синхронизация при пересылке в противоположном направлении (A=0 - передача, см. также структуру кадров isdn );

При работе с каналами на 384, 1536 и 1920 Кбит/с сервисный канал использует тайм-слот 1. Следующие 8 бит имеют название BAS (Bit Allocation Signal) и выполняют следующие функции:

код, характеризующий возможности канала (узко/широко полосная передача звука, различные видео параметры, тип шифрования и т.д.);
коды команд, определяющие значения передаваемых кадров;
ESC-последовательности.

Очевидно, что BAS-коды (H.242) должны быть надежно защищены от ошибок. Для этой цели они пересылаются с использованием кодов, допускающих коррекцию ошибок. При работе оба приемника непрерывно ищут разделительный код кадров. Когда он обнаружен, бит А для выходного канала делается равным нулю. Только после получения А=0 терминал может быть уверен в том, что удаленный терминал правильно воспринял код BAS. Работа с кодами BAS описана в документе H.242. При установлении режима обмена терминалы обмениваются командами BAS. Команда действительна для последующих двух кадров, следовательно, при частоте кадров 100 Гц, изменения режима могут производиться каждые 20 мс.

Многоточечный вызов может рассматриваться как несколько связей между терминалами и бриджом MCU (Multipoint Control Unit) по схеме точка-точка. Простой MTU передает на каждый из терминалов смешанный аудио-сигнал от остальных терминалов. Каждый терминал осуществляет широковещательную передачу для остальных терминалов, участвующих в обмене. При видео обмене на терминал выводится только одна картинка. Дополнительную информацию по данной тематике можно найти в рекомендациях H.231, H242 и H.243.

Для передачи нормального телевизионного изображения необходимо 364 Кбит/с (4х64 Кбит/c). Интеграция телевидения с сетями передачи данных, появление видеотелефона и широкое внедрение видеоконференций становится велением времени. Требования к каждому из этих видов услуг варьируется значительно в зависимости от приложения. Например, ставшие обычными телевизионные мосты требуют высокого качества передачи изображения и звука. А в некоторых дорогостоящих отраслях науки, где международное сотрудничество стало неизбежным, важным является передача статических изображений (чертежи, схемы, описания алгоритмов, и т.д.) с высоким (иногда более высоким, чем в телевидении) разрешением. Здесь важно передать звук с приемлемым качеством (но заметно хуже, чем на ТВ) и обеспечить синхронное перемещение маркера мыши по экрану в ходе обсуждения переданного документа. Экономия только на авиа билетах (не говоря о командировочных и времени экспертов) способна перекрыть издержки по оплате канала для видеоконференции. В этом режиме приемлемым может считаться один кадр в 1-4 секунды.

Рисунок известного французского художника Клода Серрэ из книги “Черный юмор и люди в белом” (см. начало раздела) может служить иллюстрацией того, к чему может привести использование протокола TCP при передаче изображения в реальном масштабе времени. Предположим, что в процессе передачи изображения носа пакеты были повреждены, тогда спустя некоторое время, определяемое размером окна (TCP), будет проведена повторная их передача. Тем временем переданные ранее пакеты будут использованы для построения изображения, а часть картинки, содержавшаяся в пакетах, посланных вместо поврежденных, будет отображена совсем не там, где это следует. Реально из-за повреждения пакетов возможны в этой версии и более тяжелые искажения изображения. Именно это является причиной использования UDP для передачи видео и аудио информации при видео и аудио конференциях (еще лучшего результата можно достичь, использую протокол RTP). Протокол UDP не требует подтверждения и повторной передачи при ошибке доставки. Поврежденные пакеты вызовут искажения изображения (или звука) лишь локально.

Ситуация меняется в случае посылки изображения или звукового послания по электронной почте. Здесь в случае повторной передачи пакетов в конечном итоге будет сформирован файл, уже не содержащий ошибок. Такое решение приемлемо всякий раз, когда большая задержка появления изображения или звука не играет никакой роли.

Стандарт MPEG-1 и -2

Стандарт MPEG 1 (ISO 11172; см. http://www.chiariglione.org/mpeg/standards /mpeg-1/mpeg-1.htm) определяет методы сжатия данных, позволяющие довести скорости передачи видео- и аудио информации до 1,5 Мбит/с, что соответствует скоростям обмена обычных CD-ROM. Стандарт MPEG-2 содержит в себе 9 частей. Первые три стали международными стандартами MPEG-2. (см. http://www.chiariglione.org/mpeg/ standards/ mpeg-2/mpeg-2.htm; ISO/IEC JTC1/SC29/WG11).

Часть 1 MPEG-2 относится к объединению одного или более элементарных аудио или видео потоков, а также прочих данных в один или несколько потоков, удобных для записи или передачи.

Программный поток подобен создаваемому системами мультиплексирования MPEG-1. Он формируется в результате объединения одного или более элементарных потоков пакетов PES (Packetized Elementary Streams), которые имеют общую временную шкалу. Программный поток формируется для использования в относительно надежной среде и удобен для приложений, которые могут включать в себя программную обработку данных. Пакеты программного потока могут иметь переменную и относительно большую длину. Модель систем MPEG-2 показана на рис.

Рис. 2.5.11. Модель систем MPEG-2

Транспортный поток объединяет один или более потоков PES с общей или разными временными шкалами. Элементарные потоки с общей временной шкалой образуют программу. Транспортный поток формируется для использования в относительно ненадежной среде, где вероятны ошибки, например память или транспортная среда с высоким уровнем наводок или шума. Пакеты транспортного потока имеют длину 188 байт.

Часть 2 MPEG-2 предоставляет мощные возможности сжатия видеоданных стандарта MPEG-1 и обладает широким диапазоном средств кодирования. Эти средства группируются в профайлы, обеспечивая разнообразную функциональность. В таблице 2.5.3 "X" отмечены возможности, которые реализуются стандартом.

Таблица 2.5.3. Видео профайлы MPEG-2

Уровень	Простой	Основной	SNR масштаб	Пространственно масштабируемый	Высокий	Multiview	4:2:2
Высокий		X			X
Высокий-1440		X		X	X
Основной	X	X	X		X	X
Низкий		X	X

С момента окончательного одобрения MPEG-2 Видео в ноябре 1994, был разработан еще один профайл. Он использует существующие средства кодирования MPEG-2 Видео, но способен работать с изображениями, имеющими разрешение 4:2:2 и более высокую скорость передачи. Несмотря на то, что MPEG-2 Видео не разрабатывался для студийных целей, серия выполненных тестов показала, что MPEG-2 достаточно хорош, а во многих случаях даже лучше, чем предлагается спецификациями, разработанными для более высоких скоростей передачи или студийных приложений.

Профайл 4:2:2 был окончательно одобрен в январе 1996 и сейчас является неотъемлемой частью стандарта MPEG-2 Видео.

Профайл Multiview (MVP) является еще одной из последних разработок. Он позволяет, используя существующие средства кодирования MPEG-2, эффективно закодировать последовательность кадров, полученных от двух камер, снимающих одну и ту же сцену (например, для получения стерео образа).

Часть 3 MPEG-2 представляет собой обратно совместимое многоканальное расширение стандарта MPEG-1 аудио. На рис. 2.5.14 показана структура блока данных MPEG-2 аудио, демонстрирующая это свойство.

Рис. 2.5.12. Структура блока аудио-данных в MPEG-2

Части 4 и 5 MPEG-2 соответствуют частям 4 и 5 MPEG-1.

Часть 6 MPEG-2 - Команды и управление цифровой медийной записью DSM-CC (Digital Storage Media Command and Control) представляет собой спецификацию набора протоколов, которые реализуют средства для управления потоками данных в MPEG-1 и MPEG-2. Эти протоколы могут использоваться для поддержки приложений для автономных и распределенных систем. В модели DSM-CC, поток исходит от сервера и поступает клиенту. Сервер и клиент рассматриваются в качестве пользователей сети DSM-CC. DSM-CC определяет логические объекты, называемые сессией и менеджером ресурсов SRM (Session and Resource Manager), которые осуществляют логическое централизованное управление сессиями и ресурсами (см. рис. 2.5.13).

Рис. 2.5.13. Эталонная модель DSM-CC

Часть 7 MPEG-2 является спецификацией алгоритма кодирования многоканального аудио, полностью совместимого с MPEG-1.

Часть 8 MPEG-2 первоначально планировалась для кодирования видео, когда входные кодировщики выдают по 10 бит на одно стробирование. Работа была приостановлена, когда выяснилось, что промышленность проявляет ограниченный интерес к этой проблеме.

Часть 9 MPEG-2 является спецификацией интерфейса реального времени RTI (Real-time Interface) для декодеров транспортного потока, которые могут использоваться с любыми сетями.

Часть 10 является секцией стандарта, предназначенной для тестирования DSM-CC.

Работа над форматом MPEG-2 была завершена в 1997 г. Стандарт MPEG-2 является усовершенствованием MPEG-1 и базируется на схеме шифрования с потерями и передачи без потерь. Кодирование в MPEG-2 идентично используемому в MPEG-1 (I- P- и B-кадры; D-кадры не используются). I-кадр (Intracoded) представляет собой изображение, закодированное согласно стандарту JPEG при полном разрешении по яркости и половинном разрешении по цвету. Такие кадры должны появляться периодически, чтобы исключить накопления ошибок (включаются в выходной поток 1-2 раза в сек). Эти кадры обеспечивают совместимость с MPEG-1. P-кадры (Predictive) содержат отличие блоков в последнем кадре изображения по отношению к предыдущему кадру. P-кадры базируются на идее макроблоков, которые содержат 16*16 пикселей яркости и 8*8 пикселей цветности. Для декодирования P-кадра необходимо иметь исчерпывающие данные о предыдущем кадре. B-кадры (Bi-directional) характеризуют отличие двух последовательных изображений. B-кадры сходны с P-кадрами, но позволяют устанавливать связь макроблоков не только с предшествующим, но и с последующим кадром. Кадры следуют в последовательности: I B B P B B P B B I. Здесь применено двойное косинусное преобразование с числом коэффициентов 10*10 (против 8*8 в MPEG-1). D-кадры (DC-Coded) используются, для получения изображения низкого разрешения при быстрой перемотке вперед или назад.

Для изображения с размером 356×260 пикселей и 24-битовок кодах цвета коэффициенты сжатия для MPEG-1 представлены в таблице ниже.

Тип	Размер	К-т сжатия
I	18 кбайт	7:1
P	6кбайт	20:1
B	2,5кбайт	50:1
Среднее	4,8кбайт	27:1

Если кадр 356×260 требует 4,8кбайт, то это создаст следующий видеопоток:

30 кадров/сек × 4,8 кбайт/кадр × 8 бит/пиксель = 1,2 Мбит/сек

MPEG-2 предназначен для широковещательного телевидения (включая прямое спутниковое - DBS) и для записи на CD-ROM и поддерживает четыре разных стандарта разрешения: 352*240 (низкое), 720*480 (базовое), 1440*1152 (высокое-1440) и 1920*1080 (высокое). Последние два стандарта относятся к телевидению высокого разрешения (HDTV). Низкое разрешение служит для обеспечения совместимости с MPEG-1. Стандарт MPEG-1 может работать в режиме, когда для сжатия данных используется алгоритм JPEG. Эта схема удобна в случае произвольного доступа к любому из кадров, например, для их редактирования. С точки зрения эффективности сжатия это совсем не лучшее решение, так как не используется тот факт, что последовательные кадры отличаются друг от друга незначительно. Даже простой метод дифференциального сжатия (передача отличия нового кадра от предыдущего) окажется эффективным. Здесь предполагается, что фон кадра и положение видео-камеры являются стационарными. Базовое разрешение ориентировано на работу со стандартом NTSC.

Из этих данных можно получить оценку сверху для пропускной способности визуального канала человека. Из-за инерциальности человек не различает более 25 кадров в секунду. Один кадр содержит 1920*1080*24=49766400 бит (здесь предполагается, что человек может различать 2²⁴ оттенков цветов (в реальности возможности много ниже). Угол нашего зрения много шире телесного угла, перекрываемого телевизионным экраном, но относительно высокое разрешение мы имеем лишь в близи той точки, на которую мы сфокусировались. Таким образом, мы можем воспринимать <<1244 Мбит/сек. Практически, эта оценка на несколько порядков выше реального значения. Понятно, что мозг может обработать на много порядков меньший объем информации. Оценку возможностей нашей обработки можно получить из скорости быстрого чтения, когда человек воспринимает содержимое страницы за время порядка 15 сек. Страница содержит примерно 3 кбайта, что дает скорость приблизительно 200 байт в сек. Эту цифру можно считать оценкой снизу (ведь буква это графический образ, а не байт).

Помимо этого MPEG-2 поддерживает 5 профайлов для различных прикладных областей. Основной профайл ориентирован на общие приложения с базовым разрешением. Простой профайл сходен с основным профайлом, но не работает с B-кадрами, чтобы облегчить процедуры кодирования/декодирования. Остальные профайлы служат для обеспечения масштабируемости и работы с HDTV, они отличаются цветовым разрешением и форматами информационных потоков. Скорость передачи данных для каждой комбинации разрешения и профайла различна и лежит в диапазоне от 3 до 100 Мбит/c. Для обычного ТВ характерна скорость 3-4 Мбит/c.

Кодирование в MPEG-2 идентично используемому в MPEG-1 (I- P- и B-кадры; В-кадры не используются). I-кадр (Intracoded) представляет собой изображение, закодированное согласно стандарту JPEG при полном разрешении по яркости и половинном разрешении по цвету. Такие кадры должны появляться периодически. Эти кадры обеспечивают совместимость с MPEG-1, и исключают влияние накопления ошибок в процессе передачи. P-кадры (Predictive) содержат отличие блоков в последнем кадре изображения (базируются на идее макроблоков). B-кадры (Bidirectional) характеризуют отличие двух последовательных изображений. Здесь применено двойное косинусное преобразование с числом коэффициентов 10*10 (против 8*8 в MPEG-1). MPEG-2 предназначен для широковещательного телевидения (включая прямое спутниковое - DBS) и для записи на CD-ROM и поддерживает четыре разных стандартов разрешения: 352*240 (низкое), 720*480 (базовое), 1440*1152 (высокое-1440) и 1920*1080 (высокое). Низкое разрешение служит для обеспечения совместимости с MPEG-1. Базовое разрешение ориентировано на работу со стандартом NTSC. Последние два стандарта относятся к телевидению высокого разрешения (HDTV). Помимо этого MPEG-2 поддерживает 5 профайлов для различных прикладных областей. Основной профайл ориентирован на общие приложения с базовым разрешением. Простой профайл сходен с основным профайлом, но не работает с B-кадрами, чтобы облегчить процедуры кодирования/декодирования. Остальные профайлы служат для обеспечения масштабируемости и работы с HDTV, они отличаются цветовым разрешением и форматами информационных потоков. Скорость передачи данных для каждой комбинации разрешения и профайла различна и лежит в диапазоне от 3 до 100 Мбит/c. Для обычного ТВ характерна скорость 3-4 Мбит/c. В таблице 2.5.4 представлены размеры кадров в битах для MPEG-1 и MPEG-2.

Таблица 2.5.4. Размеры кадров MPEG-1 и MPEG-2

	Тип кадра
	i	p	b	Средний
mpeg-1 (1,15 Мбит/с)	150,000	50,000	20,000	38,000
mpeg-2 (4 Мбит/c)	400,000	200,000	80,000	130,000

Мультиплексирование аудио- и видеоданных в MPEG-2 показано на рис. 2.5.11. На выходе пакетизатора мы имеем элементарные потоки пакетов (PES- Packetized Elementary Stream), содержащих около 30 полей, включая длину, идентификаторы потоков, временные метки, контрольные суммы и т.д. В MPEG-2 формируется два комплексных потока, программный поток (PS) длинных пакетов переменной длины сходный с MPEG-1, содержащий видео и аудио данные и имеющий общую временную шкалу, и транспортный поток (TS) пакетов постоянной длины (188 байт) без общей временной шкалы. В последнем случае минимизируется влияние потерь пакетов в процессе транспортировки. Предусмотрено выделение в потоке составляющих разной степени важности (например, DCT-коэффициентов и обычных графических данных).

Рис. 2.5.14. Мультиплексирование аудио и видео данных в MPEG-1 и MPEG-2 (внизу)

Преобразование аналогового сигнала в цифровую последовательность осуществляется в MPEG-2 с помощью кодеков, создавая первичный поток в 140 Мбит/с, который затем преобразуется для передачи через стандартные каналы 1,5 и 15 Мбит/с (например, для прямого широковещательного, спутникового телевидения). В соответствии со стандартом сжатия данных H.320 можно обеспечить передачу видео + аудио по каналу 56 кбит/с с низким разрешением и частотой 1 кадр/сек. Смотри раздел "Видеоконференции по каналам ISDN и Интернет".

Интерактивное телевидение

В последнее время благодаря широкому внедрению цифрового телевидения и новых стандартов передачи изображения (MPEG-2) открылись возможности для "телевидения по требованию" (интерактивного телевидения) - системы, где клиент может самостоятельно и индивидуально формировать ТВ-программу. Первые опыты такого рода относятся к 1995 году. Такие системы базируются на существующих сетях кабельного телевидения. Но развитие оптоволоконных технологий позволяют ожидать полной интеграции кабельного цифрового телевидения и информационных сетей Интернет. Следует, впрочем, заметить, что оптоволокно в каждом жилище является пока непозволительной роскошью. Общая схема такой системы показана на рис. 2.5.15.

Рис. 2.5.15. Схема реализации интерактивного телевидения

Базовый мультимедийный сервер может обслуживать отдельный район города. В пределах квартала размещается промежуточный центр, где размещается локальный буферный сервер, где записываются фрагменты программ, заказанные локальными клиентами. Только новостийные и некоторые спортивные программы передаются в реальном масштабе времени, все фильмы берутся из локальной фильмотеки или предварительно записываются в накопитель из центрального мультимедиа-сервера. Транспортной средой здесь может стать ATM, SDH или Fibre Channel. Оптическое волокно доходит до квартального сервера или даже до дома клиента. Индивидуальная раздача сигнала на терминалы (телевизоры) может осуществляться через существующие телевизионные кабели. В этом случае по имеющимся каналам может передаваться не только программа телевидения и осуществляться телефонные переговоры, но выполняться полное информационное обслуживание. Сюда может включаться, помимо заказа ТВ-программ, подписка на газеты, заказ билетов на транспорт или в театр, получение прогноза погоды и данных о состоянии дорог, доступ к базам данных, включая библиотеки и фонотеки и многое другое.

Особый интерес представляет возможность практически полного вытеснения традиционных газет. Клиент сможет получать только интересующие его статьи из любых газет (и только их и оплачивать). Если какая-то статья его заинтересует и он захочет почитать ее позднее в машине или на даче, он сможет ее распечатать на принтере, подключенном к его телевизору-терминалу.

Цены на цветные принтеры в настоящее время спустились ниже 100 долларов, таким образом нужная копия уже сейчас дешевле стоимости газеты. Экономия на бумаге и средствах доставки очевидны, да и необходимость в типографиях отпадет, ведь даже книги можно будет получить непосредственно дома (хотя привлекательность данной услуги и не вполне очевидна - хорошо сброшированная и переплетенная книга будет привлекательным объектом еще долго (прогноз относительно будущих книг сотри в разделе "Заключение"). Массовое внедрение таких технологий будет стимулировать падение цен на соответствующие процессоры и принтеры. Интерактивная схема подключения телевизора-терминала сделает возможным многие новые виды развлечений, а также выполнение многих покупок, не выходя из дома. Традиционной почте подписала отсроченный приговор почта электронная, но появление интерактивных широкополосных средств завершит многовековую историю почты (да и телеграфа). Ей будет оставлена доставка товаров, билетов и документов. Побочным продуктом прогресса в данной области станет общедоступный видеотелефон. Схема видео-сервера представлена на рис. 2.5.16.

Рис. 2.5.16. Блок-схема видео сервера для интерактивного телевидения

Видео-сервер может содержать несколько процессоров (ЦПУ) со встроенной локальной памяти. Такой сервер должен иметь несколько систем архивов и достаточно мощный сетевой канал. Один кинофильм требует для записи около 4 Гигабайт. Используемые запоминающие устройства образуют иерархическую структуру: ЗУПВ (запоминающее устройство с произвольным доступом), дисковая память (RAID – Redundant Array of Inexpensive Discs), CD и картриджи магнитных лент. ЗУПВ имеют минимальное время доступа, относительно малую емкость и достаточно высокую цену, а магнитные ленты – наоборот – относительно дешевы, характеризуются большим временем доступом, но достаточно большой емкостью. Сетевой интерфейс связывает сервер с центральной инфраструктурой телевизионной сети. Но нужно учитывать, что одна из главных составляющих видео-сервера на рисунке не показана – это управляющее программное обеспечение, которое должно решать проблему буферизации и шифрования огромного объема данных для достаточно большого числа клиентов.

В жилье клиента будет входить оптоволоконный кабель, завершающийся интерфейсной коробкой с разъемами для подключения телефона, телевизора и ЭВМ. Даже современные ограниченные скорости передачи позволяют решить стоящие проблемы. Во-первых люди не смотрят телевизор круглые сутки, это позволяет ночью или в рабочее время, когда клиент на службе, произвести передачу нужных фрагментов ТВ-программы на локальный сервер. Во-вторых популярность фильмов и программ не однородна, что также снижает требование на широкополосность. Известно, что наиболее популярный фильм запрашивается примерно в К раз чаще, чем фильм, занимающий к-ое место в списке популярности (эмпирический закон Ципфа (Zipf), выведенный из статистики контор по прокату видеокассет). Это означает, что из предлагаемого списка будут выбраны не все фильмы, а наиболее популярные фрагменты программ можно передавать по схеме MBONE, минимизируя загрузку каналов (смотри также описание протокола PIM). Способствовать решению данной проблемы будет и появление CD с емкостью 4 Гбайта. Но проблем здесь остается немало, так трудно себе представить, что все клиенты захотят смотреть один и тот же фильм в одно время. Решение подобной задачи потребует очень большого объема буферной памяти и ощутимо поднимет требования к широкополосности канала. "Синхронизовать" клиентов можно будет дифференциацией оплаты для разных временных интервалов, и группированием клиентов, заказавших близкие времена начала демонстрации фильмов, путем предварительного оповещения. Но несмотря на все эти ухищрения, локальные серверы должны будут иметь сложную иерархическую систему буферной памяти, базирующейся на разных принципах работы (CD, магнитная лента, дисковая память и даже RAM).

В связи с ростом числа сотрудников, работающих из дома, растут требования к полосе канала (см. The Art of Teleworking, Polycom). Эволюция требований к полосе представлена на рис. 2.5.17.

Рис. 2.5.17. Требования к полосе видео-канала при разном разрешении и качестве

Практическая реализация фантастической схемы, предложенной в предыдущем абзаце, уже осуществляется в США и Канаде. Здесь есть немало проблем, например, нужен дешевый широкополосный кабельный модем (смотри раздел "Модемы", там же приведена схема подключения телевизора-терминала через кабельный модем). Предстоит написать огромное число различных сервисных программ, но все базовые технологии уже существуют.

MPEG-3 разрабатывался для систем телевидения высокой четкости с разрешением 1920×1080×30 при скорости потока данных 20-40 Мбит/с. Этот формат стал частью стандарта MPEG-2. Формат MP3 (не надо смешивать с MPEG-3) предназначен только для сжатия аудиоинформации. В формате МР3 предусмотрено три вида сжатия двухканальных аудио данных join stereo, stereo, dual channel (последний обеспечивает наилучшее качество).

Принципиально новым шагом в обработке мультимедиа стал стандарт MPEG-4, где впервые был введен объектный подход к анализу изображений и звука. Здесь же введено понятие сцены и базовые принципы ее описания, заложены основы интерактивного взаимодействия слушателя/зрителя со сценой, впервые рассматриваются в практической плоскости вопросы интеллектуальной собственности.

Современные серверы, используемые для обработки и генерации видео-материала, формируют до 1 Тбайта в минуту.

Появились приложения, которые позволяют средствами нейронных сетей осуществлять преобразование изображения (реальные фотографии), например, состарить (FaceApp), или раздеть (DeepNude). Приложения могут работать даже на smartphone.

2.5 Методы преобразования и передачи изображения

Семенов Ю.А. (ИТЭФ-МФТИ)Yu. Semenov (ITEP-MIPT)

Стандарт MPEG-1 и -2

Интерактивное телевидение

Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)