Контакты
Подписка
МЕНЮ
Контакты
Подписка

Цифровое и аналоговое вещание. Пути развития. Стандарт сжатия MPEG. Часть I

В рубрику "Оборудование и технологии" | К списку рубрик  |  К списку авторов  |  К списку публикаций

Цифровое и аналоговое вещание. Пути развития.Стандарт сжатия MPEG
Часть I

В прошедшей публикации “Цифровое и аналоговое вещание. Пути развития. Стандарт сжатия JPEG”, опубликованной в журнале “Broadcasting. Телевидение и радиовещание” № 4 (144), сентябрь, 2018 год, обсуждались идеи и математика способов сжатия цифровых потоков информации при передаче неподвижных изображений или отдельных кадров телевизионного изображения, таких как: импульсно-кодовая модуляция (ИКМ);дифференциальная импульсно-кодовая модуляция (ДИКМ) (кодирование сигнала “с предсказанием”);групповое кодирование с использованием дискретного косинусного преобразования (ДКП);метод кодирования по Хаффмену. Их использование привело к обоснованию Международного стандарта сжатия JPEG, который принят за основу технологии внутрикадрового кодирования. Для большего сжатия телевизионной информации применяются методы межкадрового кодирования
Алексей Синятынский
Генеральный директор ООО “Фирма “Интеграл-Т”, к.ф.-м.н., ч.-к. МАОН

Дифференциальная импульсно-кодовая модуляция (ДИКМ). Кодирование сигнала “с предсказанием”

Мы уже упоминали о кодировании “с предсказанием”, основой которого является метод ДИКМ. Метод хорошо и органично подходит для работы со статистическими свойствами реальных ТВ-изображений, в которых присутствует сильная корреляция между значениями отсчетов. Для предсказания значения отсчета можно использовать корреляционные соотношения следующих друг за другом кадров. При этом запоминающие устройства в кодере и декодере фиксируют необходимое число кадров. В системах с ДИКМ в качестве блока предсказания используется блок временной задержки Δt. Если Δt – период времени, равный периоду дискретизации, то в качестве предсказанного значения текущего отсчета используется предыдущий отсчет. Если Δt равен периоду строчной развертки, то предсказанное значение отсчета берется равным значению отсчета предыдущего кадра.

Устройство-вычитатель определяет разность предсказанного и текущего значения сигнала. Полученная разность квантуется, как правило, с намного меньшим количеством разрядов квантования, чем для передачи значений отсчетов начального сигнала. Таким образом, в квантователе с уменьшением количества двоичных разрядов возникает ошибка. Требуемое количество разрядов квантования восстанавливается в накопительном сумматоре декодера, поэтому в системе передачи информации по каналу связи выходной и входной сигналы будут отличаться друг от друга на величину накопленных ошибок, вносимых квантователем за время передачи сигнала. Таким образом, в выходном сигнале происходит накопление ошибок. Для устранения ошибок, как правило, универсальным методом коррекции является обратная связь, но при этом в такой системе необходимо создание двух каналов связи, прямого и обратного, что для телевизионного вещания из-за значительных трудностей является проблематичным.

Для этого в канале связи системы с ДИКМ используется прием, называемый кодированием “с утечкой”. В этом случае алгоритм работы сумматоров в линии связи работает по алгоритму, подобному RC-цепи вида:

где y(n) – выходной сигнал, k – все отсчеты без ошибок, Sn (k) – функция входного сигнала, m – показывает скорость спада в накопителе вклада ошибки, то есть если в каком-то такте в канале связи возникла ошибка, то через 3m тактов вклад ошибки во входной сигнал сводится к “0”.

Введение “утечки” в функцию накапливающих сумматоров снижает эффективность ДИКМ, то есть требует увеличения символьной скорости в канале связи. Однако другого результата и не следует ждать, так как теория связи говорит, что это есть необходимое условие для увеличения помехоустойчивости канала. Поэтому одним из распространенных методов повышения помехоустойчивости систем с ДИКМ является периодическая передача опорных отсчетов в рамках обычной системы ИКМ. При этом после каждого приема опорного отсчета в декодере формирование выходного сигнала по принимаемой ошибке происходит заново, а все накопившиеся до этого ошибки аннулируются.

Все предыдущие рассуждения о методе кодирования сигналов “с предсказанием”, используемом для компрессии цифрового потока, передаваемого по каналу ТВ-вещания, предполагали, что опорный кадр содержит неподвижный фон и перемещающиеся объекты.

Межкадровый ДИКМ “с компенсацией движения”

Однако это не совсем отражает действительность, так как в реальных телевизионных кадрах окружающий фон находится в движении. В этом случае рассчитано, что для реализации метода необходимо вместе с цифровым телевизионным сигналом передавать параметры вектора смещения или вектора движения объекта в картинке и взять в приемной системе декодера в качестве предсказанного кадра кадр со смещением на вектор движения. При этом мы значительно подвергаем компрессии цифровой поток, так как, чтобы показать изменившуюся картинку, нам необходимо передать только два параметра вектора движения, а не все параметры и коэффициенты, как при обычной межкадровой ДИКМ. Такой способ кодирования цифрового телевизионного сигнала называется межкадровым ДИКМ с компенсацией движения.

Технология выполнения выбора и оценки векторов движения сводится к разбивке исходного телевизионного кадра, приходящего на вход кодера, на макроблоки. Обычный размер макроблока составляет 16x16 элементов изображения. Для каждого макроблока R(k,l), имеющего координаты по горизонтали и вертикали k и l, присваивается вектор движения a1 (Δi, Δj)kl. Для этого путем перебора осуществляется поиск возможных значений вектора движения a1 (Δi, Δj)kl и вычисляется величина, равная разности суммы квадратов всех элементов n-го макроблока χ(i, j, n) и элементов смещенного на указанный вектор реконструированного в цепи обратной связи кодера кадра n-1, то есть χ(i, j, n-1). Здесь i и j – это номера элемента в строке и строки в макроблоке с координатами k и l. Таким образом, в качестве предсказанных значений элементов макроблока в кадре χ(i, j, n) берутся элементы реконструированного предыдущего кадра χ(i, j, n-1), смещенного на вектор a1 (Δi, Δj)kl, являющийся минимальным значением этого параметра и обозначенный r1 (i, j, n). Сигнал с такими параметрами поступает в устройство вычитания, где формируется значение разностного сигнала S(i, j, n), передаваемого по каналу связи. Аналогично работает и блок предсказания в декодере, то есть в нем также осуществляется смещение элементов предыдущего кадра на получившийся вектор r1 (i, j, n) в макроблоке. Необходимо отметить, что выбор вектора движения в каждом макроблоке происходит в пределах предварительно установленного предела смещений, на которые сдвигается объект за один период кадровой развертки.

Такой способ сокращения скорости цифрового потока в канале связи на основе оценки и компенсации движения макроблоков получил название “метод соответствующих блоков”, или Block Matching. Более обобщенные методики оценки движения при переходе от предыдущего кадра к настоящему предполагают изменение не только координат макроблоков, но и угловых смещений и деформацию объектов в кадре.

Цифровое преобразование аналогового цветного телевизионного сигнала. Компонентное кодирование

Касаемо цветного телевизионного вещания необходимо вспомнить следующее. Не будем забывать, что полный цветной телевизионный сигнал либо видеосигнал характеризуется четырьмя параметрами:

  • сигналом яркости уровня Y;
  • сигналами R, G, B, являющимися уровнями красного, зеленого и синего цвета.

При передаче цветного изображения по каналу связи учитывается, что зрение человека менее чувствительно к изменению уровней цветности, нежели уровня яркости сигнала. Это явление также применяется для уменьшения скорости передачи цифрового сигнала по каналу связи, используя уменьшение занимаемой полосы частот путем удаления части цветового сигнала. Зритель не замечает изменения цветового сигнала из-за уменьшения цветового разрешения, то есть изменения частоты дискретизации цветовых отсчетов. Известно, что значения R, G, B связаны с уровнем сигнала яркости Y-выражением

где Kr, Kg, Kb – весовые коэффициенты, характеризующие хроматический состав цветового сигнала, связанные соотношением

В соответствии с нормативом ВТ.601 Kr = 0,299, Kb = 0,114 и Kg = 0,587. На практике обычно пользуются цветоразностными сигналами:

В системе формата YUV они связаны соотношениями:

Центральная идея, реализованная в формате YUV, основана на том, о чем мы говорили ранее. Перефразируя ее, можно сказать, что человеческое зрение менее чувствительно к вариабильности частоты дискретизации цветовых отсчетов, нежели к дискретизации сигнала яркости.

Существует несколько конфигураций перегруппировки в блоки, макроблоки и вырезки последовательности кодированных отсчетов сигнала яркости Y и сигналов цветности R и B видеоинформации, поступающей на вход видеокодера. Вырезки – это срезы и слайсы, которые состоят из групп последовательных макроблоков, объединяемых общей шкалой квантования. Иными словами, существует несколько форматов цифрового кодирования цветной видеокартинки.

Три компоненты Y, R, B, представленные в базовых блоках-матрицах 8x8, закодированные в цифровом виде, объединяются и образуют макроблок. Каждый макроблок состоит из четырех блоков яркости и четырех блоков цветности (по два блока Сr и Сb). Тут сразу проявляется так называемый формат 4:2:2. Частота дискретизации составляет 6,75 МГц для цветоразностных сигналов и 13 МГц для нечетных отсчетов сигнала яркости, являющихся кратными частоте строчной развертки.

Впоследствии происходит выстраивание макроблоков в том порядке, в котором они появляются, чтобы получить вырезку. Вырезка состоит из макроблоков, к которой добавляются биты обнаруженной ошибки. Если на этапе декодирования обнаруживается ошибка, то декодер не регистрирует информацию, содержащуюся в этой вырезке, и переходит к следующей. В конечном итоге последовательность вырезок восстанавливает полный видеокадр, состоящий из составляющих изображения Y, Сr , Сb, готовый к следующему этапу кодирования.

Форматы могут быть разными. Мы уже упоминали о формате 4:2:2. При этом макроблок, как мы поняли, состоит из восьми блоков (четырех блоков яркости Y, двух Сr и двух Сb). Формат 4:4:4 содержит макроблок, состоящий из 12 блоков (четырех Y, четырех Сr и четырех Сb). Скорость цифрового потока при использовании этого формата составляет 206 Мбит/с.

Внутренняя организация макроблоков различна при кодировании кадров в различных форматах. Последовательность макроблоков объединяют в независимые серии, называемые слайсами. Слайс обычно содержит изображение и состоит из всех блоков в горизонтальном направлении изображения и имеет толщину в один макроблок. Серия является основным элементом синхронизации для восстановления данных. Порядок макроблоков в серии тот же, что и при сканировании растра в телевидении, – сверху вниз и слева направо. Слайс – это основной элемент синхронизации, служит для восстановления данных, составляющих изображение. Такое представление информации сериями удобно для коррекции ошибок в декодере. Количество ошибок меняет количество серий, что определяет эффективность передачи информации.

Почти стандартным является использование формата цифрового кодирования 4:2:0. При дискретизации в этом формате на четыре отсчета яркости Y приходится один отсчет красного сигнала Сr и один отсчет синего Сb цветов. В таком формате скорость передачи данных сокращается и составляет 162 Мбит/с. Для картинки с размерами LxH при несжатом изображении, следующем с частотой кадров fr в цветовом формате YUV, скорость потока вычисляется из выражения

Для примера: если взять один из самых малых типичных форматов видеоинформации (176x144), используемый при передаче через мобильную связь, составляющий ¼ от стандарта (704x576), соответствующий цветовой системе PAL, при частоте кадров fr = 25кадр/c, для q = 8-битовому кодовому слову, скорость составляет RYUV = 7,6 Мбит/с. В целом скорость передачи существенно сокращается. Однако этого недостаточно для использования в цифровой мобильной связи и тем более при интернет-трансляции цветной видеоинформации.

Стандарты сжатия MPEG

Для преодоления этого недостатка используются алгоритмы сжатия стандарта кодирования видео H.264 или стандарт усовершенствованного кодирования MPEG-4 Part10, разработанный в 2003 году. Это некий итоговый формат сжатия видео или телесигнала, который является последней разработкой в области компрессии цифрового сигнала. Так как разработкой занимались несколько международных организаций, включая ISO, ITU и т.д., вышеназванный стандарт имеет несколько названий. Это и AVC, JVT, H.26L, H264 и MPEG-4 Part10. Кодек H.264 состоит из тех же элементов, что и MPEG-1, MPEG-2, MPEG-4, H261 и H.263.

Как происходит в этих стандартах удаление временной избыточности? Мы уже упоминали о том, что различие между двумя последовательными видеокадрами очень небольшое, поэтому нет необходимости передавать полностью кадр за кадром. Технология временного сжатия организована на группе изображений из 12 кадров. Это так называемые GOP – Group of Pictures. Содержимое первого кадра в GOP запоминается и используется как I-эталонный для 11 последующих. Содержимое второго кадра после I-го – эталонного сравнивается с ним, и образуется разностный кадр P (Рredicted – предсказуемый). Затем аналогичная процедура совершается последовательно для каждых двух на всех кадрах вплоть до 12-го. Затем для последующей группы из 12 кадров образуется свой I-эталонный кадр. По технологии максимальное сжатие информации получается в P-кадрах. Ну а повышенное сжатие получается при использовании сжатия “с прямым предсказанием” и предсказанием “с компенсацией движения”.

“Прямым предсказанием” является технология формирования P-кадров, включающая предсказание ожидаемой разности между макроблоками последовательных кадров и передачу предсказанных в обработку. В “прямом предсказании” в качестве эталонного используется I-кадр или P-кадр, но он является восстановленным, и возникающие в кадре P ошибки будут передаваться в последующие до появления очередного I-кадра.

Предсказание “с компенсацией движения” сводится к сравнению содержимого предыдущего и последующего кадра для формирования конструированного кадра, то есть B-кадра (Backward-Prediction-кадра). B-кадры нежелательно использовать как эталонные. Поэтому в конечном итоге среди GOP кадров мы имеем восемь B-кадров, три P-кадра и один I-кадр. Сравнивая структуру яркостного содержания в последовательности кадров, можно предсказать вектор скорости и направления движения элементов структуры. Это относительно малый объем информации, который направляется к генераторам P- и B-кадров. Как только вектор движения детерминирован, он используется для формирования сигналов Y, Сr и Сb.

Далее, как и в технологиях JPEG-сжатия для удаления пространственной избыточности на основе группового кодирования с использованием ДКП, используется процессор ДКП как основное устройство кодирования видеоинформации. I-, B- и P-кадры поступают в виде потока блоков 8x8, структурированных в макроблоки и вырезки, образуя один видеокадр изображения, так как они могут являться частью кадра яркости Y или кадров цветности Сr и Сb. Перед ДКП каждое числовое значение в блоке 8x8 – это значение уровня в соответствующем отсчете, например яркости пикселя. При квантовании матрица ДКП каждого блока 8x8 переводится в последовательность через зигзагообразное сканирование, начиная с верхнего левого угла матрицы и заканчивая правым нижним для подачи на хаффменовский кодер. Полученная матрица ДКП кодируется с учетом физиологии зрения человека. Тут учитывается, что зрение человека наиболее чувствительно к градациям яркости укрупненных деталей картинки. Поэтому шаг квантования коэффициентов нулевых пространственных частот делается минимальным, а для высоких частот максимальным.

На этом пока остановимся. Дальнейшее повествование о MPEG продолжим в следующей статье.

Опубликовано: Журнал "Broadcasting. Телевидение и радиовещание" #6, 2018
Посещений: 8357

  Автор

 

Алексей Синятынский

Генеральный директор ООО “Фирма “Интеграл-Т”, к.ф.-м.н., ч.-к. МАОН

Всего статей:  10

В рубрику "Оборудование и технологии" | К списку рубрик  |  К списку авторов  |  К списку публикаций