В рубрику "Новые продукты" | К списку рубрик | К списку авторов | К списку публикаций

Алгоритмы сжатия аудио для целей вещания

Проблема передачи необходимого количества аудиоканалов по сети ограниченной емкостью вынуждает нас прибегать к сжатию звука. Несмотря на применение современных цифровых технологий, сжатие негативно сказывается на качестве звука и вызывает дополнительную задержку при передаче сигнала

Сергей Безуглов
Менеджер отдела радиовещания AUDIO SOLUTIONS

В настоящее время применяются два принципиально различных подхода к сжатию звукового сигнала. В этой статье будет дано общее сравнение между этими двумя различными принципами сжатия. А также представлены графики АЧХ (амплитудно-частотной характеристики) образца звука в оригинальном несжатом виде и после одного цикла кодирования и декодирования с использованием MPEG Layer ll и Enhanced apt-X.

В таких алгоритмах, как MPEG и AAC, используется кодирование с использованием психоакустической модели восприятия звука. Другой подход – это временное кодирование, использующее адаптивную относительную импульсно-кодовую модуляцию (ADPCM – Adaptive differential PCM) в алгоритмах типа Enhanced apt-X.

Линейное PCM-аудио

Перед компрессией аудио, как правило, оцифровывается в формате линейной импульсно-кодовой модуляции на частотах 32 кГц, 44,1 или 48 кГц с 16- или 24-битным разрешением.

Аналоговый сигнал будет оцифрован в цифровой несжатый PCM. Цифровые входы кодеков используют передискретизацию для обеспечения конвертации без проблем с синхронизацией. Несжатый PCM-сигнал является для нас эталоном для сравнения сжатых аудиофайлов.

На рис. 1 показана АЧХ несжатой PCM-записи женского вокала на 44.1 кГц, 16 бит.

Сжатие MPEG Layer ll

MPEG 1 Layer ll является широко используемым форматом. Это типичный пример алгоритма кодирования на основе психоакустического восприятия, который анализирует входящий сигнал и сравнивает его с теоретической моделью для того, чтобы определить, какая частота и информация о временной области могут быть потеряны. Необходимость анализа аудиосигнала дает обязательную задержку, как правило, свыше 30 мс.

Теоретически можно достичь высоких степеней сжатия, но даже при относительно низком сжатии MPEG может серьезно снизить качество звука. На рис. 2 показана АЧХ после одного прохода кодирования MPEG исходного файла.

Обратите внимание на частоты, потерянные или искаженные по сравнению с первоначальным аудио PCM.

Сжатие Enhanced apt-X

Enhanced apt-X использует технологию обработки звука ADPCM. Сигнал разделяется на четыре частотные полосы, которые могут быть обработаны четвертью от первоначальной частотой дискретизации, используя переменную битность и переменный шаг квантования. Поскольку вся обработка основывается на способе временной области, то нет задержки, помимо необходимого фактического времени обработки.

В результате коэффициент сжатия 4:1 сохраняет все частотное содержание исходного сигнала с менее чем 3 мс задержкой кодирования. График АЧХ на рис. 3 показывает результат одного прохода кодирования/декодирования с использованием Enhanced apt-X при 256 кбит/с и иллюстрирует высокую точность воспроизведения Enhanced apt-X в сравнении с оригинальным несжатым сигналом.

Как работает Enhanced apt-X

Алгоритм кодирования Enhanced apt-X пропускает исходные PCM-данные через специально разработанный двухступенчатый квадратурный зеркальный фильтр для разделения сигнала на четыре поддиапазона и понижает тактовую частоту до 1/4 от исходной. Процедура квантования состоит из обработки четырех субсигналов для сокращения каждого 16-битного сигнала до 7 бит в поддиапазоне 1, 4 бита в поддиапазоне 2, 3 бита в поддиапазоне 3 и 2 в поддиапазоне 4.

Обратный квантователь и схема прогнозирования использует предыдущие значения для предсказания размера следующего сигнала. Это значение сравнивается с фактическим сигналом, и “разница” измеряется. Кодер передает на декодер эту измеренную “разницу” сигнала. Каждый поддиапазон обрабатывается параллельно, и выход из квантователя и предсказателя цепи кодируется с заранее определенным разрешением. Выход от обработки всех четырех поддиапазонов мультиплексируется в один 16- или 24-битный Enhanced apt-X-сигнал. Затем к нему добавляются для передачи данные синхронизации и дополнительные.

Сравнение по основным пунктам

MPEG/AAC-кодирование является деструктивным: частоты теряются в процессе кодирования.
Enhanced apt-X кодирование не является деструктивным, так как каждая частота, присутствующая в исходном сигнале, сохраняется в закодированном и декодированном сигнале.
MPEG&AAC страдают от эффекта конкатенации: повторные циклы кодирования и декодирования быстро ухудшают качество звука.
Enhanced apt-X устойчив к конкатенации: повторные циклы кодирования и декодирования не производят каких-либо заметных снижений качества звука.
MPEG&AAC провоцирует задержку: в лучшем случае 20 мс для AAC LD (“низкая задержка”), от 30 до 100 мс для MPEG Layer ll.
Enhanced apt-X – это алгоритм с низкой задержкой: кодирование и декодирование выполняется менее чем за 3 мс.

Аудиокодеки для вещания

Все последние аудиокодеки фирмы APT передают по IP-сетям звук высочайшего качества с низкой задержкой с использованием линейного аудио и алгоритма аудиосжатия Enhanced APT-X.

Технология SureStream доступна в следующих моделях:

WorldCast Horizon Next Gen

Бюджетный профессиональный IP-аудиокодек. Имеет большинство IP-функций, включаемых в профессиональные IP-кодеки APT, и является первым, построенным по технологии SureStream.

Основные характеристики:

Два IP-порта для двойного потока или раздельных каналов управление/поток.
Неразрушающее, устойчивое кодирование по алгоритму Enhanced apt-X.
Передача вспомогательных данных RBDS/RDS или PAD.
Резервирование аудио с SD-карты или USB.
Интуитивный Web-интерфейс.
Два блока питания (опционально).

WorldNet Oslo 1u

Компактный модульный многоканальный кодек поддерживает до 16 каналов аудио. Платформа 1U может вместить до 4 AOIP-модулей, каждый из которых эквивалентен автономному стереодуплексному кодеку, объединяющему аудио, двойной IP-транспорт и вспомогательные данные на борту.

WorldCast Stream In/Out Silver

WorldCast Stream In/Out Silver объединяет IP-аудиокодер и IP-аудиодекодер для доступной по цене, но в то же время профессиональной доставки аудиоконтента по IP-сетям. Прибор поддерживает широкий спектр профессиональных и потребительских форматов аудио.

Основные характеристики:

SureStream на один порт.
Полный спектр алгоритмов в стандартной комплектации: Eapt-X, Linear PCM и HE-AAC v1/2.
Компактный дизайн 1/2U.
Совместимость с APT и NACIP-совместимых кодеков SIP/SDP#.
Интуитивный веб-интерфейс.
Бесшумная работа.
Двунаправленная передача данных Aux.
Мониторинг через наушники.

WorldNet Oslo 3u

Это самый мощный и гибкий из кодеков APT. Модульный, многоканальный WorldNet Oslo позволяет передавать до 24 моно- или 12 стереоканалов высококачественного аудио по единственному соединению T1, E1 или IP.

Опубликовано: Журнал "Broadcasting. Телевидение и радиовещание" #7, 2014
Посещений: 13726

Автор

Сергей Безуглов

Менеджер отдела радиовещания AUDIO SOLUTIONS

Всего статей: 6

В рубрику "Новые продукты" | К списку рубрик | К списку авторов | К списку публикаций

Алгоритмы сжатия аудио для целей вещания

Алгоритмы сжатия аудио для целей вещания

Линейное PCM-аудио

Сжатие MPEG Layer ll

Сжатие Enhanced apt-X

Как работает Enhanced apt-X

Сравнение по основным пунктам

Аудиокодеки для вещания

Сергей Безуглов

Мы в соцсетях