Курсовая работа: Сжатие речи на основе алгоритма векторного квантования

В данной курсовой работе представлена разработка алгоритма функционирования системы, обеспечивающей сжатие речи с помощью векторного квантования, и программная реализация алгоритма в системе MATLAB и на языке С.

Приводится исследование влияния на работоспособность системы аддитивных шумов, разработка и исследование программной реализации системы на основе ЦПОС. Разработана система сжатия речи, обеспечивающая сжатие речи до уровня 2400 бит/с и ниже и и подсистема декодирования в реальном времени с помощью алгоритма векторного квантования. Предусмотрены несколько ступеней сжатия. Обеспечена работа системы в двух режимах: дикторо-зависимом и дикторо-независимом. Система реализована в пакете MATLAB и на языке С.

СОДЕРЖАНИЕ

Введение

1. Постановка задачи

2. Описание существующих методов сжатия речи

Возможно вы искали - Курсовая работа: Сигналы BIOS

3. Описание выбранного метода сжатия

4. Разработка программы на MATLab

5. Тестирование на MATLab

6. Системные требования

Заключение

Похожий материал - Учебное пособие: Сигналы и их характеристика

Библиографический список

Приложение А. Текст программы на MATLab

Приложение Б. Текст программы на С

ВВЕДЕНИЕ

При передаче речи по цифровым каналам связи, будь то сотовая или Интернет-телефония, самый важный вопрос - это сколько информации (число бит в единицу времени) придется передавать по каналам, чтобы снабдить пользователя качественной голосовой связью. Ответ на него в каком-то смысле определяет все - стоимость и качество предоставляемых пользователям услуг и аппаратуры, емкость и масштабируемость сети передачи данных и многое другое.

Очень интересно - Реферат: Сигналы и их характеристики

Сжатие речи при ее передаче сокращает объем передаваемых данных, затраты и, благодаря этому, позволяет снижать цены на услуги и привлекать новых пользователей. Именно поэтому рынок цифровой телефонии развивается под непосредственным технологическим диктатом ученых и разработчиков кодеков речи.

Очевидно, что, начиная с каких-то пороговых значений соотношения скорости передачи и доступной емкости каналов, операторы связи имеют достаточную (для развития и своего, и рынка) прибыль. В настоящее время можно сказать, что этот порог уже превышен. Это привело к тому, что расценки на цифровую связь стали более чем конкурентны по сравнению с проводной аналоговой, а благодаря скорому переходу к кодекам речи на скорости порядка 2,4 кбит/с и ниже, цена минуты междугородного разговора может в ближайшие годы снизиться до нескольких центов за минуту.

Сказав про успехи, нельзя не сказать хотя бы пару слов и о недостатках. Качество звучания сжатой речи, что в сотовой, что в Интернет-телефонии оставляет желать лучшего. Некоторые (из тех, кто имеет такой выбор) до сих пор предпочитают аналоговые сотовые сети цифровым, поскольку в последних речь часто звучит механически, случаются посторонние звуки и т. п. - и все из-за сжимающих кодеков речи, так как в остальном цифровые протоколы передачи обеспечивают лучшее качество звучания. В компьютерной телефонии снижению качества, помимо кодеков речи, способствует заметное запаздывание сигнала и ошибки при сборке пакетов. Впрочем, понятно, что если с кодеком на 2,4 кбит/с "узкий" канал справляется с трудом, то на скорости 1,2 кбит/с проблем будет меньше. Да и пропускная способность компьютерных сетей возрастает настолько быстро, что в ближайшей перспективе сетевая задержка снизится в несколько раз. И тогда и у пользователей, и у операторов на первое место могут встать высокие требования именно к низкоскоростным кодекам речи.

Речь представляет собой колебания сложной формы, зависящей от произносимых слов, тембра голоса, интонации, пола и возраста говорящего. Спектр речи весьма широк (примерно от 50 до 10000 Гц), но для передачи речи в аналоговой телефонии когда-то отказались от составляющих, лежащих вне полосы 0,3-3,4 кГц, что ухудшило восприятие ряда звуков (например, шипящих, существенная часть энергии которых сосредоточена в верхней части речевого спектра), но мало затронуло разборчивость. Ограничение частоты снизу (до 300 Гц) также ухудшает восприятие из-за потерь низкочастотных гармоник основного тона. А в цифровой телефонии к влиянию ограничения спектра добавляются еще шумы дискретизации, квантования и обработки, дополнительно зашумляющие речь.

Решающими в выборе полосы 0,3-3,4 кГц были экономические соображения и нехватка телефонных каналов. Потребности пользователей в каналах сделали тогда вопросы качества речи второстепенными.

Вам будет интересно - Контрольная работа: Симплекс метод решения задачи линейного программирования

Для совместимости по полосе с распространенными аналоговыми сетями в цифровой телефонии отсчеты аналоговой речи приходится брать согласно теореме Котельникова с частотой 8 кГц - не меньше двух отсчетов на 1 Гц полосы. Правда, в цифровой телефонии существует принципиальная возможность использовать спектр речи за пределами полосы 0,3-3,4 кГц и тем самым повысить качество, но эти методы не реализуются, так как они вычислительно пока еще очень сложны. Впрочем, кое-что появляется: уже разработаны универсальные кодеки для компьютерной телефонии и мультимедиа, способные передавать не только речь, но и музыку. При полосе исходного сигнала до 6 кГц и тактовой частоте отсчетов около 16 кГц сжатый цифровой сигнал требует для передачи канал в 12 кбит/с.

Озвученная речь, представляющая большую трудность для сжатия, образуется с помощью звуковых связок человека. Скорость их периодических колебаний задает так называемую частоту основного тона (ОТ) - энергию голосового тракта человека, который представляет собой объемный резонатор. Голосовой тракт формирует спектральную окраску речи или, другими словами, ее формантную структуру. Другое название голосового тракта - синтезирующий фильтр - нам более удобно, так как математическое описание речеобразования обычно ведется в терминах линейной фильтрации. Тогда, условно, речевой сигнал можно разделить на две составляющие, отвечающие за (1) ОТ (возбуждение фильтра) и (2) голосовой тракт (формантная структура сигнала). Соответственно, большинство на сегодня используемых алгоритмов, так или иначе, решают один вопрос - как наиболее эффективно выделить и сокращенно описать обе составляющие.

1 ПОСТАНОВКА ЗАДАЧИ

Необходимо разработать систему сжатия речи, обеспечивающую сжатие речи до уровня 2400 бит/с и ниже с помощью алгоритмов векторного квантования. Предусмотреть несколько ступеней сжатия. Обеспечить работу системы в двух режимах: дикторо-зависимом и дикторо-независимом. Реализовать систему в пакете MATLAB и подсистему декодирования в реальном времени с помощью ЦПОС TMS320C7711/5402.

2 ОПИСАНИЕ СУЩЕСТВУЮЩИХ МЕТОДОВ СЖАТИЯ РЕЧИ

Похожий материал - Лабораторная работа: Синтаксис, основные объекты и команды системы Maple

Многие методы сжатия речевых сигналов основаны на линейном предсказании речи. В частности, линейное предсказание используется при сжатии речи по методу АДИКМ. Стандарт G726, определяющий алгоритмы АДИКМ, устанавливает для данного типа сжатия речевых сигналов нижнюю скорость передачи 16 Кбит/с .

Дальнейшее снижение скорости передачи возможно при использовании схем анализ-синтез речи, учитывающих особенности цифровой модели формирования речи. Применяют два варианта таких схем – без обратной связи и с обратной связью.

На рисунке 2.1 (а) приведена схема сжатия речи без обратной связи, основанная на анализе по методу линейного предсказания и синтезе речевого сигнала. Здесь речевой сигнал s[n] разбивается на сегменты длительностью 20-39 мс. На каждом из сегментов с помощью устройства оценивания (УО) определяются коэффициенты линейного инверсного фильтра-анализа Ф1 десятого порядка. Кроме этого, на этапе сжатия с помощью выделения основного тона (ОТ) и анализатора тон-шум (Т-Ш) определяются соответствующие параметры функции возбуждения. В кодере выполняется кодирование коэффициентов фильтра и параметров функции возбуждения, которые затем передаются по каналу связи или сохраняются в памяти.

В восстанавливающем устройстве (рисунок 2.1 а) сначала происходит декодирование коэффициентов фильтра и параметров функции возбуждения, а затем выполняется синтез речевого сигнала S^[n]. Для этого в зависимости от значения признака тон-шум (ТШ) на вход фильтра-синтеза Ф2 подается сигнал либо с выхода генератора тона (ГТ), либо с выхода генератора шума (ГШ). В технике связи устройство, выполняющее сжатие и восстановление речевых сигналов по приведенной схеме, называют вокодером. Для кодирования периода основного тона используют 6 бит, для коэффициентов усиления - 5 бит, для признака тон/шум – 1 бит, для коэффициента усиления – 5 бит, для коэффициентов линейного предсказания – 8-10 бит. С учетом того, что для каждого сегмента речи оценивается 10 коэффициентов предсказания, получим 97-117 бит на один сегмент. Скорость передачи при длительности сегмента 30 мс составит примерно 3000 бит/секунду.