Акустическая теория речеобразования

Акустическая теория речеобразования — раздел акустической фонетики, исследующий аэродинамические и акустические процессы, которые происходят в речевом тракте. Понимание этих процессов создает возможность обратных заключений: от акустики к артикуляционной картине. Знание акустики речеобразования необходимо и для правильной интерпретации физических данных, так как оно позволяет отделить прогнозируемые артикуляцией акустические свойства речевого сигнала от неожиданных, что в свою очередь заставляет задуматься о причинах таких акустических неожиданностей. Для фонетической науки важно, что акустическая теория речеобразования придает интерпретации физических речевых данных объяснительный, научный статус. Основы акустической теории речи были заложены в XIX веке немецким физиком Германом фон Гельмгольцем. В XX веке важнейшие работы в этой области принадлежат Гуннару Фанту и Джеймсу Фланагану.

Основные положения акустической теории речеобразования

Речевой сигнал-свертка функции возбуждения с откликами линейных фильтров. В качестве функции возбуждения может выступать шум, возникающий как ламинарный, турбулентный процесс или тон. Частота основного тона человеческой речи колеблется от 90Гц. до 300 Гц и определяет её мелодичность. Среднее значение частоты основного тона для каждого диктора своё, мужские голоса обычно лежат в области 90—180 Гц, в то время как женские и детские находятся в области 185—300Гц. Щелчок голосовой щели представлен набором гармоник кратных основному тону. Уровень энергий гармоник падает экспоненциально с увеличением частоты. Верхняя граничная частота речевого сигнала, приблизительно 18 кГц. Однако, для трактов передачи информации, достаточно верхней граничной частоты до 3500 Гц., правда при такой частотной полосе ряд фонем не слышен. При взаимодействии щелчка голосовой щели с резонансными полостями речевого тракта часть гармоник, кратных основному тону, резонирует и образованные в спектре локальные максимумы, согласно модели Фланагана, образуют области концентрации энергии, которые называются формантами. Принято считать, что четыре форманты образуют гласные фонемы, а их динамические изменения во времени (формантные треки), по амплитуде и частоте образуют согласные звуки, те и другие называются фонемы. Добротность же формант является одной из статических характеристик речи и может характеризовать диктора. Фонемы возбужденные шумом нельзя пропеть, в то время как фонемы возбужденные тоном могут быть пропеты. Одним из уникальных механизмов помехоустойчивого кодирования речевой информации является аллофонинизация гласных фонем, по сути это изменения траекторий формантных треков с учётом предыдущей и следующей за гласной фонемы. В русской речи насчитывается 43 фонемы и только две «Ж» и «З» образованы одновременно тоном и шумом.