Сменить дизайн
Каталог статей
Проекты

Системы документооборота

Главная Актуальные проблемы речевой акустики

postheadericon Актуальные проблемы речевой акустики

УДК 534.78
В.И.Галунов

АКТУАЛЬНЫЕ ПРОБЛЕМЫ РЕЧЕВОЙ АКУСТКИ

Санкт-Петербургский государственный университет
Университетская наб. 9/11
ООО "ОДИТЕК"
Россия, 195220
Гражданский пр. 22
Тел./факс: 7 (812) 535-95-86
e-mail: auditech@online.ru

Рассматривается три возможных подхода к проблеме речевой акустики:
1. Исходя из конкретных практических задач автоматического распознавания и синтеза речи;
2. Опираясь на классическую теорию речеобразования;
3. Рассматривая речь как систему, обеспечивающую такие принципиальные отличительные ее особенности как продуктивность и помехоустойчивость.


Возможны три подхода к акустическим проблемам, возникающие в связи с речевыми исследованиями.
Первый подход, наиболее популярный в последнее время, исходит из приоритета решения прикладных задач. Популярность такого подхода определяется активным развитием рынка так называемых речевых технологий, т.е. систем автоматического распознавания, синтеза и компрессии речи. При этом естественнонаучные знания об исследуемом объекте подменяются утилитарными целями. Стандартным оправданием такого подхода является пример противопоставления самолета и птицы: самолет не машет крыльями, но решает свои задачи лучше, чем птица. Конечно, среди задач речевых технологий есть узкие проблемы, решаемые без сколько-нибудь четких знаний о структуре речи. И соответствующий утилитарный подход имеет право на существование, но конечно он не имеет отношение к тому, что называется наукой.
Кроме того не следует забывать, что наиболее перспективные области использования речевых технологических устройств связаны с их взаимодействием с человеком и требуют по своей сути повторения в технологической системе методов работы с речью, с речевой информацией, используемых человеком. Можно привести несколько примеров использования в речевых технологиях методов, достаточно эффективных, но уводящих науку от действительных знаний. В области автоматического распознавания таким примером может служить использование скрытых марковских моделей. Очевидно, что речевое общение построено по некоторым достаточно сложным правилам, о которых мы не все знаем или, вернее, знаем очень мало. Использование же вероятностной модели (HMM) это попытка не изучать эти правила, а заменить их случайным перебором. Дефекты этого метода очевидны: отсутствие помехоустойчивости, необходимость большой статистики. В синтезе речи последние полтора десятка лет наиболее используемым стал компилятивный метод (например, SPOLA). При создании подобных систем практически полностью отказываются от вскрытия акустической структуры речевого сигнала, а научные исследования сосредотачиваются исключительно на лингво-фонетических уровнях. Компрессия речи практически в настоящее время сосредоточилась на методах лобовой аппроксимации речевого сигнала без учета его акустико-информационной структуры. Такие методы позволяют достичь в некоторых приложениях скорости передач 2400-1200 бод с потерей, конечно, помехоустойчивости и ряда других характеристик речевого сообщения. Следует при этом заметить, что в России уже в середине 1960-х годов были попытки внедрить в практику системы компрессии спецприменения для скоростей 600-800 бод. При этом учитывались весьма примитивные модели информационной структуры речевого сообщения (но все-таки не прямая аппроксимация сигнала), без учета специфичности речевого сигнала.
Второй возможный подход соответствует тому, что сейчас принято называть акустической теорией речеобразования. Основы этой теории были заложены еще Гельмгольцем [1].
Основная идея этого подхода состоит в предположении, что если мы сумеем разобраться в акустических механизмах речеобразования, то мы сумеем понять и структуру речевого сигнала. В соответствии с идеологией Гельмгольца речь формируется за счет возбуждения резонансов артикуляторного тракта независимыми от соответствующих резонансных характеристик источниками звука (голосовой, шумовой или импульсный). Более или менее современный вид эта теория приняла в середине прошлого века [2, 3, 4]. Есть некоторые разночтения в соответствующих моделях, но более или менее общепринятыми в считаются следующие положения:
- речевой сигнал состоит из линейной цепочки речевых сегментов, соответствующих фонетической структуре речевого сообщения;
- основным параметром, различающим лингвистические единицы, являются форманты, которые сейчас понимаются как максимумы в динамическом спектре речевого сигнала (в исходной модели резонансные частоты артикуляторного фильтра) и характеристики источника звука;
- работа источника звука и артикуляторного фильтра – независимы.
Идеология акустической теории речеобразования в указанном виде молчаливо принимается как каноническая практически всеми исследователями речи, хотя факты не согласующиеся с этой теорией, известны всем мало-мальски грамотным речевикам. Можно указать на некоторые из них:
1. представление о линейной приблизительно фонетической структуре привнесено в теорию акустической речи из принятой во многих странах фонетически ориентированной письменности. Действительно человек умеет превращать речевой акустический сигнал в линейную цепочку фонем и наоборот. Но следует помнить, что лингвистические категории (фонем) абстрактны и не обязаны иметь физические корреляты.
2. Гласные фонемы, акустика которых хорошо согласуется с принятыми канонами, практически не несут полезной информации о речевом сообщении, хотя и имеют значительно большую интенсивность, чем согласные, которые как раз и являются основными переносчиками информации.
3. Имеется ряд систем передачи речи, в которых форманты никаким образом не могут быть выделены: полосные вокодеры, телефонный канал (особенно с угольным неиспользуемым теперь микрофоном.) и т.д.
4. Целый ряд экспериментов указывает на то, что наиболее значительную роль в передаче речи играют переходы между фонемами.
Этот список неясностей можно продолжить. При сохранении основных идей акустической теории речеобразования в ней самой остается несколько нерешенных проблем.
1. Независимость источника звука и артикуляторного фильтра не подтверждается экспериментальными исследованиями.
Даже для такого казалось достаточно хорошо смоделированного источника звука [5], как голосовой, выясняется, что лингвистические качество речи в значительном степени сформировано уже на выходе из гортани [6]. Если это так., то весьма сомнительным становится положение о ведущей роли артикуляторного фильтра в формировании параметрического облика фонетических элементов.
2. Кроме ведущей роли формант выдвигалось альтернативное положение об определяющей роли соотношения уровней мощности в определенных спектральных полосах речевого сигнала [7]. В этом случае форманты являются не основным речевым параметром, а только способом реализации совершенного другого рода характеристик речи, и ведущим в формировании акустической структуры речи становится уже не процесс речеобразования, а, скорее, механизмы речевосприятия
3. Возможно рассмотрение акустических процессов при речеобразовании, принципиально отличающихся от модели Гельмгольца – Фонта. Примером может служить модуляционная модель [8].
Третий подход к рассмотрению речи можно начать с высказывания А. Эйнштейна:
«Какой смысл описывать симфонию Бетховена в терминах волн воздушного давления?» Если мы сумеем понять, как организован процесс речевой коммуникации, то только тогда мы сможем четко поставить конкретные акустические проблемы. Можно предположить участие в процессе речевой коммуникации трех составляющих: источник информации, канал связи, приемник информации. Одна из возможных моделей организации представлена в работах [9, 10]. Следует указать на два существенных фактора, влияющих на организацию речевого сигнала. Первый – необходимость обеспечения помехозащищенности. Н. Винер: «Речь является совместной игрой говорящего и слушающего против сил, вызывающих беспорядок». Речевое сообщение обязательно должно быть избыточно не только за счет прямого запараллеливания различительны признаков и обеспечивать функционирование речевой коммуникации при различных видах внешних и внутренних помех. Из этого следует, что речевые сообщения должны параллельно обладать различающимися параметрами, определяющими и обеспечивающими передачу одной и той же языковой информации. С другой стороны, заведомая избыточность акустико-параметрического обеспечения речевого сообщения определяет необязательность полного параметрического обеспечения речевого сообщения в каждом конкретном акте речевой коммуникации.
Сейчас довольно много известно о способах обеспечения помехоустойчивости речи [7, 9, 11]. Соответственно в каждой конкретной ситуации речевого общения довольно ясно чем можно пожертвовать в структуре речевого сообщения.
В заключение следует еще раз обратить внимание на то, что речь в реальной акустической коммуникации и письменная речь это принципиально разные процессы. При этом наиболее неясным вопросом речевой коммуникации на настоящий момент остается вопрос о способе временной организации речевого сигнала, распадающийся на два составляющих:
- реализуется ли реально линейный формат в речевом сигнале (аналогично тому, как это делается в письменной речи для фонетически ориентированный видов письменности).
- где в речевом акустическом сигнале сосредоточена основная смысловая, поведенчески полезная информация.

Л И Т Е Р А Т У Р А

1. Heimholtz H., Die Lehre von der Tonempfindungen als psychologische Grundlage fuer die Theorie der Musik. Brannschweig, 1870
2. Chiba T., Rajiama M. The Vowel, its nature and structure, Tokio, 1941
3. Фант Г. Акустическая теория речеобразования. М., Наука, 1964
4. Ungeheuer G., Elemente einer akustischen Theorie der Vokalartikulation, Springer-Verlag, Berlin, 1962
5. Галунов В. И., Тампель И.Б. Механические работы голосового источника. Акустический журнал XXVII, в. 3, 1991
6. Галунов В.И., Крылова Б.С., Станкевич С.А., Кантемиров Р.Г. Исследование аэродинамических процессов в гортани. III съезд отоларингологов РСФСР, 1972
7. Галунов В.И., Гарбарук В.И. Акустическая теория речеобразования и системы фонетических признаков. «100 лет экспериментальной фонетике в России». Материалы международной конференции. СПб, 2001
8. Галунов В.И., Уваров В.К. Еще раз о механизме голосообразования.Сборник трудов XI сессии Российского акустического общества, т.3, 2001
9. Галунов В.И. помехоустойчивость как системообразующий фактор речи. Проблемы и методы экспериментально-фонетических исследований. СПб, 2002
10. Галунов В.И. Речь как система. Настоящий сборник
11. Галунов В.И., королева И.В. Обеспечение помехоустойчивости при обработке информации в слуховой системе. Сенсорн. системы т.2, № 2, 1988

 
Поиск
Язык

RUS | ENG

Продукты
Сообщение

Перед тем, как чего-нибудь пугаться, нужно сначала посмотреть – действительно ли оно такое страшное, а то - зачем зря стараться…

Создание интернет-магазина