Сменить дизайн
Каталог статей
Проекты

Системы документооборота

Главная Коллекция речевых баз

postheadericon Коллекция речевых баз

КОЛЛЕКЦИЯ РЕЧЕВЫХ БАЗ ДАНЫХ

Галунов В.И., Евдомаха А.В., Кочанина Ю.Л.,
Остроухов А.В., Разумихин Д.В., Соловьев А.Н.

AudiTech Ltd. (OOO «Одитек») & СПбГУ
auditech@online.ru
http://www.auditech.ru

Представляемая коллекция речевые базы данных предназначена для создания и тестирования автоматических систем распознавания речи и идентификации / верификации диктора.
Некоторые из этих баз так же можно использовать как для лингвистических исследований, так и в междисциплинарных областях, так или иначе связанных с лингвистикой.

1. Базы данных в рамках Европейских программ
SPEECHDAT (II) и SPEECHDAT (Е).

Речевые базы данных для русского языка создавалась в рамках европейских проектов SpeechDat(II) и SpeechDat(E).
Целью проектов, объединенных названием SpeechDat, является создание речевых баз данных большинства европейских языков для систем распознавания речи и идентификации / верификации диктора по телефонному каналу.

Общее количество дикторов:
Speechdat II – 1000;
SpeechDat (E) -2500.
Объем базы:
Speechdat II - около 25 часов;
SpeechDat (E) - около 60 часов.

Созданные в рамках проектов SpeechDat речевые базы данных удовлетворяют следующим требованиям:
- фонетически сбалансированный текст, состоящий из команд, словосочетаний, чисел и дат, цифр, числовых последовательностей и предложений;
- представлены различные стили произнесения (команды, речь-чтение и спонтанная речь);
- различные акустические обстановки.

Продолжительность записи каждого диктора составляла 8-10 минут (2,5-3 минуты чистой речи).

Распределение дикторов по региональным признакам.
При записи учитывалось региональные особенности дикторов. Всего было определено пять диалектных регионов.
- Москва и Санкт-Петербург;
- Юг России;
- Север России;
- Урал, Сибирь и Дальний восток;
- Центральная часть России.

Состав словаря
Исходный словарь базы данных содержит списки наиболее употребительных слов и команд из компьютерной лексики, цифр и цифровых последовательностей, названий крупных городов и фирм, времени и даты, денежных единиц, телефонных номеров, номеров кредитных карт, сочетаний "имя-фамилия", фонетически богатых слов, предложений и фраз, а также спеллинг (побуквенное произнесение) некоторых слов.

Технические характеристики записи:
- цифровой телефонный канал стандарта ISDN.
- формат сигнала: 8 бит, 8 кГц, А-закон.
- качество соединения и линии связи характеризовалось отношением сигнал/шум.

Обработка речевого материала
Обработка речевого материала выполнялась экспертами по речевой акустике. Она заключалась в многократном прослушивании всех звуковых файлов и их аннотации, которая производилась в соответствии со спецификацией, разработанной для участников проекта SpeechDat(II).

Аннотация речевого материала
Аннотация подразумевала внесение следующей информации в файл-метку:
- орфографическая запись высказывания;
- специальные пометки, указывающие на наличие возможных шумов, оговорок, обрывов записи;
- оценка качества записи;
- данные о дикторе (возраст, пол, региональный акцент);
- тип телефонного аппарата;
- тип акустического окружения.

Из всех слов, произнесенных дикторами разборчиво и без оговорок, был составлен лексикон (файл LEXICON) с указанием частоты встречаемости каждого слова и его фонематической транскрипции. Часть слов приведена с вариантами произнесения (разговорный вариант).
Полученный лексикон насчитывает около 16500 единиц. Фонематическая транскрипция лексикона выполнена в соответствии с системой символов Russian SAMPA.
Кроме этого содержится файл акустического качества каждого речевого сигнала, файл информации о респонденте (пол, возраст, регионально-диалектическая принадлежность), файл содержимого базы данных.

2. Речевая база данных в рамках Европейского проекта SPEECON

В рамках Европейского проекта SPEECON были собраны речевые базы данных большинства европейских и некоторых азиатских языков. Все базы собирались по единому сценарию, на единой записывающей платформе. Корпус базы состоит из читаемой, вызванной и спонтанной речи. Записи проводились в различных акустических условиях с учетом возрастных, гендерных и региональных особенностей. База собиралась для различных пользовательских приложений. Средняя длительность “чистой речи” одного диктора составляет приблизительно 18 минут.

Общее количество дикторов
- 600 (550 взрослые и 50 дети).
Объем базы:
-около 160 часов речи, из них около 40 часов спонтанной.

Распределение дикторов по региональному признаку:
- Москва и Санкт-Петербург;
- Юг России;
- Север России;
- Урал, Сибирь и Дальний восток;
- Центральная часть России.

Акустические условия записи:
- офис;
- домашнее окружении (квартира, гостиница);
- общественные места (улица, холл);
- автомобиль (стоянка, движение в городе, шоссе, автострада)

Технические условия записи
Записи велись одновременно по четырём каналам
1) гарнитура, кардиоидный тип микрофона
2) hands-free, микрофон сотового телефона
3) среднее расстояние (0,5-1м), кардиоидный и ненаправленный микрофоны (в зависимости от окружения)
4) дальнее расстояние (2-3м), ненаправленный микрофон

Характеристики всех каналов:
- широкополосный, 16 кГц, 16 бит, моно, Intel PCM Raw Data.

Перед записью каждого диктора замерялся уровень шума, который не должен был превышать допустимого значения (в зависимости от акустического окружения).

Для каждого акустического оружения записывался отклик розового и белого шумов, характеризующий акустические параметры окружающей обстановки.

Аннотация речевого материала
Обработка речевого материала выполнялась экспертами по речевой акустике. Она заключалась в многократном прослушивании всех звуковых файлов и их аннотации.

Аннотация подразумевает внесение следующей информации в файл-метку:
- орфографическая запись высказывания;
- специальные пометки, указывающие на наличие возможных шумов, оговорок, обрывов записи;

Требования к читаемому тексту

- Фонетическая сбалансированность применялась к читаемому корпусу, состоящему из предложений и слов.
- При формировании корпуса читаемых предложений мы стремились к тому, чтобы каждый диктор произнес все фонемы, кроме редких, частота встречаемости которых в речи менее 0,1%.
- Корпус предложений формировался на базе текстов из классической литературы (50%) и публицистики (50%).



Файловая структура базы

* Из всех слов, произнесенных дикторами разборчиво и без оговорок, был составлен лексикон (файл LEXICON) с указанием частоты встречаемости каждого слова и его нормативной фонематической транскрипции. Часть слов приведена с вариантами произнесения (разговорный вариант).
* Полученный лексикон насчитывает около 38800 единиц. Фонематическая транскрипция лексикона выполнена в соответствии с системой символов Russian SAMPA.
* Кроме звуковых файлов содержится файлы текстового содержания об акустическом качестве каждого речевого сигнала (акустическое окружение, уровень шума), информации о респонденте (пол, возраст, регионально-диалектическая принадлежность), времени и дате записи файла и пр.
* Файл DISIGN содержит полное описание базы, ее словаря, записывающей платформы, полную информацию о лексиконе (особенности произношения, частота встречаемости фонем и др.).

3. Речевая база данных MULTISPECH.

Условия записи и требования к обработке этой базы примерно такие же как у Speecon и SpeechDat(II) и SpeechDat(E).

Краткое описание базы.
База состоит из двух частей:
телефонный канал:
- объем базы около 36 часов речи;
- 1000 дикторов (ISDN канал), их них 200 стандарта GSM;
широкополосный канал:
- объем базы: около 40 часов речи;
- 100 дикторов;

Аннотация речевого материала.
При аннотации речевого материала были в отличии от предыдущих баз были добавлены маркеры, обозначающие паузы в высказывании, и отмечены ударения в словах, где возможны варианты произнесения.

4. База данных спелнга шести русских фонем.

Каждый образец представляет собой отдельную произнесенную фонему, взятую из спеллинга слова.

Условия записи:
телефонный канал; 8000 Hz, 16-bit, mono, PCM формат

фонема 'а' (от 215 образцов)
фонема 'е' (от 215 образцов)
фонема 'и' (от 215 образцов)
фонема 'о' (от 215 образцов)
фонема 'у' (от 150 образцов)
фонема 'ы' (от 80 образцов)


5. Микрофонная фонетическая база данных.

24 диктора, в среднем говорящих по 135 слов. Список слов - фонетически сбалансирован.
Запись проводилась с использованием динамического микрофона и магнитофона.
Записи оцифровывались с частотой 16 kHz.
База состоит из 24 оцифрованных записей, нарезанных на отдельные фонетические единицы в символах SAMPA (таблица символов прилагается).
Нарезка на фонемы осуществлялась вручную с использованием программы Cool Edit-Pro.

В файле Lexicon.tbl содержатся все слова, прочитанные дикторами.
Лексикон подобран так, чтобы классы фонетических единиц, используемые в нашей системе распознавания встречались с одинаковой вероятностью. Лексикон был разбит на листы таким образом, чтобы классы фонем были представлены пропорционально для каждого диктора. Запись проходила при почти полном отсутствии посторонних шумов.

6. ELECTRET
Условия записи: микрофонный канал, офисное окружение.
Речевой материал: 4 фразы, 20 слов, около 60 дикторов.
Использовались следующие фразы:
Мама мыла Маню
Саша кусал сало
Это жирные фазаны ушли под палубу.
Не видали мы такого невода

Количество подходов: 2 подхода (через месяц), 4 подхода через минуты.
При сегментации на фонемы использовался фонетический алфавит SAMPA.
Нарезка на фонемы осуществлялась вручную с использованием программы Cool Edit-Pro.

7. BASESB
Условия записи: микрофонный канал, офисное окружение.
Речевой материал: 4-5 слов(слова: позвонить, да, нет, отмените), около 120 дикторов.

8. Деловое письмо
Условия записи: микрофонный канал, офисное окружение.
Речевой материал: 400 слов, около 20 дикторов.

9. LC-Star. (Lexica and Corpora for Speech-to-Speech Translation Technologies)

Цель европейского проекта LC-STAR - создание текстовых и лексических баз данных для приложений автоматического распознавания и синтеза речи (например, системы перевода типа речь-речь).
Проект LC-STAR охватывает 11 языков: американский английский, испанский, каталонский, немецкий, стандартный арабский, иврит, финский, турецкий, русский, словенский, мандарин.
Корпусы текстов содержат материал близкий к разговорной речи (из областей, для которых будут создаваться системы перевода).
Словари (лексиконы) содержат произносительную и грамматическую (морфологическую) информацию.
По текстовым корпусам предполагается в дальнейшем создать статистические (n-граммные) языковые модели.


Структура БД LC-STAR Russian
* Словарь нарицательных слов (около 70,000)
* Словарь имён собственных (около 50,000)
* Переводной словарь (англо-русский) для целевых приложений (около 12,000)

Области текстового корпуса для нарицательных слов:
* спорт;
* новости (газетные статьи);
* финансы (биржевые статьи, обзоры, описания компаний и т.п.);
* культура и туризм (статьи и обзоры по театральным представлениям, кино, ТВ-программам и т.п.);
* потребительская информация (статьи о здоровье, научно-популярные статьи, описания различных бытовых приборов);
* личная коммуникация (переписка, SMS, форумы и конференции в Интернете и т.п.).

Категории имён собственных:
* личные имена
* названия городов
* названия улиц
* страны
* другие географические названия
* достопримечательности
* названия компаний
* бренды

Подготовка базы состояла из следующих этапов:
1 этап. Сбор текстового корпуса для создание словаря нарицательных слов.
* Сбор текстового корпуса (около 14,000,000 словоупотреблений, включая имена собственные, иноязычные слова; из текста убраны цифры, знаки пунктуации, специализированные значки).
* Препроцессинг текстов и формирование списков словоформ.
* В результате обработки получился список словоформ (около 70,000) с частотой встречаемости в каждом из доменов.
2 этап. Создание списков имён собственных.
* Исходный материал: частотные имена собственные из собранного текстового корпуса, специализированные материалы (из Internet): доступные списки слов, словари.
* Создание списка из примерно 50,000 имён собственных.
3 этап. Создание специализированного словаря.
* Перевод с американского английского 5000 слов для приложений голосового управления (телефонные информационные сервисы, web-навигация, управление домашними устройствами и т.п.).
* В словарь добавлены специальные слова, такие как цифры, аббревиатуры, специальные символы клавиатуры и т.п.
* Общий объём русской части – около 12,000 словоформ.
4 этап. Создание транскрипции и грамматического описания.
* Транскрипция для всех слов, вошедших в лексикон, была создана автоматически с последующей ручной проверкой.
* Все имена нарицательные автоматически разделялись на классы слов. Слова, найденные в словаре Зализняка, обрабатывались автоматически с последующей ручной проверкой (случаи омонимии и исключения обрабатывались вручную). Оставшимся именам нарицательным и именам собственным добавлялись индексы в соответствии со словарем Зализняка, впоследствии они обрабатывались программой и проверялись вручную.
5 этап. Форматирование.
* Финальное представление лексикона – XML-документ. В рамках проекта LC-STAR была разработана единая для всех языков схема и зафиксирована в DTD. Большую часть схемы занимает грамматическое описание общее для всех языков проекта.
* Наличие DTD позволяет проверить формат лексиконов стандартными XML-парсерами.
* XML-формат позволяет хранить в общем лексиконе разнородные единицы: нарицательные слова, имена собственные (включая словосочетания), аббревиатуры и др.

10. Фонограф
В настоящее время создается база для автоматического пофонемного распознавания слитной речи.
Данная база представляет собой фонетически сбаллансированный текст, состоящий из команд, цифровых последовательностей и предложений (общий корпус состоит из 1746 предложений).
База нарезана на отдельные фонетические единицы в символах Russian SAMPA+1, состоящего из 89 фонем. Нарезка на фонемы осуществляется автоматически с последующей вручной правкой с использованием программы Cool Edit-Pro.
Общее количество полученных фонем более полутора миллионов.
Встречаемость редких фонем (g’: p’: в таких словах как «аппетит», «суггестия» и др.) в базе не менее 300, количество частотных фонем русского языка (таких как I a @) достигает порядка 100-120 тысяч.

После предварительной статистической оценки соответствия автоматически транскрибированной (по тексту) и правленной специалистами записи, выявились значительные расхождения встречаемости фонем в слитной речи. Например, фонема безударная «е» встречается примерно в три раза реже (из-за частой замены фонемами гласных первой и второй степени редукции), фонема «j» как правило редуцируется в окончаниях слов. В слитной речи происходит озвончение на стыках слов (напр. в словах отец бы, дочь бы), для чего были введены дополнительные фонемы «Zh‘» и «dz», очень часто редуцируются безударные гласные между щипящими и т.д.

Данная база содержит обширный фонетический материал по русской слитной речи, кторый еще подлежит исследованию. На основе этих исследований можно будет построить новое представление о сегментации речевого потока.

Краткое описание всех речевых баз данных, собранных коллективом AudiTech Ltd., можно найти на сайте http://www.auditech.ru
1 таблица символов Russian SAMPA+ составленна лабораторией Проблем теоретической кибернетики механико-математического факультета МГУ.
---------------

------------------------------------------------------------

---------------

------------------------------------------------------------

 
Поиск
Язык

RUS | ENG

Продукты
Сообщение

Перед тем, как чего-нибудь пугаться, нужно сначала посмотреть – действительно ли оно такое страшное, а то - зачем зря стараться…

Создание интернет-магазина