Publication:
Multisource Speech Analysis for Speaker Recognition

Дата
2019
Авторы
Journal Title
Journal ISSN
Volume Title
Издатель
Научные группы
Организационные подразделения
Организационная единица
Институт общей профессиональной подготовки (ИОПП)
Миссией Института является: фундаментальная базовая подготовка студентов, необходимая для получения качественного образования на уровне требований международных стандартов; удовлетворение потребностей обучающихся в интеллектуальном, культурном, нравственном развитии и приобретении ими профессиональных знаний; формирование у студентов мотивации и умения учиться; профессиональная ориентация школьников и студентов в избранной области знаний, формирование способностей и навыков профессионального самоопределения и профессионального саморазвития. Основными целями и задачами Института являются: обеспечение высококачественной (фундаментальной) базовой подготовки студентов бакалавриата и специалитета; поддержка и развитие у студентов стремления к осознанному продолжению обучения в институтах (САЕ и др.) и на факультетах Университета; обеспечение преемственности образовательных программ общего среднего и высшего образования; обеспечение высокого качества довузовской подготовки учащихся Предуниверситария и школ-партнеров НИЯУ МИФИ за счет интеграции основного и дополнительного образования; учебно-методическое руководство общеобразовательными кафедрами Института, осуществляющими подготовку бакалавров и специалистов по социо-гуманитарным, общепрофессиональным и естественнонаучным дисциплинам, обеспечение единства требований к базовой подготовке студентов в рамках крупных научно-образовательных направлений (областей знаний).
Выпуск журнала
Аннотация
© 2019, Pleiades Publishing, Ltd. On a comprehensive speech database, speaker recognition characteristics are compared under the usage of various voice-source models. Inverse problems to find a source via vowel speech segments are solved on the base of a special speech-production model and voice-source models (A-source, piecewise-linear source, nonparametric source, and source found by means of the spectral relation method). In the first stage, we find the pulses such that the relative residuals of their segmented and their theoretical analogs computed by means of the speech-production model are less than 0.25. For the selected pulses, a posteriori estimates of the error of their determining are computed and the final selection of the source pulses is performed: for the recognition procedure, we leave only pulses with a posteriori estimates of the error less than the accepted level 0.3. In the space of parameters found for each source model, a statistical model is created for each speaker and the recognition is performed. For the speaker recognition with respect to one vowel, the mean error is approximately equal to 66% for the piecewise-linear source, 61% for the spectral relation method, and 33% for the A-source.
Описание
Ключевые слова
Цитирование
Sorokin, V. N. Multisource Speech Analysis for Speaker Recognition / Sorokin, V.N., Leonov, A.S. // Pattern Recognition and Image Analysis. - 2019. - 29. - № 1. - P. 181-193. - 10.1134/S1054661818040260
Коллекции