Речевые технологии. Голосовая биометрия для чайников на примере работы в контактном центре

На днях прошла новость о том, что голланский ING стал первым европейским банком, запустившим активируемые голосом мобильные платежи. И тут я вспомнил, что тема биометрической аутентификации по голосу была не только одной из первых, о которой я писал в этом блоге 8 лет назад, но и когда я про нее в январе, то обещал сделать краткий обзор рынка биометрической аутентификации, что сейчас и делаю.

На самом деле системы голосовой биометрии решают не только задачи аутентификации, но и предотвращение мошенничества. Очевидно, что наибольший смысл имеет именно комбинация этих двух технологий. Одна идентифицирует человека, но может спасовать перед записанным голосом. Вторая позволяет отслеживать изменения голосовых характеристик в процессе общения и выявления подозрительных или аномальных голосовых последовательностей. Понятно, что, чем критичнее применение такой технологии, тем более важна становится их комбинация. Например, использование Facebook - это одно, а управление счетом - совсем другое. В первом случае достаточно и обычной аутентификации, а во втором нужно нечто большее.

У голосовой аутентификации есть очень важное преимущество - низкая цена ридера. Отпечатки пальцев у нас считываются только на iPhone. Сетчатка глаза или геометрии руки требуют точных и дорогостоящих дополнительных устройств. Микрофон же есть сейчас почти везде (в компьютерах, в мобильных устройствах) и достаточно неплохого качества. Поэтому роль голосовой биометрии будет только возрастать.

Еще одним преимуществом именно голосовой биометрии в том, что она "многоразова", если так можно выразиться. Лицо у вас одно, глаз максимум два, пальцев, если все хорошо, десять. И если эти данные украдены или скомпрометированы, то с этим ничего уже не поделаешь. Вы не можете использовать чужие пальцы, глаза, руки для своей идентификации. А кража базы "фраз" приведет только к тому, что система голосовой аутентификации может попросить вас произнести новую фразу или просто "поговорить с ней".

Наконец, если вспомнить, что системы аутентификации отличаются по тому, "кто вы", "что у вас есть", "что вы знаете" и "что вы делаете", то голосовая биометрия, в отличие от других систем биометрической аутентификации, использует все эти 4 фактора. По физическим характеристикам голоса она определяет "кто вы". Она определяет как и что вы говорите, то есть она позволяет защититься от атак на статические системы аутентификации (например, пароли). В конце концов она может определить, что вы знаете, если в качестве фразы для идентификации будет использоваться пин-код или пароль.
Системы голосовой биометрии (их лучше называть так, а не голосовая аутентификация, так как спектр решаемых ими задач шире) могут работать в двух режимах - так называемом пассивном (или независимом от текста) и активном (зависящем от текста). В первом случае система распознает собеседника по его свободной речи (похожим образом работает сервис Shazam на мобильных устройствах); во втором - по заранее определенным фразам, которые должен произнести пользователь. В активном режиме для защиты от подмены пользователя записанным заранее (или перехваченным) голосом, система должна использовать случайные фразы, которые и предлагать пользователю произнести.

Сказать, какой из двух вариантов работы системы голосовой биометрии, нельзя. У них обоих есть свои преимущества и недостатки. Активные системы более эффективны, но и требуют большего участия пользователя, которого идентифицируют. При этом отпечаток голоса занимает меньше места, чем в пассивных системах, что может быть актуально для мобильного применения или в местах, где Интернет еще не так развит или отсутствует вовсе. Например, есть решения, которые допускают проверку подлинности на самом устройстве, без подключения к внешнему серверу. С другой стороны активные системы не всегда применимы в системах массового пользования - банки, страховые, ритейл и т.п., так как пользователи могут быть недовольны необходимостью взаимодействовать с биометрической системой. И, конечно же, такие системы сложно применить для идентификации мошенников, что легко делается пассивными системами, спокойно "слушающими" звонящего/говорящего и идентифицирующие его речь, ничем себя не выдавая. Поэтому пассивные системы проще в использовании, но и требуют больших ресурсов для своей реализации.

Защита от мошенников реализуется путем использования обычных "черных списков", то есть списков голосовых отпечатков известных мошенников. Соответствующий специалист помечает голос как мошеннический и затем все звонки сравниваются с "черным списком" мошенников. В России, где отсутствует база голосовых отпечатков мошенников и преступников, этот метод будет не самым эффективным и каждый потребитель систем голосовой биометрии будет вынужден самостоятельно формировать собственную базу мошенников (соблюдение законодательства о персональных данных пока оставим в стороне). Но зато со временем организации, особенно в некоторых отраслях, смогут обмениваться такими базами, как это, например, делают антивирусные вендоры. Хорошая перспектива есть у банков (а они, наверное, самый первый кандидат на применение таких систем), у которых есть FinCERT, который сможет со временем обмениваться не только данными по IP/DNS/E-mail-адресам мошенников, но и дополнить рассылаемую информацию голосовыми отпечатками.

Бояться этой якобы редкой технологии не стоит. Сегодня весь мир стоит на пороге (круто завернул, а) UAF/U2F-революции от альянса FIDO, когда любое устройство, приложение или средство защиты сможет абстрагироваться от конкретного метода аутентификации/идентификации, возложив эту задачу на U2F/UAF-спецификацию, которая и обеспечит интеграцию с нужным методом аутентификации.

Если пытаться перевести выгоды от использования голосовой биометрии на язык цифр, то они могут заключаться в следующем:

  • Сокращение времени на аутентификацию пользователя с 23 секунд в ручном режиме в центре обработки вызовов (Call Center) до 5 секунд в автоматическом.
  • Повышение лояльности пользователей (и, как следствие, доходов от них) в результате отказа от необходимости запоминать всем известные ответы на "секретные" вопросы, помнить PIN-код для входа в систему или отвечать на вопросы назойливого сотрудника банка (ваши ФИО, дата вашего рождения, номер карты и т.п.).
  • Снижение числа сотрудников центра обработки вызовов за счет автоматической обработки многих простых вопросов (время работы офиса в праздники, ближайший офис или банкомат, тарифы и т.п.).
  • Снижение числа мошеннических операций.
  • Снижение времени на ожидании правильного сотрудника, который поможет ответить звонящему.
  • Рост продуктивности работников компании и центра обработки вызовов.

480 руб. | 150 грн. | 7,5 долл. ", MOUSEOFF, FGCOLOR, "#FFFFCC",BGCOLOR, "#393939");" onMouseOut="return nd();"> Диссертация - 480 руб., доставка 10 минут , круглосуточно, без выходных и праздников

Калашников Дмитрий Михайлович. Биометрическая голосовая идентификация человека по парольной голосовой фразе в условиях повышенного шума: диссертация... кандидата Технических наук: 05.13.01 / Калашников Дмитрий Михайлович;[Место защиты: ФГБОУ ВО Пензенский государственный университет], 2017.- 196 с.

Введение

Глава 1. Обзор методов и устройств защиты персональных данных на основе биометрической голосовой информации и предварительной цифровой обработки сигналов 15

1.1. Общее состояние защиты персональных информационных данных 15

1.2. Оценка стойкости нейросетевого распознавания биометрия-код 17

1.3. Информационная мера качества исходных данных 17

1.4. Функциональная модель преобразователя биометрия-код 21

1.5. Классическая мера Хэмминга 23

1.6. Практическое применение преобразователей биометрия-код для защиты исполняемого кода в системе голосовой идентификации 24

1.7. Необходимость классификации звуковых фрагментов речи на тональные и шумовые 26

1.8. Обзор методов измерения периода основного тона тональных звуков 34

1.9. Использование линейных предсказателей 38

1.10. Нелинейный алгоритм выявления периодичности сигнала 42

1.11. Линейное предсказание ожидаемого периода основного тона 45

1.12. Оценка длины речевого фрагмента, используемого нейросетевым вокодером нового поколения, для автоматического обучения биометрической системы голосовым параметрам диктора «Свой» 48

1.13. Оценка длины речевого фрагмента, необходимого для обучения вокодера, распознающего одиночные звуки речи 50

1.14. Оценка длины речевого фрагмента распознавания

1.15. Мел-кепстральные коэффициенты 51

1.16. Сегментация речи на отдельные биометрические элементы 54

1.17. Марковская модель распознавания речи

Выводы по главе

Глава 2. Математическое моделирование идентификации связной речи 67

2.1. Фрагментатор однородных звуков и пар звуков речи диктора «Свой» в нейронных сетях 67

2.2. Предсказатель периода основного тона диктора по текущим и предшествующим значениям 73

2.3. Вычисление среднего значения периода основного тона и допустимых границ отклонений 75

2.4. Классификатор тон/шум 76

2.5. Методы обращения матриц в алгоритме линейного предсказателя 79

2.6. Дискретное статистическое описание длительности интервалов между шумовыми звуками речи и между тональными звуками 85

2.7. Определение детерминированных участков речи и вариации частоты основного тона 91

Выводы по главе 106

Глава 3. Программное обеспечение действующего макета голосовой аутентификации 108

3.2. Обучение готовых биометрических параметров на нейронной сети... 114

3.3. Кластеризация звуковых фрагментов речи 116

3.4. Аутентификация по парольному слову 119

Выводы по главе 125

ГЛАВА 4. Тестирование алгоритма биометрической голосовой аутентификации при различных условиях внешнего воздействия 127

4.1. Экспериментальное тестирование программы на вероятность

появления ошибок первого рода 127

4.2. Экспериментальное тестирование программы на вероятность появления ошибок второго рода при условии незнания парольного слова посторонним человеком 133

4.3. Экспериментальное тестирование программы на вероятность появления ошибок второго рода при условии знания парольного слова посторонним человеком 136

Заключение 139

Введение к работе

Актуальность темы. В настоящее время остро стоит вопрос сохранения конфиденциальности различного рода информации: государственной, промышленной и т.д. Этой проблеме посвящено большое число работ, в которых предложены различные методы криптографической аутентификации и биометрической аутентификации. Криптографическая аутентификация основана на хранении и переработке специальной кодированной информации. Биометрическая аутентификация основана на персональных особенностях субъекта (отпечатки пальцев, образцы почерка, особенности лица, сетчатки глаз).

К сожалению, эти методы обладают следующими недостатками. Криптографические методы позволяют обеспечить максимальную надежность и безопасность процедуры аутентификации, однако перекладывают ответственность за хранение ключей (секретной информации либо материального носителя) на пользователя, который, кроме очевидного нежелания принимать на себя подобные обязательства, зачастую не обладает необходимыми навыками правильного использования и безопасного хранения секретов. Биометрия традиционно применяется лишь для идентификации пользователей в системах паспортно-визового контроля граждан. Использование классических биометрических технологий сравнения биометрического образа пользователя с шаблоном не позволяет обеспечить конфиденциальность персональных данных пользователя в открытых гражданских информационных системах.

Биометрический метод аутентификации по голосу характеризуется простотой применения. Данному методу не требуется дорогостоящая аппаратура, достаточно микрофона и звуковой платы. Но при использовании биометрического метода аутентификации по голосу возникает ряд проблем. Одной из важнейших проблем является качество голосовой идентификации. В настоящее время вероятность ошибки распознавания персоны по голосу достаточно высока. Требуется разработка новых алгоритмов для более четкого выявления биометрических параметров из голосового сигнала. Второй важнейшей проблемой является нестабильная работа известных устройств в условиях шума. Важную проблему составляет голосовая идентификация при многообразии проявлений голоса одного человека: голос способен изменяться в зависимости от состояния здоровья, возраста, настроения и т.д.

Построение алгоритмов голосовой идентификации и соответствующих устройств, лишенных перечисленных недостатков, является актуальной задачей, имеющей научное, техническое и социальное значения. Это в первую очередь определяет актуальность работы. Большой вклад в развитие биометрической аутентификации был внесен такими учеными, как Н. Н. Акинфиев, С. П. Баронин, А. И. Иванов, М. В. Назаров, Ю. Н. Прохо-

ров, В. И. Романовский, Г. С. Рамишвили, В. Н. Сорокин, В. А. Утробин, В. Госсет, М. Грей, Дж. Дарбин, A. K. Джейн, Д. Клун, Н. Левинсон, К. Пирсон, Р. А. Фишер, Р. Хэмминг и другие.

Для практической реализации предложенных методов необходимо создание эффективных технических средств. Известны следующие мировые компании, занимающиеся развитием методов голосовой идентификации: Agnitio , Auraya Systems , Authentify , KeyLemon , Nuance и др.

Недостатки технологий, используемых этими компаниями, заключаются в серверной обработке данных, т.е. все биометрические данные отправляются на обработку на сервер, что, в свою очередь, является потерей конфиденциальности для пользователя. Вероятность ложного распознавания у существующих автоматов достаточно высока. Это связано с тем, что существующие алгоритмы не выделяют достаточного числа биометрических параметров из звукового сигнала, а также тем, что отсутствуют стандарты сравнения голосовых биометрических параметров.

Цель диссертационной работы состоит в разработке новых методов, реализующих их алгоритмов и программного обеспечения, осуществляющих достоверную биометрическую аутентификацию личности по голосу в условиях высокого постороннего шума. Для достижения поставленной цели необходимо решить следующие задачи :

    разработать методику и алгоритмы повышения точности определения частоты основного тона на любых промежутках звукового сигнала;

    разработать методику аутентификации пользователя, положив в качестве определяющего фактора частоту основного тона;

    разработать методику и алгоритмы фильтрации звукового сигнала для более точного выделения периода основного тона на любом отрезке звукового сигнала и подавления шумовой компоненты сигнала при соотношении сигнал/шум равном единице;

    построить однослойную нейронную сеть стандарта ГОСТ Р 52633.5 для преобразования голосовых биометрических параметров в код доступа;

    построить узкополосный фильтр, принимающий на вход частоту основного тона диктора. Использовать формулу фильтра на различных гармониках сигнала для получения биометрических параметров и преобразования их в биометрический код;

    построить новый алгоритм фрагментации звукового сигнала и использовать получившиеся отдельные тональные фрагменты речи в качестве биометрических параметров, преобразованных в биометрический код;

    реализовать макет обучения и аутентификации пользователя по парольной голосовой фразе. Провести тестирование вероятностных характеристик (вероятность ошибки первого и второго рода – ошибки в опровержении тестируемого пользователя и ошибки в принятии постороннего пользователя соответственно).

Методы исследования. В работе использованы методы математической статистики, теории вероятностей, теории искусственных нейронных сетей и цифровой обработки сигналов. Для реализации экспериментов использовался объектно ориентированный язык С++, библиотеки Qt и QWT, среда разработки QtCreator и среда математического моделирования MathCAD.

Научная новизна диссертационной работы заключается в следующем:

    Разработан алгоритм оценивания речевых звуковых статистических параметров. На основе дискретно-континуального описания длительности звуков потока осмысленной речи определен такой параметр, как средняя длина звука и приведен алгоритм его оценки. Обобщены методы оценивания значений математического ожидания и дисперсии периода основного тона. Предложены формулы построения узкополосного фильтра звукового сигнала, позволяющие улучшить качество выделения сигнала при высоком уровне шума.

    Обобщен численный метод построения линейного предсказателя по выделению периода основного тона, что позволило значительно увеличить точность и быстродействие предсказателя. Разработана методика непокадровой обработки сигнала в линейном предсказателе, что значительно снизило вероятность ложного определения тона на участке звукового сигнала.

    Разработана нелинейная математическая модель фильтрации звукового сигнала для более точного выделения периода основного тона на любом отрезке звукового сигнала. Построенная процедура фильтрации позволила улучшить существующий классификатор тон-шум и выделять все тональные участки речи на звуковом файле.

    Разработан алгоритм нейросетевого преобразования голосовых параметров в биометрический код доступа. На вход нейронной сети подаются векторы биометрических параметров голосовых сигналов, которые затем преобразуются в биометрический код. Векторы биометрических параметров голосовых сигналов используются для построения таблиц весовых коэффициентов. В результате применения предложенного алгоритма каждому голосовому сигналу ставится в соответствие индивидуальный код. Использование полученных кодов позволило минимизировать ошибку первого и второго рода в работе голосовой аутентификации.

    Разработан численный алгоритм выделения векторов биометрических данных, основанный на использовании тональных звуковых участков речи, отделенных от внешних шумов и пауз. Данные векторы получены на нескольких гармониках звукового сигнала и участвуют в процедуре обучения нейронной сети. Показано, что данные векторы являются информативными в биометрическом плане и используются в процедуре обучения нейронной сети для улучшения качества распознавания голосовых образов.

6. Построен и программно реализован алгоритм фрагментации и классификации звуковых сигналов. Научная новизна заключается в использовании построенного в диссертации алгоритма нейросетевой сегментации звукового сигнала. На базе этого алгоритма получены векторы всевозможных тональных звуков, содержащиеся в парольной голосовой фразе диктора. Данные векторы преобразованы в параметры биометрия-код и поданы на обучение нейронной сети. Использование данных параметров позволило улучшить качество распознавания диктора в системе голосовой аутентификации.

Практическая значимость работы. Построен автомат, позволяющий определять диктора по произносимой парольной фразе. Разработан программный комплекс, в рамках которого реализованы адаптивные цифровые алгоритмы обработки речевых сигналов. Предложен алгоритм распознавания биометрических образов в сигнале. Алгоритм реализован в виде нейронной сети. Разработанный в диссертации метод, по сравнению с известными методами обработки цифровых сигналов, обладает следующими существенными преимуществами. Важнейшим преимуществом является способность автомата, реализующего данный метод, настраиваться на частоту речи диктора при аутентификации пользователя. Шумоподавление ведется даже при соотношении сигнал/шум равном единице. Внедрены нейронные сети стандарта ГОСТ Р 52633 для преобразования голосовых биометрических параметров в код доступа, что позволяет получить устойчивый длинный пароль на этапе аутентификации. Уменьшена до значения 10- 7 вероятность ошибки аутентификации пользователя при случае незнания пользователем парольной фразы и до значения 10- 2 при случае, если пользователю известно данное парольное слово/слова. Известные в литературе автоматы обладают следующими характеристиками: вероятностная характеристика ошибки второго рода составляет всего 10 –1 при вероятности ошибки первого рода равной 10– 2 .

Программный комплекс направлен на обеспечение защиты информации и на устранение ее утечки. Для обеспечения защиты и обезличивания человека, имеющего доступ к информации, предлагается внедрение технологии голосовой аутентификации в состав системной проверки доступа. В качестве систем проверки предлагаются: интернет-кабинеты с глобальными или локальными выходами. Данные системы обычно используются государственными и муниципальными учреждениями, а также некоторыми учебными заведениями. В результате действующий терминал позволит определять человека по произносимой парольной фразе с достаточно низкой вероятностью ошибки второго рода (по полученным в диссертационной работе статистическим данным она должна быть не выше 10- 7), а также обеспечит пользователю быстрый, защищенный и удобный вход в личный кабинет.

Достоверность и обоснованность результатов , сформулированных в диссертации, обеспечена корректным использованием математических методов и сопоставлением теоретических утверждений с результатами тестовых и натурных экспериментов.

Основные положения, выносимые на защиту :

    алгоритм выделения речевых статистических параметров на основе дискретно-континуального описания длительности звуков потока осмысленной речи;

    численный метод построения линейного предсказателя по выделению периода основного тона при непокадровой обработке данных и при использования речевых статистических параметров диктора;

    нелинейная математическая модель фильтрации звукового сигнала, осуществляющая шумоподавление сигнала при соотношении сигнал/шум равном единице;

    алгоритм выделения векторов биометрических данных;

    алгоритм фрагментации и классификации звуковых биометрических «фонем»;

    алгоритм построения нейронной сети для распознавания биометрических особенностей человеческой речи;

    макет обучения и аутентификации пользователя по парольной голосовой фразе.

Внедрение результатов работы и связь с научными программами. Полученные результаты исследований реализованы в организации АО «ПНИЭИ» (г. Пенза) при разработке макета программного обеспечения «Аутентификация пользователя по голосовой фразе». Имеется акт о внедрении результатов диссертационной работы.

Разработан программный комплекс (свидетельство № 2016Э13464 от 21.10.2016 о государственной регистрации программы для ЭВМ) решения задачи построения средства нейросетевого биометрического распознавания по голосу при уровне шума выше уровня сигнала. Указанный программный комплекс, использованный в исследовательской, производственной и проектно-конструкторской деятельности АО «ПНИЭИ» (г. Пенза) при исследовании и разработке алгоритмов биометрической аутентификации, содержит программное решение актуальной задачи разработки инструментальных средств автоматизированной парольной идентификации личности человека по голосовой фразе. Программа способна осуществлять подтверждение личности в условиях шума, сопоставимого уровню речевого сигнала.

Исследования поддержаны грантом «У.М.Н.И.К», договор № 8909ГУ/2015 от «21» декабря 2015 г. о предоставлении гранта Федеральным государственным бюджетным учреждением «Фонд содействия развитию малых форм предприятий в научно-технической сфере» для проведения исследований по теме «Разработка средства нейросетевого биометрического распознавания по голосу при уровне шума выше уровня сигнала».

Апробация диссертации. Основные положения диссертации докладывались и обсуждались на следующих международных конференциях: шестой и седьмой международной научно-технической конференции «Математическое и компьютерное моделирование естественнонаучных и социальных проблем» (г. Пенза, 2013, 2014); Международной научно-технической конференции «Аналитические и численные методы моделирования естественнонаучных и социальных проблем» (г. Пенза, 2014); научно-практической конференции «Вклад молодых ученых в развитие экономики Поволжья» осенняя сессия 2016 г. (г. Пенза, 2016); научной конференции конкурса «Ректорские гранты» (г. Пенза, 2015).

Личный вклад автора. Все основные результаты, представленные в диссертационной работе, сформулированы и получены автором самостоятельно. Работы опубликованы в соавторстве с научным руководителем, которому принадлежит формулировка решаемой проблемы и концепция ее решения. В работе описан разработанный автором алгоритм получения речевых статистических параметров на основе дискретно-континуального описания длительности звуков потока осмысленной речи. В работе автор самостоятельно разработал новый алгоритм шумоподавления. В работах автор построил метод обезличивания персональных данных по голосовому парольному слову, усовершенствовал известные линейные алгоритмы обработки звуковых сигналов. В программном комплексе автором разработаны основные алгоритмы и составлены программные коды. Также автор провел численные эксперименты, которые подтверждают возможность практического использования результатов.

Публикации. По материалам диссертационного исследования опубликовано 8 работ, в том числе 3 работы в журналах из перечня ВАК РФ.

Структура и объем работы. Диссертация состоит из введения, четырех глав с выводами, заключения, списка использованных источников и 2 приложений. Общий объем работы составляет 188 страниц, из них 170 страниц основного текста, включая 87 рисунков. Список литературы содержит 83 наименования.

Функциональная модель преобразователя биометрия-код

Основным функциональным элементом средства высоконадежной биометрико-криптографической аутентификации является преобразователь биометрия-код. Работа преобразователя биометрия-код основана на использовании специальных методов преобразования нечетких биометрических данных в двоичное целое число фиксированной разрядности - кодовый отклик. При этом нечеткие биометрические данные пользователя «Свой» преобразовываются в стабильный кодовый отклик, называемый кодом «Свой», а нечеткие биометрические данные пользователей «Чужие» преобразуются в случайные (некоррелированные) кодовые отклики «Чужой». Функциональная схема работы преобразователя биометрия-код приведена на рисунке 1.2.

Таким образом, основная функциональная характеристика преобразователя биометрия-код состоит в том, что он должен сворачивать многомерное поле непрерывных состояний нестабильного биометрического образа «Свой» в точку кода «Свой», принадлежащую некоторому конечному дискретному полю возможных состояний этого ключа. Второй функциональной характеристикой преобразователя биометрия-код является то, что случайные биометрические образы «Чужой» должны порождать на выходах преобразователя случайные выходные кодовые отклики. Множество биометрических образов Множество кодовых откликов

Внутренняя структура преобразователя биометрия-код формируется в ходе специальной процедуры, называемой обучением. Процедура обучения принимает в качестве параметров множество примеров биометрического образа «Свой», множество биометрических образов «Чужой», каждый из которых представлен одним или несколькими примерами, и кодовый отклик «Свой», а результатом работы процедуры является сформированный преобразователь биометрия-код с параметрами, позволяющими выполнять вышеуказанные функциональные характеристики.

Параметры обученного преобразователя биометрия-код, дополненные некоторой дополнительной информацией (например, идентификатором или именем пользователя), формируют биометрический контейнер. 1.5. Классическая меРА ХэмминГА

Процедура упорядочивания биометрических образов должна быть высокоразмерной и учитывать изменения всех биометрических параметров и всех их возможных комбинаций, что становится технически невыполнимо уже для нескольких десятков учитываемых биометрических параметров, поэтому единственным возможным способом избежать этого является переход из пространства входных непрерывных высокоразмерных биометрических образов в пространство выходных дискретных кодовых откликов. При этом сортировка биометрических образов становится линейной и одномерной, а работа автомата упорядоченного перебора биометрических образов - тривиальной.

Основной метрикой в пространстве выходных кодовых откликов является мера Хэмминга - количество несовпавших разрядов кодовых откликов и различные модификации этой меры, описанные далее. Мера Хэмминга к рассчитывается по формуле п h = YS iyi\ (1.5.1) /=1 где Xj - значение /-го разряда первого кодового отклика; уі - значение /-го разряда второго кодового отклика; п - длина кода; Ф - сложение по модулю 2. При помощи этой метрики можно установить меру близости между двумя биометрическими образами «Чужой», либо меру близости биометрического образа «Чужой» к биометрическому образу «Свой», для которого было произведено обучение средства высоконадежной биометрической аутентификации. Использование меры Хэмминга для упорядочивания биометрических образов имеет смысл только для определенного преобразователя биометрия-код, обученного на некотором биометрическом образе «Свой».

1. Основным различием предлагаемого способа от всех остальных считается присутствие кодируемых под определенные особенности среды и исполняемого кода автоматов переустройства длинных случайных входных данных в конкретный код длиной в 256 бит.

2. Центром механизма переустройства считаются настраиваемые хэш-функции (НХФ), являющиеся обобщенным понятием преобразователей биометрия-код сравнительно с преобразуемыми ими данными. Сущность предлагаемого способа кроется в исходных данных тестируемого кода. Можно выделять два вида исходных данных: параметры переустройства НХВ и многомерные параметры . Характеристики переустройства НХФ переставляются взамен исполняемого кода программы совместно с автоматом, реализующим НХФ. При запуске программы ей на осуществление с исполнением передаются входные многомерные характеристики. С поддержкой автомата НХФ хранимые и отданные характеристики применяются для восстановления еще одного блока исполняемого кода программы.

3. После процесса восстановления компилируется код, и автомат НХФ перебегает к декодированию надлежащих блоков, важных для продолжения работы программы. По характеристикам состояния НХФ или же лишь только по входным характеристикам возобновить исполняемый код непросто. Это разрешает использовать НХФ для заключения задачки обороны исполняемого кода от возникновения взлома. Схема обороны любого блока компилируемого кода представлена на рисунке 1.3.

Оценка длины речевого фрагмента, используемого нейросетевым вокодером нового поколения, для автоматического обучения биометрической системы голосовым параметрам диктора «Свой»

Для получения информативного парольного слова для аутентификации необходимо вычислить статистические параметры, описывающие их качество и различие.

Системы голосовой идентификации, которые принимают в качестве параметров коэффициенты частотного спектра, имеют схожие вероятностные ошибки с системами, анализирующими речевой сигнал по времени. Вероятность ошибки первого рода характеризует отказ пропуска «Своему». На данный момент среди существующих голосовых систем эта вероятность равна 10_1. Вероятность ошибки второго рода характеризует пропуск «Чужого». Частота появления данной ошибки зависит лишь от режима использования метода. В случае, если постороннему человеку известна парольная фраза и при этом он не пользуется диктофоном, успех его обхода системы равен примерно 1 % при условии, что его голос близок к записанному. В противном случае злоумышленнику может понадобиться до 1010 попыток для успешного взлома.

Тем не менее, пройти под видом другого диктора в существующих системах становится возможным, если известна и записана на диктофон парольная фраза изначального диктора. В данном случае вероятность второго рода значительно увеличивается. Отсюда вытекает потребность в решении задачи предотвращения перехвата голосового пароля. Также одним из способов решения данной задачи служит использование одновременной идентификации человека по строению лица. Помимо этого, некоторые специалисты по системной безопасности подключают датчики движения для выявления источника звука.

В настоящее время широко распространены временные процедуры (линейные предсказания) и частотные процедуры полосовой фильтрации в вокодерах. И те, и другие процедуры существенно искажают биометрию пользователей и одновременно не могут дать высокого сжатия речевой информации.

Исследования в рамках работ пензенского научно-исследовательского электротехнического института, в которых автор принимал участие, показали, что существует реальная возможность создавать новый класс вокодеров, опирающийся на новый тип описания голосовых сигналов. В основу нового типа описания речи положено использование того факта, что согласованная речь состоит из затухающих колебательных процессов, повторяющихся с периодом основного тона. Например, так выглядит фонема «а» (рисунок 1.11). Ттон=60

Из рисунка 1.11 можно сделать вывод, что звук состоит из периодически повторяющихся затухающих колебаний. Следовательно, для экономного описания процесса необходимо измерить скорость затухания и частоту (число горбов) внутренних колебаний. При этом сложный речевой процесс, описываемый классическими вокодерами с использованием 14-18 параметров, будет описываться только четырьмя параметрами: 1) амплитуда звука; 2) период основного тона; 3) затухание внутренних колебаний; 4) частота внутренних колебаний. Такой подход к кодированию речи позволяет в несколько раз уплотнить информацию. Очень важным является то, что в новом типе «колебательного» описания речевого сигнала различные фонемы оказываются достаточно схожими. Например, фонемы «о» и «а» будут отличаться только периодом основного тона. Пример фонемы «о» приведен на рисунке 1.12.

Сравнивая рисунки 1.11 и 1.12, мы можем сделать вывод о том, что фонему «о» и фонему «а» формирует одно и то же колебательное звено. Между собой фонемы отличаются только периодом основного тона. Этих данных в литературе нет. В классической литературе по обработке речи была сделана попытка связать между собой первую и вторую фонемы (см. рисунок 4.3 в ). Необходимо учитывать затухание частоты, так как это позволяет определять границу звука. Затухание является прямым, а не косвенным параметром речеобразования. Фонема «о» имеет меньший период основного тона в сравнении с «а», но одинаковую частоту заполнения и одинаковое затухание

Проведенные исследования показали, что, опираясь на новый принцип описания звуковых сигналов, можно построить простые «нечеткие» правила классификации «фонем» и синтез их оптимального нечеткого описания. Например, описание фонем «у» и «ю» имеют практически одинаковую форму строения, но разные периоды основного тона. Эта ситуация отображена на рисунке 1.13. О 50 Щ!\ ft h 200 100 I Т=50 "у” Т=60 "ю" Рисунок 1.13- Примеры двух похожих фонем «у» и «ю», отличающихся только периодом основного тона Существует возможность значительно упростить теорию описания речеобразования, выведя простые нечеткие (размытые) правила различения фонем. Они будут простыми для подавляющего большинства фонем. Эти правила будут описывать «среднестатистического» говорящего. Отклонения от этих правил будут являться не чем иным, как биометрическими особенностями говорящего. Видимо, именно такой путь даст возможность повышать качество вокодеров, коэффициент сжатия речи, достоверность передачи биометрических параметров речи.

Следуя путем синтеза нечетких правил (нечеткого распознающего фонемы автомата) предположительно удастся повысить в 1,5-2 раза коэффициент сжатия речи. Предпринятая попытка создать вокодер, учитывающий затухание колебательных процессов, показывает техническую реализуемость этого направления.

Еще одним путем повышения коэффициента сжатия речи является выделение фонем и кодирование фонем, а не кадров. Кадровая кодировка речи избыточна. Обычно в вокодерах используется 44 звуковых кадра в секунду. В среднем человек произносит 11 фонем в секунду. То есть вокодеры осуществляют 4-кратное дублирование одной фонемы. Если мы знаем нечеткое правило эволюции фонем (как одна фонема трансформируется в другую), то достаточно однократно передавать данные фонемы. Это должно позволить сжать дополнительно информацию в 3-4 раза. Если передавать параметры речи в центре фонем и между ними, то дополнительное сжатие будет примерно равно двум.

Таким образом, новый подход, построенный на оценке затухания периодов основного тона и внутренних колебаний, является перспективным, и позволяет повысить коэффициент сжатия речи в несколько раз. Технически реально иметь вокодеры с выходным потоком в 600 бит/с. Одновременно может быть решена задача точной передачи биометрических параметров для вокодеров с потоком 2400 и 4800 бит/с.

Аутентификация по парольному слову

Использование методов и алгоритмов, использованных при построении существующих вокодеров, не делает возможным применение данных методов в построении фрагментаторов голосовых сигналов. Причина, по которой нельзя применять эти методы, заключается в том, что вокодеры, обладающие высоким качеством передачи голосовых данных, выделяют огромное число классов, поток которых равен порядку 2400 бит/с. Данное число характерно вокодерам, построенным на алгоритмах линейного предсказателя. Необходимо минимизировать данное число потока данных. В случае использования вокодеров, дающих поток порядка 1200 бит/с, число полученных классов уменьшается, но, тем не менее, остается достаточно большим. Также в данном случае теряются биометрические данные самого пользователя .

Решением данных вопросов является использование биометрических аппаратов, способных обеспечивать систему достаточным количеством информации. Также выходом является построение автоматического фрагментатора речи, классифицирующего участки голосового сигнала. Использование уже имеющихся фрагментаторов не обеспечивает систему достаточным количеством информации из-за того, что их алгоритмы основаны на равномерной покадровой обработке голосового сигнала . Равномерное разбиение голосового сигнала обычно варьируется на потоке 20-60 кадр/с. Также одним из недостатков существующих фрагментаторов является полное пренебрежение внутренними изменениями внутри фрагментов звука, т.е. появляется потеря знания об изменении самих биометрических параметров.

Можно сделать вывод, что основной целью создания устойчивых систем голосовой биометрической аутентификации является преждевременная обработка звукового сигнала, сочетающая в себе построение эффективного фрагментатора кодовой фразы, который учитывает личные характеристики пользователя и синхронизирует выявленные участки речи на этапе обучения программы, т.е. на данных участках речи не должно быть расхождение по фазе звука . Также полезным свойством нового фрагментатора была бы возможность самообучения и выявления особенностей диктора на этапе аутентификации программы после длительного промежутка времени относительно обучения данного диктора.

К моменту аутентификации пользователя программа должна накопить всевозможные статистические характеристики, четко расклассифицировать выделенные участки речи. В случае биометрической идентификации необходимо создать автоматический фрагментатор, способный классифицировать звуки, благодаря заранее созданному словарю и обращающийся к базе данных созданных звуков, отдельно для каждого пользователя. Обе системы аутентификации и идентификации должны быть подвергнуты предварительным испытаниям на вероятность появления ошибки первого и второго рода. Эта задача решена в диссертации с применением следующих подходов. Разработан алгоритм контроля периода основного тона пользователя. Для каждого человека имеется свой отдельный набор параметров периода основного тона, который подсчитывается при записи звукового файла. Математическое ожидание длины периода основного тона считается индивидуальной характеристикой, несмотря на то, что у многих людей она может совпадать. Наименьшее значение периода основного тона характерно в основном женскому полу и лицам до 16 лет. Данное значение имеет значительное различие по сравнению с мужским голосом. Некоторые мужчины имеют басовый характер голоса, и среднее значение их периода превышает значение среднестатистического человека.

Этап предобработки голосовой фразы в случае идентификации или аутентификации должен оперироваться средними характеристиками диктора с учетом множество параметров без использования современных возможностей вычислительной мощности компьютера. Данное условие должно учитываться автоматическим фрагментатором-классификатором голосовой фразы, речи идентифицируемого пользователя.

Басовый голос из-за большой длины периода основного тона имеет достаточно большое разнообразие изменений по амплитуде сигнала внутри исследуемого участка. Данная особенность приводит к расширению окна обработки речевого фрагмента, эта проблема может быть решена путем прогнозирования изменения важных биометрических характеристик. Несмотря на данные факторы, фрагментатор-классификатор обязан тратить одинаковые вычислительные ресурсы для разных типов людей. Эти принципы заложены в разделе 3 главы 2 при построении практической модели фрагментации звуковой фразы.

Экспериментальное тестирование программы на вероятность появления ошибок второго рода при условии незнания парольного слова посторонним человеком

Процедура «LPCJ5» - фильтр линейного предсказателя, на выходе которого имеем значение периода основного тона «period LPC» (формула 3.1.7). На процедуру подается длина кадра «TV», номер отсчета начала и конца кадра «7V7 и N2», порядковый номер кадра «kadr», количество коэффициентов автокорреляционной функции, «dmposonjjenod» - отклонение от нуля в автокорреляционной функции, «error» - вектор ошибки с предыдущего кадра, вычисляемый с помощью процедуры «LPCJor error».

В процедуре выполняется подсчет автокорреляционной функции погрешности предсказания: N/An-1-к r(k)= У ew(n)e(n + к),kе0,N/An-l, (3.1.10) а в блоке 6 определялось, при каких значениях щп ще[щ,п2], автокорреляционная функция погрешности предсказания г(к) максимальна, что соответствует выделению максимумов (пиков) в спектре речевого сигнала. Для этого минимизировался функционал: є гм=г(п0) та Ле[пЬп2]. (3.1.11) При этом щ - минимальная длина периода основного тона, щ = inf Т0Т- п2 -максимальная длина периода основного тона, п2 = sup Тот. Полученное значение определяем как п. Находим максимальное значение периода в рамках точной нижней и верхней грани, после чего переходим к формуле Т ±от п Гт-у, (3.1.12) 0, гт /, где у - пороговое значение, определяемое в процессе настройки.

Процедура «Ма8htabirovanie_v» масштабирует каждый кадр входного сигнала в заданном диапазоне для сравнения каждого кадра по корреляции. Все детерминированные участки приводятся к одинаковому константному масштабу от-1 до+1.

Процедура «mashtabirovamejJoX» принимает на вход сигнал определенной размерностью «N_N» и аппроксимирует сигнал «ogib» на определенную длину «Nogib». То есть сохраняется рисунок сигнала, изменяется лишь количество отсчетов в нем.

Процедура «Ogibayshayjjokadr» - подсчет огибающей по кадру, где «у» -фильтр размерностью «N_N» с определенной гармоникой; «Nach», «Коп» -начало и конец массива по параметру «у»; «kadr» - математическое ожидание периода основного тона; «ogib» - получаемая огибающая; «Nogib» - размерность огибающей.

После проведения предобработки сигнала и выделения необходимых биометрических параметров данные поступают на преобразователь биометрия-код, состоящий из следующих процедур и функций: void netlr.koef (int kolobrazov, int Nobrazov, double obrazy, int &razmer, double &net); void netl: :norm net (int kolobrazov, double sigma, double Mat OG al, int razmer, double &net); void CCalculateADQ::CalculateInputADQ (int imageCount, float coefficientsArr, float averageArr, float dispersionArr, float qualityArr); void netS::SimpleTraining (int weights Number, const int ConnectionArr, int imageCount, int keyArr, float averageArr, float weightsArr); void netSr.NormalizationTrainmg (int weights Number, const int ConnectionArr, int imageCount, float dispersionArr, float qualityArr, float weightsArr).

Процедура «Ьф -вычисление коэффициентов Фурье из сформированных образов (биометрических параметров). «Nobrazov» - размерность одного образа. akol obrazov» - количество образов, поданных на нейронную сеть. На выходе процедуры - матрица «net» размерностью . Каждый вектор из 196 компонент сформирован из коэффициентов Фурье рассматриваемого сигнала.

Процедура формирования заключается в обработке сигнала различными окнами, вычислением коэффициентов Фурье вырезанных этими окнами функций и формированием итого вектора по специальному алгоритму.

Процедура «normnet» - нормировка образов «Свой» относительно математического ожидания и дисперсии образов «Чужой». Образы «Чужой» сформированы предварительно путем накапливания голосовой базы из 10000 образов. База сформирована в результате проводимого сбора в рамках внутренней работы АО «ПНИЭИ» в 2012-213 гг. Нормировка образов осуществляется по формуле net[g][/] = - у, i _ 0..kol obrazov, g = 0.. 196, (3.2.1) чужойШ где Мчужой - вектор математического ожидания образов «Чужой»; 64yyK0U[g] вектор дисперсий образов «Чужой».

Процедура «CalculatelnputADQ» подсчитывает математическое ожидание, дисперсию и качество параметров образов «Свой». Качество каждого параметра рассчитано путем отношения среднего значения параметра к его дисперсии.

Процедура «SimpleTraining» производит заполнение и запись таблицы весовых коэффициентов в отдельный.1x1 файл для дальнейшего его использования в момент обезличивания. В результате проведенной процедуры формируется первоначальное обучение первого слоя. На вход процедуры подается таблица связей нейронов, относительно которой формируются параметры, принимающие значения «0» и «1», а также случайно сгенерированный код доступа «key». Число весов «weightsJayerl» на слое равно 24. Обучение ведется путем корректировки знаков весовых коэффициентов у части входов нейрона. Корректировку знака осуществляют таким образом, чтобы вероятность появления заданного отклика на выходе нейрона при предъявлении примеров образа «Свой» увеличивалась (число ошибок выходного кода уменьшалось). Корректировку следует осуществлять по одному входу. Если смена знака весового коэффициента корректируемого входа дает обратный результат, то корректировку следует отменить и перейти к корректировке знака следующего весового коэффициента. Процедура «NormalizationTraining» осуществляет обучение первого слоя сети, используя входное качество и дисперсию, полученные из функции «CalculatelnputADQ».

В наши дни речевые технологии из ИТ-экзотики быстро превращаются в реальность. Довольно большие успехи показывает голосовая биометрия, на основе которой реализованы различные приложения, обеспечивающие создание полезных услуг для банков, контакт-центров, поликлиник, автотранспорта, голосового управления работой средствами мобильной связи и навигации. Среди компаний, предлагающих широкий спектр популярных речевых и текстовых решений, а также приложений для работы с документами, значится и фирма Nuance Communications. Её региональный директор по продажам и развитию бизнеса Nuance Communications Мартин Весёлка ответил на вопросы обозревателя PC Week/RE Петра Чачина о современных возможностях речевых технологий и голосовой биометрии.

Мартин Весёлка: Голосовая биометрия — одна из технологий, которая развивается очень быстро и позволяет разным компаниям использовать ее решения для идентификации заказчиков. В биометрической системе для определения или подтверждения личности используют индивидуальные поведенческие, психологические и некоторые другие характеристики. Имеется множество биометрических измерений, включая сканирование радужной оболочки глаза, отпечатков пальцев, распознавание лица, голоса, подписи и т. д. Голосовая биометрия позволяет, исследуя голосовые характеристики человека, идентифицировать клиента. Она представляет собой относительно простой и экономичный способ решения ряда практических проблем.

PC Week: Чем вызван нынешний интерес ИТ-служб различных отраслей к голосовой биометрии и речевым технологиям?

М. В.: Это связано с тем, что голосовая биометрия и речевые технологии - уже далеко не игрушки, это - высокоразвитая технология, которая может быть использована для повышения качества услуги в такой степени, чтобы заказчик мог ощутить это улучшение. Предприятие должно предоставить заказчику автоматизированный сервис, и речевые технологии способны в этом помочь. Клиента никто не заставляет ждать, не переадресовывает и не предлагает пользоваться меню. Голосовые коммуникации являются удобными для заказчика.

Система понимает клиента и способна проверить его слова. Он может даже не помнить пароль или число. Голосовая биометрия, которая используется в процессе разговора, позволяет установить, кто звонит. Это сокращает время разговора. Так что клиенту не надо представляться и называть пароль. Его пароль - его голос! При этом он чувствует, что его звонок важен и компания сразу принимает решение.

PC Week: В каких отраслях наиболее востребованы приложения голосовой биометрии и речевых технологий?

М. В.: Наиболее широко они применяются в банковском секторе, в страховых компаниях, в телекоме. Авиакомпании проявляют значительный интерес. Перспективным является также рынок мобильных приложений для сотовых телефонов, где речевые технологии востребованы в полной мере. В автомобилестроении голосовые системы позволяют использовать навигационные приборы в пути, способны включить музыку, кондиционер, помогают, не отвлекаясь от управления машиной, записать и отправить SMS и т. д.

В медицине речевые технологии используются для записи информации о клиентах, создания электронных карт пациентов. Это позволяет оптимизировать работу врачей и создает явные преимущества для клиентов. Врач не использует клавиатуру компьютера, он просто диктует медицинские показатели и диагноз. Система распознавания речи переводит голос в текст и записывает его.

М. В.: Банковские контакт-центры успешно применяют голосовые технологии. Если клиенту нужна базовая информация, то она предоставляется ему свободно. Но если он хочет провести финансовую операцию или какую-то операцию со своим счетом, то его [статус] нужно проверить. Голосовая биометрия - это один из видов проверки клиента, с помощью которой возможно идентифицировать, живой ли это человек, или транслируется запись речи.

Система голосовой биометрии может выявить необходимость дополнительной проверки клиента. Можно также создать “черный список” отпечатков голосов клиентов, замеченных в мошенничестве или в попытках несанкционированного доступа к счетам других клиентов. Это позволяет обеспечить безопасность банковских операций.

PC Week: Является ли система верификации голоса клиента более надежной, чем PIN-коды и пароли?

М. В.: Сразу хотел бы отметить, что система голосовой биометрии более удобна для заказчика, чем использование PIN-кодов и паролей. Но можно также сказать, что голосовая биометрия более надежна, так как пароль может быть подслушан и украден в течение разговора. Да и PIN является большой проблемой всех контакт-центров, ведь операторы сами могут воспользоваться этими сведениями. Пароль и PIN нетрудно украсть, такая информация может уйти на чёрный рынок, но голос останется с вами! А вот комбинация голосовой биометрии и вопросов o персональной информации о вашей жизни в комбинации позволяют добиться высокой степени надежности.

М. В.: Каковы специфические проблемы контакт-центров? Они не успевают отвечать на запросы, не хватает операторов. В этом случае используются автоматические устройства интерактивного речевого ответа IVR. Но клиенты не всегда хотят работать с IVR, они предпочитают дождаться отклика оператора и теряют время обслуживания контакт-центра.

Заказчик звонит в центр обработки вызовов, мы спрашиваем его, как ему помочь. Он в свободной форме отвечает на вопрос. С помощью системы распознавания речи мы понимаем его просьбу и решаем, куда надо обратиться. Эту информацию мы или транслируем в систему самообслуживания, или направляем звонок оператору. В то же время мы можем идентифицировать клиента с помощью голосовой биометрии. Применяя данные меры, мы сберегаем очень много времени по сравнению с традиционными методами, ведь IVR не отвечает на вопросы.

В Восточной Европе и России голосовая биометрия практически не используется. А в Западной Европе и США данная технология уже широко применяется. Такая ситуация конечно изменится в ближайшие год-два. Операторские центры будут использовать речевые технологии, такие как голосовая биометрия, предоставляя лучшие по качеству услуги для всех клиентов контакт-центров.

Например, один из российских банков хочет внедрить голосовую биометрию для поддержки системы кредитных карт для всех своих клиентов. Это позволит идентифицировать пользователей. Технология инсталляции голосовой биометрии не сложная. Но заказчики должны знать о наличии нового сервиса, это важный элемент его продвижения.

PC Week: Насколько дорогостоящими являются системы голосовой биометрии? Велик ли рынок голосовых решений для контакт-центров?

М. В.: В начале каждого проекта мы рассчитываем экономическую эффективность и срок возврата инвестиций. В зависимости от пожеланий клиента, проект может делаться на базе числа портов IVR, или на базе количества отпечатков голоса, используемых в системе. Если голосовое решение хорошо отлажено, то время одного разговора может быть уменьшено на 20-40 с, а возврат инвестиций происходит за шесть-девять месяцев.

Рынок голосовой биометрии существует как в рамках контакт-центров, так и вне их. Причем каждый операторский центр может использовать голосовую биометрию. Сегодня голосовыми решениями занимаются почти все гиганты ИТ-индустрии, такие как Google и Microsoft. Но кроме call-центров есть и другие возможности использования голосовой биометрии, например для управления мобильными устройствами, предоставления безопасного доступа в определенные помещения или к определенному оборудованию, в сфере медицины и пр.

PC Week: И как используется распознавание речи в медицине?

М. В.: В медицине распознавание речи помогает высвобождению медперсонала. Разработаны приложения для диктовки и транскрипции, улучшающие качество записи, обработки и использования данных о пациенте. Это позволяет создавать медицинские архивы с голосовым управлением, которые значительно снижают эксплуатационные издержки и улучшают качество обслуживания пациентов. Использование таких систем повышает доходность лечебных учреждений за счет сокращения средней продолжительности выполнения задачи и одновременного повышения эффективности предоставления услуги.

М. В.: Системы голосовой техники быстро развиваются. Практически во всех сферах бизнеса они создают новые возможности для обслуживания клиентов, повышения точности, производительности и эффективности производства, сокращения временных и финансовых затрат. Они вторгаются в жизнь миллионов частных пользователей. Поэтому можно ожидать дальнейшего увеличения числа распознаваемых языков и расширения количества создаваемых на этой основе сервисов.

PC Week: Благодарю за беседу.

Всем привет.
Недавно я написал вот такую про распознавание слитной речи, а сейчас хотел бы написать про голосовую биометрию, т.е. подтверждение личности человека по голосу и узнавание человека по голосу.

Опять же, т.к. моя работа связана с контактными центрами (КЦ), то говорить я буду о них. Это еще связано с тем, что сейчас именно они активно интересуются голосовой биометрией, что не удивительно, т.к. телефонный канал – это идеальное ее применение.
- вы не видите абонента на другом конце провода;
- вы не можете использовать другие модальности для подтверждения личности: по лицу, по сетчатке глаза, по отпечатку пальца.
- не нужны дополнительные сканирующие устройства, типа тех, куда надо приложить свой палец или кому показать свой глаз.
- это самый дешевый способ биометрии, хоть и слегка уступает по надежности другим способам. Но так как другие модальности технически не применимы по телефону в массовом использовании, то выбора по факту нет.
Вы, конечно, можете возразить про вариант подтверждения личности абонента «основанном на знаниях» - это пароли, секретные слова, TPIN коды (банки), паспортные данные и т.д. – но все это не надежно с точки зрения безопасности и требует запоминания информации у абонента или всегда держать информацию под рукой, что не очень удобно для абонента и не эффективно (затратно) для КЦ.

Для начала определимся с понятиями, что входит в понятие голосовой биометрии:
- Это идентификация , т.е. установление личности человека по голосу. Это когда вам звонит старый приятель по телефону с неизвестного номера и говорит: «Угадай кто это?» и вы пытаетесь в голове среди всех известных (знакомых) голосов найти наилучшее совпадение. Когда сканирование памяти закончилось и вы нашли более менее подходящее совпадение, то вы можете уже сказать: «Ага, это мой одноклассник Серега с которым я не говорил 10 лет». Но гарантии в том, что это именно он, у вас нет, и тут приходит время верификации.
- Верификация – это подтверждение личности по голосу, т.е. однозначное удостоверение личности. Для этого мы можем попросить доказать, что Серега именно тот, за кого себя выдает. Мы можем спросить у него: «Скажи, где мы были в 6 утра на выпускном» - эта информация позволит нам подтвердить личность Сереги, т.к. только он может являться носителем этой информации (аналогично паролю о котором я писал выше).

Если хотите более умное определение, то:
Идентификация - Проверяет совпадение одного образца голоса со многими из базы голосов. В качестве результата идентификации система показывает список личностей с похожими голосами в процентном отношении. 100% совпадение означает, что образец голоса полностью совпадает с голосом из базы данных и личность установлена достоверно.
Верификация - Производит сличение двух образцов голоса: голос человека, чью личность необходимо подтвердить, с голосом, который храниться в базе данных системы и чья личность уже достоверно установлена. В качестве результата верификации система показывает степень совпадения одного голоса с другим в процентном отношении.
Есть еще такое понятие как аутентификация . Однозначно сказать, чем она отличается от верификации сказать трудно. У некоторых наших сотрудников есть мнение, что это некий процесс подтверждения биологической (!) личности, когда трудно отделить процесс идентификации от верификации, т.е. это обобщенный процесс.

Какая бывает верификация?

- Текстонезависимая
Когда подтверждение личности происходит по спонтанной речи абонента, т.е. нам не важно, что говорит человек. Это самый долгий метод подтверждения – чистой речи абонента должно накопиться минимум 6-8 сек. Обычно этот способ применяется непосредственно во время общения абонента с оператором КЦ, когда последнему нужно однозначно удостовериться, что абонент именно тот, за кого себя выдает. Самое интересное, что данный способ верификации можно применять скрытно от самого абонента. На рабочем месте оператора КЦ виден вот такой рабочий инструмент.

Рис 1. Часть интерфейса рабочего места оператора КЦ для проведения верификации клиента.

- Текстозависимая по статической парольной фразе
Когда подтверждение личности происходит по парольной фразе, которую на момент регистрации придумал абонент. Длительность парольной фразы должна быть не менее 3 сек. Обычно мы предлагаем говорить свое ФИО и название компании. Парольная фраза всегда одинаковая.
- Текстозависимая по динамической парольной фразе
Когда подтверждение личности происходит по парольной фразе, которую предлагает сама система в момент звонка для верификации, т.е. каждый раз парольная фраза разная! Обычно мы предлагаем динамическую парольную фразу из последовательности цифр. Абонент повторяет за системой числа до тех пор, пока она не примет однозначного решения «свой/чужой». Это может быть и одно число типа «32» или целый набор «32 58 64 25». Интересно то, то произнесение разных цифр дает разный объем информации для сличения: самая «полезная» цифра «восемь» – она больше всего содержит полезной речевой информации, самая бесполезная «два».

Шаг 1.
Что бы мы могли провести верификацию по голосу, нам нужно в своей базе уже иметь образец голоса (слепок голоса), хозяин которого достоверно известен. Поэтому первый шаг – это накопление базы слепками голосов, для этого мы просим абонентов (клиентов) пройти процесс регистрации в системе.
Регистрация в системе абонента означает, что он добровольно оставляет свой слепок голоса, который потом мы будем использовать для верификации. Обычно мы просим оставить подряд 3 слепка голоса, что бы была вариативность – три раза произнести свой пароль. Затем, когда верификация будет успешно пройдена, мы заменим наиболее старый слепок голоса новым, таким образом, происходит постоянное обновление слепков, если абонент часто пользуется системой. Так мы решаем проблему старения голоса.
Если мы применяем верификацию по динамической парольной фразе, то мы просим произнести абонента цифры от 0 до 9 три раза. В результате у нас будет 30 образцов голоса.

Желательно, что бы клиент оставлял свой слепок голоса (регистрировался) по тому каналу связи, по которому потом будет верифицироваться, иначе вероятность ошибок возрастает. Бывают случаи, когда проходят регистрацию с гарнитуры в скайпе, а потом верифицируются по домашнему телефону – здесь фактор канала связи будет играть большую роль в надежности сервиса. При построении сервиса можно учитывать, что каналы связи могут быть разные - это отрабатывается и тестируется отдельно под конкретный случай и нивелировать влияния канала связи можно практически полностью. Но не подумав об этом сразу и с наскока внедрить - будут сложности.

Важно, что бы клиент самостоятельно и осознано прошел регистрацию (знал зачем это нужно и как это ему потом поможет), т.к. пройти потом верификацию может только лояльный абонент, которому нужен результат и который принимает «правила игры».
Если клиента вынуждать проходить верификацию к месту и не к месту, то он может подсознательно изменять голос, дурачиться (быть не дружелюбным к сервису) - это будет приводить к ошибкам и лояльность клиента будет падать, хотя он сам в этом косвенно будет виноват.

Как проходит регистрация абонента в системе? (статическая парольная фраза)

Рис 2. Схема регистрации человека в биометрической системе.

1.Абонент звонит в биометрическую систему, которая предлагает ему придумать и произнести парольную фразу. Произнести 3 раза.
2.Голос обрабатывается сервером биометрии и на выход мы получаем 3 модели голоса. По одной на каждый произнесенный пароль.
3.На сервере мы заводим карточку клиента (Юрий Гагарин) к которой прицепляем полученные 3 модели голоса.

Что такое модель голоса?
- это уникальные характеристики голоса человека отраженные в матрице цифр, т.е. это файл размером 18Кбайт (для статической п.ф.). Это как отпечаток пальца. Именно эти модели голоса мы потом и сравниваем. В общей сложности модель голоса фиксирует 74 (!) разных параметра голоса.

Как получают модели голоса?
Мы используем 4 независимых метода:
- анализ статистики основного тона;
- метод смеси гауссовых распределений и SVM;
- спектрально-формантный;
- метод полной изменчивости.
Описывать их подробно я здесь не возьмусь – это сложно даже для меня и в курс «для чайников» точно не входит. Этому всему мы учим на нашей кафедре РИС в ИТМО (Санкт-Петербург).

Шаг 2.
Это непосредственно сама верификация. То есть у нас есть абонент на том конце провода, который утверждает, что он Юрий Гагарин. А у нас в базе, соответственно, есть карточка клиента Юрия Гагарина, где хранятся слепки его голоса, поэтому, все, что нам нужно сделать – это сравнить голос человека, который утверждает, что он Юрий Гагарин с голосом настоящего Юрия Гагарина.

Как проходит верификация абонента в системе? (статическая парольная фраза)

Рис 3. Схема верификации человека в биометрической системе.

1.Сначала мы поступаем как при регистрации, т.е. у нас есть произнесенный клиентом пароль, который мы отправляем в сервер биометрии и строим модель голоса «якобы» Юрия Гагарина.
2.Затем мы берем 3 модели голоса настоящего Юрия Гагарина, делаем хитрым способом усредненную модель и тоже отправляем ее в сервер биометрии.
3.Просто сравниваем 2 разные модели. На выходе мы получаем процент соответствия одной модели к другой.
4.Дальше нам нужно что-то делать с этим числом (на рисунке 92%). Много это или мало, можем мы однозначно сказать, что это Юрий Гагарин или это обманщик?

Рис 4. Порог доверия «свой/чужой».

В системе у нас есть такой параметр как «порог доверия» - это некий процент соответствия. Допустим, мы его сами задали в 60%. Таким образом, если процент соответствия модели голоса «якобы» Юрия Гагарина не доходит до «порога доверия», то нам позвонил обманщик. Если больше «порога доверия», то нам позвонил настоящий Юрий Гагарин. «Порог доверия» мы можем задавать сами, обычно это от 50 до 70% в зависимости от задачи верификации.

Здесь мне нужно было бы вам рассказать про ошибки первого (FR) и второго рода (FA), а также обобщенной ошибки (EER), но я это делать не буду – это сильно усложнит и увеличит текст. Если интересно, то я попробую уговорить, кого ни будь из научного отдела это популярно описать и размещу здесь отдельно.

Скажу просто, что в зависимости от задачи верификации, нам бывает полезней с большей долей вероятности пропустить «своего», чем не пропустить «чужого». И наоборот, иногда бывает важнее не пропустить «чужого», чем пропустить «своего».
Уверен, что с первого раза эти 2 предложения из вас никто не понял, и вам пришлось еще раз вдумчиво их прочитать, что бы осознать смысл.

Интеграция сервера биометрии в контактный центр.

Рис 5. Блок-схема продукта VoiceKey.

Честно говоря, здесь все очень просто: на вход мы подаем голос в формате wave или PCM по http, на выходе получаем результат сравнения. Больше подробнее на этом останавливаться не хочу.

Процесс верификации занимает в среднем 0.8 сек. Есть возможность работать одновременно со многими потоками.

У нас на сайте все подробно описано, а главное есть проработанные сценарии использования для контактных центров. За последние годы я достаточно много общался с различными крупными КЦ в России, в первую очередь это финансовый сектор и понимание целей и задач у меня сформировалось.

Теперь затронем такой вопрос: насколько вообще технология голосовой биометрии пригодна к массовому использованию? Надежна ли она?

Если кратко, то ДА, она реально круто работает. У нас в компании есть телефонные демонстрационные стенды. Если интересно, то каждый из вас может позвонить и лично попробовать, как и что работает. Телефонный номер и инструкцию по тестированию даю по запросу с этой страницы. Просто для статистики интереса к этой теме и оценки нагрузки на сервер.

Для справки: разработки Российских ученых в области голосовой биометрии занимают если не первое место в мире, то точно делят его с другими. Это подтверждено независимыми исследованиями, например NIST (Национальный Институт Стандартов и Технологий, США), где наша компания попала в тройку лучших по всем пяти тестам среди коммерческих компаний. Или то, что наш продукт «VoiceKey» победил в номинации «Лучший продукт года для КЦ» в 2013 году в международном конкурсе «Хрустальная гарнитура ».
Также можно отметить, что нашей компании принадлежит реализация самого крупного в мире на сегодняшний день проекта по голосовой биометрии в телефонном канале.

Вкратце, вот такой ликбез. Готов отвечать на вопросы в комментах.



И протяжные и контактные сканеры могут использовать любую технологию описанную ниже.

Емкостные сканеры

Емкость - это способность проводника накапливать электрический заряд. Емкостный датчик отпечатка пальца генерирует изображение отпечатка пальца, используя массив, содержащий много тысяч маленьких пластин конденсатора. Пластины матрицы составляют «пиксели» изображения: каждая из них действует как одна пластина конденсатора с параллельными пластинами, в то время как дермальный слой пальца, который является электропроводящим, действует как другая пластина и непроводящий. Эпидермальный слой как диэлектрик между ними.
Когда палец помещается на датчик, образуются слабые электрические заряды, образующие рисунок между гребнями или впадинами пальца и пластинами датчика. Используя эти заряды, датчик измеряет емкость емкости на измеряемой поверхности. Измеренные значения оцифровываются логикой датчика и затем отправляются в соседний микропроцессор для анализа.


Устройства с емкостными сенсорами - цена от 2 976 рублей

Технология емкостного сканирования, позволяет получать изображение отпечатка за счет разности электрических потенциалов на отдельных участках кожи. Данные устройства несколько дешевле, но более уязвимы по сравнению с оптическими: достаточно простого пробоя (вызванного, например, разрядом статического электричества), чтобы элементы сканирующей матрицы вышли из строя и качество распознавания ухудшилось.

Пассивные емкостные сканеры

Именно пассивные емкостные сенсоры отпечатков пальцев чувствительны к статическим разрядам, а также к сухой или поврежденной коже пальца. Но довольно хорошо справляются с различными условиями освещения.
Основное ограничение пассивных емкостных сенсоров - требования к минимальной толщине защитного покрытия, так как они основаны на анализе статических зарядов между пальцем и датчиком.




Емкостные сенсоры невозможно обмануть, просто распечатав изображение папиломного рисунка на бумаге. Более значимое преимущество емкостных сканеров заключается в том, что они более компактны и поэтому легко интегрируются в портативные устройства. Именно за счет этой их особенности они и получили в данный момент самое широкое распространение в смартфонах .
Несмотря на сложности, взлом емкостного сканера вполне возможен, достаточно распечатать отпечаток пальца в высоком разрешении на токопроводящей бумаге , также потребуется специальный принтер и токопроводящие чернила. Вот по разблокировке такого сканера встроенного в смартфон от наших друзей из мичиганского университета. Хотя конечно нужно отметить, что получить отпечаток пальца сложнее чем его распечатать. Есть два типа емкостных сенсоров: пассивные (каждая ячейка сенсора имеет лишь одну из пластин конденсатора) и активные (ячейка сенсора содержит обе пластины конденсатора).

Активные емкостные сканеры

Активный метод имеет следующие преимущества: позволяет использовать дополнительные функции обработки образа отпечатка, более высокую устойчивость к внешним воздействиям, имеет более высокое отношение сигнал – шум.

Активные емкостные сканеры менее требовательны к чистоте кожи, к повреждением эпидермиса и к загрязнениям поверхности сенсора. Несмотря на это активные сканеры позволяют получать превосходное качество изображения, даже позволяя выполнять 3D-рендеринг отпечатка пальца, который обеспечивает превосходную безопасность и устойчивость к подделке.
Все это делает активные емкостные сканеры наиболее часто используемым типом емкостных технологий сегодня.



Другим важным преимуществом активных емкостных сенсоров является то, что усиленная передача сигналов между поверхностью отпечатка пальца и сенсором позволяет размещать сенсор за толстым слоем защитного покрытия или даже за стеклом с минимальным снижением производительности.
Кроме этого активные сенсоры позволяют регистрировать электрические импульсы, возникающие при сокращении сердца, что сильно снижает риск использования муляжа. Активные емкостные сенсоры являются одной из самых распространенных технологий считывания отпечатка пальца в настоящий момент.

Оптические сканеры

Совершенное, надёжное и удобное решение – оптическое сканирование. Именно оптические сканеры формируют качественное, полномасштабное и целостное изображение отпечатка; к тому же эти средства комфортны в применении: единственное, что требуется от пользователя, – коснуться поверхности сканера.

Оптические сканеры отпечатков пальцев в настоящее время используют CCD или CMOS матрицы, такие же, как и IP-камеры. Исторически CCD матрицы были намного лучше, чем CMOS, но так как технология CMOS за последние десять лет претерпела значительные изменения, возможности технологии CMOS догнали CCD. И наиболее используемым детектором является все таки CMOS.



Устройства с оптическими сенсорами - цена от 2 484 рублей
Каталог оборудования вместе с ценами размещен на нашем сайте, все представленное оборудование доступно для заказа

Мультиспектральные сканеры имеют лучшие значения FRR < 0.01% и FAR < 0.00001% среди всех сенсоров отпечатков пальцев.

Можно ли подделать, отпечаток пальца?

Наверное самый распространенный вопрос который мне задают.
Простой ответ на вопрос: Некоторые очень просто, достаточно просто распечатать изображения на бумаге, некоторые очень сложно, некоторые невозможно например ультразвуковые. Невозможно, в том смысле конечно, что нам не известно о успешных попытках.

Самым действенным методом, подделки отпечатка пальца является создание муляжа. Для создания муляжа отпечатка пальца могут использоваться - глина, бумага, пленка, но самым лучшим материалом конечно будет силикон, он может быть как прозрачный, так и цвета кожи. Успешная подделка с помощью муляжа возможно только для самых простых сканеров, большинство современных сканеров с этой проблемой справляются.

Существуют ли люди без отпечатков пальцев?

Существуют редкие генетические мутации , при наличии которых у человека может не быть отпечатков пальцев вообще. Люди с синдромом Негели или дерматопатией пигментной ретикулярной формы могут не иметь отпечатков пальцев. Оба заболевания являются формами эктодермальной дисплазии , отсутствие отпечатков пальцев всего лишь один самый безобидный симптом.

Более интересным случаем является адерматоглифия , единственным проявлением этой генетической мутации является отсутствие папиллярного рисунка на пальцах рук и ног, на ладонях и подошвах ног. У этой мутации нет никаких сопутствующих проявлений выраженных в нарушении его нормальной жизнедеятельности или снижении продолжительности жизни. Это означает что адерматоглифия не является заболеванием. Исследование 2011 года показало, что адерматоглифия вызвана неправильной экспрессией белка SMARCAD1 . Что с учетом скорости развития и доступности технологий редактирования генома, может быть использовано как метод избавления от отпечатков.

С высокой вероятностью изменение отпечатков пальцев с помощью технологий редактирования генома станет доступно для злоумышленников в будущем. Редактирования генома человека, может быть использовано для внесения изменений в те участки ДНК которые отвечают за формирование отпечатков пальцев. Еще в 2017 году в США была произведена успешная операция по редактированию генома прямо в теле человека , в том же году американское управление по контролю за продуктами питания и лекарствами (FDA) одобрило одобрило генную терапию для лечения острого лимфобластного лейкоза.

Могут ли быть изменены отпечатки пальцев?

Лекарственные препараты могут привести к исчезновению папиломного рисунка. Отпечатки пальцев могут исчезнуть в результате побочных эффектов от приема некоторых лекарственных препаратов, например - капецитабин (выпускается под брендом Кселода ), противораковый препарат который задокументировано приводил к исчезновению отпечатков пальцев .

Отпечатки пальцев могут быть изменены в результате пластической операции - трансплантации собственной кожи, например со стопы. Следует отметить, что в результате проведенной пластической операции, могут остаться элементы старого папиллярного рисунка, например по краям пальца, с помощью которых все таки может быть проведена идентификация.

Кроме того, по такому отпечатку пальца, может быть видно что он изменен в результате пластической операции. Использование пластической хирургии для изменения отпечатка пальцев является преступлением, в том числе и для лица проводившего хирургическую операцию .

Также папиллярный рисунок достаточно часто пытаются повредить с помощью химических реагентов таких как кислота или щелочь. Джон Диллинджер был одним из самых известных преступников который пытался избавится от отпечатков пальцев с помощью щелочи. Несмотря на все старания именно по отпечаткам пальцев он был идентифицирован после смерти.
Есть и другие вещества способные нанести повреждения коже, но всех их объединяет то, что впоследствии кожа и папиллярный рисунок достаточно хорошо восстанавливаются. И такие методы, как правило, не приносят ничего своим владельцам, кроме страданий.

Физическое повреждение отпечатков пальцев , еще один болезненный способ избавится от отпечатков пальцев, который как правило ни к чему не приводит. Первый задокументированным случаем срезания отпечатков пальцев предпринял Theodore Klutas , после убийства которого полиция обнаружила что каждый его отпечаток был срезан ножом, что впрочем не помешало его идентификации так как осталось достаточно папиллярного рисунка по краям пальца для успешной идентификации.

Возрастные изменения , происходят во всей площади кожи человека, в том числе и на подушечках пальцев. С возрастом уменьшается эластичность кожи, уменьшается высота гребней папиллярного узора, и другие изменения, всего более 30.
Несмотря на это, степень возрастных изменений слишком незначительна чтобы затруднить идентификацию, об этом свидетельствуют ряд научных исследований разных лет. Одним из самых значительных является исследование профессора мичиганского университета Anil Jain . Он сравнил отпечатки пальцев 15597 человек полученные с перерывом от 5 до 12 лет, в результате не было выявлено серьезных препятствий для идентификации.
Возрастные изменения, также не представляют проблем для большинства современных автоматизированных средств сбора и обработки отпечатков пальцев.
В некоторых случаях изменение папиллярного узора могут быть связаны со спецификой работы.

Можно использовать палец мертвого человека для прохождения идентификации?




Этот вопрос не так прост как может показаться на первый взгляд. Начнем с технической части, все зависит от типа биометрического сенсора, и конкретного устройства который вы будете пытаться разблокировать, многие современные устройства анализируют биологическое состояние пальца, как с помощью динамических данных - оценка естественности положения пальца в момент его касания поверхности датчика, анализ характерных особенностей пальца, таких как распределение пор, резкость борозд и других.
Так и используются дополнительные датчики, например инфракрасный датчик, которые позволяют оценить естественность пальца. Стоит учитывать, что на естественность будет влиять время которое прошло с момента отделения пальца от тела или время смерти человека. Но в современных биометрических устройствах вероятность успешного применения мертвого пальца мала, но все таки существует.

Большое количество биометрических датчиков будут могут быть с успехом разблокированы мертвым пальцем, например это касается большинства смартфонов. Кроме теории об использовании практики разблокировки смартфонов пальцем уже мертвого человека заявляют источники, близкие к полицейским расследованиям в Нью-Йорке и Огайо.

Вопрос возможности использования мертвого отпечатка пальца, может быть одним из важнейших, несмотря на то часто ему не придается какого либо значения. Если производителям биометрических устройств не удастся исключить эту возможность, это может стать источником серьезной опасности получения увечий для владельцев потенциально привлекательных для хищения активов, использование или доступ к которым заблокирован биометрической защитой.
Например, в 2005 году малазийские угонщики автомобилей, отрезали палец владельца Mercedes-Benz при попытке украсть его автомобиль .

Мифы связанные с отпечатками пальцев

Одним из самых известных мифов и страшилок, является убеждение что при сканировании отпечатка пальца можно получить информацию о возрасте, поле, расе и болезнях реципиента.
Специально для верующих в подобные утверждения распространяется информация о исследованиях данных вопросов специальной научной дисциплиной - дерматоглификой. Однако ведущие научные институты мира признают дерматоглифику классическим примером лженауки , не имеющей под собой научных обоснований.

Идентификация по рисунку вен

Венозный рисунок, уникален для каждого человека, в том числе и для близнецов. Так как вены находятся под кожей, их практически невозможно подделать , что позволяет проводить высоконадежную аутентификацию со значением коэффициента ложного пропуска (англ. False Acceptance Rate) – вероятность ложной идентификации пользователя, отсутствующего в базе данных до 0,00008%.

Идентификация по рисунку (Vein Recognition - по английски) вен пальца или ладони основана на получении шаблона при фотографировании внешней или внутренней стороны руки или пальца инфракрасной камерой . Для сканирования пальца или руки используется инфракрасная камера. Рисунок вен становится виден благодаря тому, что гемоглобин (красящее вещество крови) поглощает ИК-излучение и вены становятся видны в камере. Программное обеспечение на основе полученных данных создает цифровую свертку.



Сканеры венозного рисунка - цена от 16 650 рублей
Каталог оборудования вместе с ценами размещен на нашем сайте, все представленное оборудование доступно для заказа.

Распознавание вен или сосудов, как правило, выполняется на ладони или пальце пользователя.

Высокий уровень безопасности и бесконтактное распознавание делают распознавание вен хорошо подходящим для многих применений, требующих очень высокой безопасности .

Что ограничивает области применения, так это размер и стоимость сканеров. Сканеры просто слишком громоздки, чтобы быть встроенными в большинство мобильных устройств, но отлично подойдут для использования в системах контроля доступа. И даже высказывается мнение, что со временем, именно сканеры венозного рисунка, заменят считыватели отпечатка пальца.
Также, идентификация, включающая сопоставление шаблонов 1:N, может занимать значительное время, особенно если база данных содержит большое количество биометрических шаблонов. Это связано с высокими требованиями к обработке шаблонов, так как узоры вен очень сложны.
Одним из решающих преимуществ идентификации по венозному рисунку является трудность несанкционированного получения шаблона.
Достоверность распознавания сравнима с идентификацией по радужной оболочке глаза, хотя оборудование гораздо дешевле. Сейчас активно исследуется и внедряется в СКУД.

Идентификация по лицу

При распознавании лиц (face recognition - по английски) используются различные черты лица, которые вместе использоваться для построения уникального цифрового шаблона. Примерами особенностей лица, которые можно использовать для идентификации, являются форма носа или расстояние между глазами. В общей сложности более используются 80 различных черт.
В распознавании лиц используются различные алгоритмы и технологии для анализа, у нас есть подробнейший лонгридище на эту тему .


Распознавание лиц - новая эра в видеоаналитике
Подробный обзор в нашем блоге, всех нюансов технологии, и обзоры всего современного оборудования для распознавания лиц.

Идентификации по сетчатке глаза

Первыми биометрическими системами сканирования глаз (Retinal scan - по английски) были именно сканеры сетчатки глаза, появились еще в 1985 году. Сетчатка остается неизменной от рождения до смерти, только некоторые хронические заболевания могут ее изменить.
Сканирование сетчатки вместо этого выполняется с помощью инфракрасного света, который, который обнаруживает паттерн капилляров, и использует его для идентификации.
Хотя сканирование сетчатки обеспечивает высокую степень безопасности, технология имеет много недостатков, которые привели к ограниченному коммерческому использованию:
Низкая скорость процесса идентификации
Высокая стоимость
Сканирование сетчатки глаза использовалось для идентификации (1:N) в условиях высоких требований к безопасности такими организациями, как ФБР, НАСА и ЦРУ.

Идентификация по радужной оболочке

Процесс идентификации по радужной оболочке (Iris Recognition - по английски) начинается с получения детального изображения глаза человека. Изображение для дальнейшего анализа стараются сделать в высоком качестве, но это не обязательно. Радужная оболочка настолько уникальный параметр, что даже нечеткий снимок даст достоверный результат. Для этой цели используют монохромную CCD камеру с неяркой подсветкой, которая чувствительна к инфракрасному излучению. Обычно делают серию из нескольких фотографий из-за того, что зрачок чувствителен к свету и постоянно меняет свой размер.
Подсветка ненавязчива, а серия снимков делается буквально за несколько секунд. Затем из полученных фотографий выбирают одну или несколько и приступают к сегментации.

Исследователи зафиксировали ухудшение идентификации после приема алкоголя или ЛСД.

Видео пошагово демонстрирует все этапы создания фальшивого «глаза» и демонстрирует последующий обман Samsung Galaxy S8

Аутентификация по сердечному ритму

Идентификация по сердечному ритму - одна из самых важных биометрических технологий на сегодняшний день. Сердцебиение является такой же уникальной человеческой характеристикой, как отпечатки пальцев, сетчатка глаза или венозный рисунок. Среди преимуществ биометрической идентификации по сердечному ритму: высокая точность,высокая сложность подделки и получения эталона, анализ физического состояния реципиента.

Еще недавно аутентификация по сердечному ритму была лишь в списке перспективных решений для биометрической идентификации, уже сегодня мы имеем готовые для коммерческой эксплуатации решения. Сердечный ритм человека характеризуется множеством измеримых параметров - частота, ритмичность, наполнение, напряжение, амплитуда колебаний, скорость пульса.

Компания Numi предлагает уникальный браслет в виде часов для высоконадежной аутентификации.

Устройство может связываться с любыми устройствами поддерживающими технологии передачи данных NFC и Bluetooth.



Считыватели с поддержкой NFC - цена от 7 500 рублей
Считыватели с поддержкой Bluetooth - цена от 3 654 рублей

Принцип работы прост - браслет снабжен двумя электродами, один из которых находится на тыльной стороне браслета, а другой - на внешней стороне. Когда пользователь электрода замыкает цепь, прибор начинает измерять сердечный ритм. Браслет имеет широкие возможности интеграции и может использоваться в информационных системах, системах контроля доступа и промышленных системах контроля.

Среди преимуществ аутентификации по сердечному ритму:
Невозможность использовать в отсутствии реципиента
То есть, если вы потеряете или забудете браслет, никто не сможет его использовать кроме вас.
Невозможность использовать после смерти

Несмотря на все преимущества браслетов для измерения сердечного ритма, один недостаток у них все таки есть. Если обратится к исследованиям в некоторых случаях точность браслетов для измерения сердечного ритма может быть недостаточной.

Компании B-secur удалось совместить идентификацию с мониторингом медицинских данных

Для целей идентификации контроль физического состояния реципиента вторичен, но существует множество применений помимо идентификации, востребован контроль биологического состояния.

Идентификация по ДНК

Анализ ДНК (DNA Biometrics - по английски) становится все более распространенной технологией биометрической идентификации и все чаще используется в криминалистике и здравоохранении.
В отличии от вышеописанным технологий идентификации, идентификация по ДНК может не просто уменьшить затраты, или сделать нашу жизнь проще и безопаснее.

Преимущества идентификации по ДНК:
ДНК является единственной биометрической технологией, которая позволяет установить родственников по не идентифицированному образцу ДНК.
Как и отпечатки пальцев, ДНК является одной из немногих биометрических характеристик человека, которые преступники оставляют, на месте преступления.
Тестирование ДНК является относительно зрелой, и динамично развивающейся технологией, которая широко используется и знакома общественности.
Устройства быстрой идентификации по ДНК, делают возможной проведение секвенирования всего за 90 минут
Возможно легко хранить большое количество результатов анализа ДНК в базах данных, это позволяет накапливать данные и быстро производить поиск автоматизированными средствами.

Повсеместное внедрение технологии идентификации по ДНК может реально спасать жизни людей , например людей несправедливо осужденных.
На самом деле нигде в Мире нет достоверной оценки данной проблемы, американские эксперты дают осторожную оценку от 2,3 до 5% всех заключенных являются невиновными. В США заключенных более 2 миллионов человек , значит речь может идти о более чем 100 тысяч невинно осужденных только в США. Сколько несправедливо осужденных в России никто даже считать не пытается, можно лишь упомянуть что Россия является лидером в Европе по числу как заключенных в целом, так и по количеству заключенных женщин. А дальше как говорит один телеведущий: - Выводы делать только вам.

На данный момент, опять таки в США, чисто технически анализ ДНК возможен в 5-10% уголовных дел. Дело в том что еще недавно процесс секвенирования полного генома был делом долгим и дорогим. Кроме того классическая ДНК-дактилоскопия не могла выявить отличия между близнецами. Современные технологии позволяют выявлять те незначительные отличия которые существуют даже у близнецов . Все это может существенно повысить процент уголовных дел в которых возможно использование анализа ДНК.

Американская некоммерческая организация « Innocence Project » специализируется на предоставлении доказательств невиновности с помощью идентификации по ДНК. На данный момент « Innocence Project » добилась освобождения 362 несправедливо осужденных , 20 из которых были приговорены к смертной казни.

Одной из широко известных история является история Стива Тайтуса, благодаря Элизабет Лофтус мы знаем душераздирающую историю Стива и знаем о причинах которые приводят к необоснованным обвинениям. И дело здесь не только в непогрешимости судебной системы, к которой тоже есть много вопросов.

Дело в особенностях работы нашего мозга, которые получили названия конфабуляция или ложные воспоминания. Люди (как правило это сама жертва) на свидетельских показаниях которых строилось обвинение не обманывают, они искренне считаю правдой то что говорят.
Самой крупной базой данных ДНК как нетрудно догадаться, обладает Китай - 54 миллиона профилей на 2016 год. На создание базы данных уже потрачен не один миллиард юаней.

Технологии анализа ДНК существенно расширяют возможности полиции по поиску преступников. Например удалось поймать серийного убийцу женщин, личность убийцы удалось установить после того как в рамках проводимых в Китае диспансеризаций был произведен анализ ДНК его дяди.

Еще один пример идентификации преступника после анализа ДНК его родственников. На убийцу двух бизнесменов на территории уезда Цяньвэй, удалось выйти после того как были собраны образцы ДНК у всех учащихся мужского пола в этом уезде.

Израильские генетики провели любопытный эксперимент, показавший, что личность произвольного гражданина США можно установить по одному образцу ДНК в 60% случаев, используя только частные геномные базы данных. Их выводы были представлены в журнале Science .

Сегодня, особенно бурно развиваются компании, такие как 23andMe, Family Tree, Ancestry и прочие их конкуренты, вычисляющие родственные связи между своими клиентами и определяющие их предрасположенность к разным болезням по образцам их ДНК.

Услугами подобных стартапов сегодня пользуются миллионы людей в США и в других развитых странах мира, благодаря чему они накопили одни из самых больших генетических баз данных в мире. Их данные сегодня используются учеными для поиска генов, связанных с редкими наследственными болезнями, а также множества других целей.

Эти оценки были взяты из Вики сравнения аутосомных ДНК ISOGG .

Быстрая идентификация по ДНК

Современные технологии быстрой идентификации по ДНК позволили сократить процесс секвенирования до 90 минут. А применение портативных устройств с автоматической обработкой, позволяет проводить анализ в полевых условиях, даже неподготовленным персоналом, достаточно предварительного часового обучения.
Самое миниатюрное устройство секвенирования ДНК MinION уже готов для коммерческого использования.


Обычно устройства для портативного анализа обычно стоят от 350 000 до 450 000 долларов США.
Дополнительные одноразовые комплекты обработки стоят от 250 до 350 долларов США за штуку.

Еще 18 августа 2017 президентом США Дональдом Трампом был подписан так называемый закон о быстрой ДНК - Rapid DNA Act of 2017 . Этот закон позволит правоохранительным органам, в соответствие со стандартами и рекомендациями ФБР, проводить анализ ДНК в режиме реального времени во время задержания, при регистрации данных в полицейских участках.

Мультимодальная биометрическая идентификация

Биометрические методы идентификации могут сочетаться друг с другом - мультимодальная идентификация значительно повышает безопасность объекта, так как количество возможных ошибок, в целом присущих биометрическим системам, снижается.

Например устройство считывания радужной оболочки глаза, может считывать радужку с одного глаза, так и одновременно считывать радужку с двух глаз.

Поведенческая биометрия

Что бы мы ни делали, имеет свой особый уникальный почерк. То, как именно вы держите смартфон, свайпаете, тапаете, печатаете, скроллите и водите мышкой, создаёт уникальную комбинацию параметров, этакий цифровой почерк. Некоторые банки используют эту технологию (behavioral biometrics) для дополнительной верификации пользователей. Это удобно - от пользователя ничего не требуется, он просто делает то, что и всегда, а система трекает, нет ли ничего необычного в его действиях. По отклонениям от обычного поведения можно предположить, что пользователь не тот, за кого себя выдаёт.

Королевский банк Шотландии использует поведенческую биометрию уже два года. Технологию обкатали на отдельных аккаунтах состоятельных пользователей, а теперь выкатывают на все 19 миллионов частных и корпоративных клиентов. Софт записывает более 2000 параметров: угол наклона смартфона, палец, которым пользователь свайпает и тапает, скорость скролла.
Для десктопных пользователей - ритм нажатия клавиш и стиль управления мышкой. Эти параметры составляют поведенческий профиль пользователя, с которым потом сравниваются его движения при каждом новом логине.

Однажды система заметила необычное поведение на аккаунте одного из богатых пользователей. Пользователь скроллил с помощью колесика мышки и печатал цифры на основной клавиатуре, чего за ним никогда раньше не замечалось. Система заблокировала операции этого пользователя и не дала ему вывести семизначную сумму. Дальнейшее расследование показало, что аккаунт действительно взломали. Интересная технология, в общем. Подробнее - в тексте NYT .

Откуда сайт знает, под каким углом вы держите смартфон в руках? Всё просто: сайты имеют доступ к гироскопу вашего смартфона. Можете сами убедиться , а заодно узнать, какую ещё информацию о вас может узнать любой сайт, на который вы зайдете.

Голосовая биометрия

Использование биометрии по голосу человека сложнее и интереснее чем использование большинства биометрических признаков. Неслучайно глава Мейл.ру Дмитрий Гришин еще в 2016 году в беседе с Тиньковым говорил, что технология распознавания голоса произведет революцию. Медленно, но верно мы движемся в этом направлении, постоянно появляются новые голосовые помощники, например, Яндекс в этом году выпустил Яндекс станцию.

Поэтому, классическая технология идентификации по голосу, возможно, не будет здесь главной скрипкой, отдельно выделяется гораздо более интересное направление распознавания голоса.

Идентификация по голосу

Метод распознавание по голосу идентифицирует личность человека по совокупности уникальных характеристик голоса. Алгоритмы анализируют главные признаки, по которым принимается решение о личности диктора: голосового источника, резонансных частот речевого тракта и их затуханий, а также динамикой управления артикуляцией.
Первый международный патент на систему идентификации по голосу был подан в 1983 году, исследовательским телекоммуникационным центром CSELT (Италия) за авторством Michele Cavazza и Alberto Ciaramella .
В мае 2013 года банковское подразделение Barclays, начали использовать систему идентификации клиентов по телефону. в течение первых 30 секунд обычного разговора. Система была разработана компанией Nuance .


Разработчики систем идентификации по голосу

Nuance , США
Nok Nok Labs
VoiceVault , американская компания с центром исследований и разработок в Великобритании
Sensory, Inc , США
Группа компаний ЦРТ , Россия
Инновационный технологический центр «Система-Саров» , Россия
BioLink , Россия
АСМ Решения , Россия
ValidSoft
Auraya Systems
Authentify
KeyLemon
Verint Systems
VoiceTrust

Общепризнанным лидером рынка является компания Nuance, их решения использует Аэрофлот , распознавание речи Siri основано на их разработках . Однако, поскольку голос человека может меняться в зависимости от возраста, эмоционального состояния, здоровья, гормонального фона и целого ряда других факторов, метод не является абсолютно точным.
Кроме этого голос может системы идентификации по голосу испытывают проблем с идентификацией близнецов, именно так корреспондентам BBC удалось обмануть систему идентификации по голосу банка HSBC. Но это все детские болячки, с которыми разработчики постепенно научились бы справляться. Но современные возможности искусственного интеллекта и специфика использования голосовой идентификаций ставят под сомнение целесообразность использования.

Журналисты из Bloomberg сделали сюжет о компании Lyrebird которая который использует искусственный интеллект для клонирования человеческих голосов с пугающей точностью. Нейросеть создает его цифровую модель вашего голова на основе 30 коротких примеров. Далее, вашим голосом можно озвучить любой текст. Вы можете создать цифровую модель своего голоса, на сайте, такая возможность доступна после регистрации на сайте компании , но только на английском языке.
Самый смешной момент в сюжете - журналист звонит своей маме и говорит с ней голосом сгенерированным искусственным интеллектом, мама не замечает подвоха. Смотрите сами.


Американская компания Pindrop Security специализирующаяся на разработке решений для безопасной аутентификации по голосу, в своем отчете указывает что количество мошеннических звонков значительно растет . В 2017 на каждые 638 звонков приходился 1 мошеннический .
График прост мошеннических звонков, данные представлены в формате 1 мошеннический на каждые N звонков.


Голосовая идентификация одна из самых притягательных для идентификации, но существующие на данный момент проблемы должны быть как минимум учтены при внедрении в работающие бизнесы. Например распознавание голоса может быть эффективно использовано как дополнительный метод, например, к распознаванию лиц.

Распознавание голоса

По прогнозам Adweek, к 2019 году рынок платформ распознавания голоса достигнет 601 млн. долларов, а к концу 2022-го - 40 млрд. Всё потому, что людям проще разговаривать, чем набирать текст, и им нужны голосовые помощники, поддерживающие привычное общение.

На рынке уже есть много помощников: Amazon Alexa, Google Assistant, Cortana, Bixby, «Алиса», SoundHound, Apple Siri, X.ai и другие. Такие инструменты расширяют возможности не только людей, но и брендов - это подтверждают примеры использования Google Ассистента.

Внедрение устройств голосового управления в автомобили - одна из тенденций, ведущих к глобальным изменениям в автомобильном секторе. Такие устройства смогут централизованно управлять большинством функций автомобиля с помощью человеческим голоса, устраняя необходимость использования кнопок, циферблатов и переключателей. Используя устройства распознавания голоса, потребители смогут легко управлять целым рядом функциональных возможностей автомобиля, что более комфортно и позволяет не отвлекаться от непосредственного процесса управления автомобилем, концентрируя внимание на вождении. Внедрение таких технологий будет расти в ближайшем и среднесрочном периоде.

Походка

Одна из самых передовых биометрических технологий, которая станет доступна в 2018 году. Если вы смотрели фильм «Миссия невыполнима 5», вы уже знаете, как это работает. Короче говоря, он сканирует, как люди ходят и двигаются. Поскольку у всех есть уникальный стиль ходьбы и движения, это новая технология, которая будет определять будущее биометрии с 2018 года.

Например, обнаружение походки или идентификация человека по ходьбе проводились десятилетиями без особого прогресса - до сих пор. Недавние достижения в точности, ставшие возможными благодаря ИИ, превратили обнаружение походки в нечто жизнеспособное. Ранее в этом году исследователи из Манчестерского университета достигли точности 99,3%, согласно статье, опубликованной в журнале « Операции по анализу образов и машинному интеллекту (TPAMI) ». Система анализирует шаги отдельных людей, используя датчики пола и ИИ, получение последнего процента точности часто является наиболее сложной задачей.

Компрометация биометрических данных

Как известно не существую систем которые бы гарантировали стопроцентную защиту от утечек, как известно хакерам удавалось проникать на объекты отрезанные от внешнего мира, например ядерные объекты Ирана и России .

Поэтому было бы самонадеянно, исходить из того что базы данных с биометрическими данными останутся не скомпрометированным, хотя конечно никто не отменяет, что к этому нужно стремится.

Особое значение компрометация биометрических баз данных будет иметь при использовании биометрических данных для аутентификации. Дело все в том что биометрические признаки неизменяемы, т.е. украденный (скомпрометированный) признак нельзя будет заменить, так же просто как скомпрометированный пароль.

В этом смысле, пароль будет иметь преимущества над биометрией, потому что пароли могут быть заменены на новые при компрометации, а биометрические признаки человека как известно неизменяемы, именно поэтому они так удобны для идентификации.

Криптозащита
Помимо криптозащиты биометрических идентификаторов, которая считается уже традиционной в хороших системах использующих биометрические признаки, существует еще множество способов обезопасить хранение биометрических идентификаторов.

Отменяемая биометрия
Метод «отменяемой биометрии » суть которого сводится к постоянному повторяемому искажению биометрического признака. Если биометрический признак скомпрометирован, характеристика искажения изменяются, тем самым мы получим новый уникальный (отличный от скомпрометированного) шаблон, который будем использоваться впоследствиии.

Использование хешей
Ну, и третий метод широко применяемый для защиты биометрических данных, сводится к тому что в базе данных хранятся только хеши биометрических признаков, и не хранится сам изображение эталон. Этот способ хорош еще и тем что не подпадает под закон о защите персональных данных. Т.к. данные отпечатков пальце хранятся в виде односторонней хеш-функции, т.е. даже имея хеш вы не сможете восстановить по нему биометрический идентификатор, например отпечаток пальца или любой другой.

Хотя нужно отметить что скомпрометированные хеши тоже могут быть использованы злоумышленниками, все зависит от настроек системы.

Распределенные системы хранения
Архитектура системы хранения сама по себе является значимым фактором. Все централизованные системы хранения данных в том числе и биометрические были скомпрометированы.

Хороший пример использования всех возможностей для защиты биометрической системы аутентификации реализовала компания Apple.

Законодательство

Гражданский кодекс РФ, запрещает использовать изображение человека без его согласия.
Федеральный закон «О персональных данных» N 152-ФЗ , является основным в сфере защиты прав субъектов персональных данных.
Приказ ФСБ РФ от 16 декабря 2016 г. N 771 , Об утверждении порядка получения, учета, хранения, классификации, использования, выдачи и уничтожения биометрических персональных данных об особенностях строения папиллярных узоров пальцев и (или) ладоней рук человека, позволяющих установить его личность, получения биологического материала
и осуществления обработки геномной информации в рамках осуществления пограничного контроля.
Приказ ФСТЭК от 14 марта 2014 года N 31 , Об утверждении Требований к обеспечению защиты информации в автоматизированных системах управления производственными и технологическими процессами на критически важных объектах, потенциально опасных объектах, а также объектах, представляющих повышенную опасность для жизни и здоровья людей и для окружающей природной среды
Приказ ФСТЭК от 18 февраля 2013 года N 21 , Об утверждении Состава и содержания организационных и технических мер по обеспечению безопасности персональных данных при их обработке в информационных системах персональных данных
Приказ ФСТЭК от 11 февраля 2013 года N 17 , Об утверждении Требований о защите информации, не составляющей государственную тайну, содержащейся в государственных информационных системах
ГОСТ Р ИСО/МЭК 19794-8-2009 . Автоматическая идентификация. Идентификация биометрическая. Форматы обмена биометрическими данными. Часть 8. Данные структуры остова отпечатка пальца

Дьявол в деталях

Как и почти во всех направлениях - выбор производителя оборудования, это первый краеугольный камень успеха любого проекта.

Видя растущий спрос, сотни компаний устремились в эту нишу, и сотни уходят из нее через год два, срубив немного денег на волне повышенного спроса. Это и модные стартапы особенно китайские, так и OEMщики особенно российские. Прекрасный образчик такого прекрасного OEMа бренд Tantos, контроллеры которого . Они тоже имеют свою линейку биометрии . И таких сотни.
И это еще пол беды, стартап (маленькую компанию с небольшим оборотом) при внимательном изучении еще можно распознать. OEM тоже распознается средними усилиями (внимательно изучайте документацию и сертификаты).

Сложнее распознать действительно крупную и известную компанию, единственная компетенция которой пускание пыли в глаза, здесь нужно смотреть на совокупные финансовые показатели, и на качество предлагаемых решений.

Например FST Biometrics (израильская компания) закрывается через 11 лет работы. А как все громко начиналось. Компания была основана Aharon Zeevi Farkash, бывшим генерал-майором израильской разведки, с бывшим премьер-министром Израиля Эхуд Бараком в совете директоров. Только за первый квартал 2018 года компания привлекла инвестиции на сумму $3,2 млрд. долларов.

Можно еще вспомнить американскую компанию IDair, которая прогремела по всем мало мальски тематическим СМИ, даже в Popular Science засветились .
В этом случае все было тоже очень круто, и презентация на самой значимой выставке по безопасности ISC West , членство в SIA и известные основатели, и характеристики продукта впечатляли. Шутка ли, основатели заявляли о разработке сканера отпечатков пальцев - с дистанцией считывания до 6 метров. Но по факту все оказалось пшиком. Сайт мертв, твиттер