Siri - голосовой ассистент, который впервые был представлен в 2011 году вместе с iOS 5. Разумеется, с тех пор он серьезно развивался: научился говорить на разных языках (в том числе и на русском), пришел на компьютеры Mac, научился взаимодействовать с программами от сторонних разработчиков и т.д., но качественный скачок он сделал только с анонсом iOS 10 - теперь его голос основан на глубоком обучении, что позволяет ему звучать более естественно и плавно. Что такое глубокое обучение и как синтезируется голос Siri - об этом мы и поговорим в этой статье.

Введение

Синтез речи - искусственное воспроизведение человеческой речи - широко используется в различных областях, от голосовых помощников до игр. Недавно, в сочетании с распознаванием речи, синтез речи стал неотъемлемой частью виртуальных персональных помощников, таких как Сири.

Существуют две технологии синтеза речи, используемые в звуковой индустрии: выбор звуковых единиц и параметрический синтез. Синтез выбора единиц обеспечивает наивысшее качество при достаточном количестве высококачественных речевых записей, и, таким образом, это наиболее широко используемый метод синтеза речи в коммерческих продуктах. С другой стороны, параметрический синтез обеспечивает очень понятную и плавную речь, но имеет более низкое общее качество. Современные системы выбора звуковых единиц объединяют некоторые преимущества двух подходов, и поэтому они называются гибридными системами. Методы выбора гибридных единиц аналогичны методам классической селекции единиц, но они используют параметрический подход для прогнозирования того, какие звуковые единицы должны быть выбраны.

В последнее время глубокое обучение набирает обороты в области речевых технологий, и в значительной степени превосходит традиционные методы, такие как скрытые марковские модели (СММ), в принципе работы которых лежит разгадывание неизвестных параметров на основе наблюдаемых, при этом полученные параметры могут быть использованы в дальнейшем анализе, например, для распознавания образов. Глубокое обучение обеспечило полностью новый подход к синтезу речи, который называется прямое моделирование формы волны. Он может обеспечить как высокое качество синтеза выбора единиц, так и гибкость параметрического синтеза. Однако, учитывая его чрезвычайно высокие вычислительные затраты, реализовать его на пользовательских устройствах пока не получится.

Как работает синтез речи

Создание высококачественной системы преобразования текста в речь (TTS) для персонального помощника - непростая задача. Первый этап - найти профессиональный голос, звучание которого будет приятным, разбочивым и соответствующим личности Сири. Чтобы охватить некоторые вариации из огромного разнообразия человеческой речи требуется записать 10-20 часов речи в профессиональной студии. Сценарии записи варьируются от аудиокниг до инструкций по навигации, и от подсказок до ответов на остроумные шутки. Как правило, эта естественная речь не может использована в голосовом помощнике, потому что невозможно записать все возможные высказывания, которыми может говорить помощник. Таким образом, выбор звуковых единиц в TTS основан на разрезании записанной речи на ее элементарные компоненты, такие как фонемы, а затем их рекомбинации в соответствии с входным текстом для создания совершенно новой речи. На практике, выбор соответствующих сегментов речи и объединение их друг с другом непростая задача, поскольку акустические характеристики каждой фонемы зависят от соседних и интонации речи, что часто делает речевые единицы несовместимыми друг с другом. На рисунке ниже показано, как речь может быть синтезирована с использованием речевой базы данных, разделенной на фонемы:


В верхней части рисунка показано синтезированное высказывание «Синтез выбора единиц» и его фонетическая транскрипция с использованием фонем. Соответствующий синтетический сигнал и его спектрограмма показаны ниже. Речевые сегменты, разделенные линиями, являются непрерывными сегментами речи из базы данных, которые могут содержать одну или несколько фонем.

Основная проблема выбора звуковых единиц в TTS заключается в том, чтобы найти последовательность единиц (например, фонем), которые удовлетворяют входному тексту и предсказанной интонации, при условии, что они могут быть объединены вместе без слышимых сбоев. Традиционно процесс состоит из двух частей: front-end и back-end (входящие и выходящие данные), хотя в современных системах граница иногда может быть неоднозначной. Целью front-end является предоставление фонетической транскрипции и информации об интонации на основе исходного текста. Сюда же включается и нормализация исходного текста, который может содержать числа, сокращения и т.д.:


Используя символьное лингвистическое представление, созданное модулем текстового анализа, модуль генерации интонации предсказывает значения для акустических характеристик, таких как, например, продолжительность фразы и интонации. Эти значения используются для выбора соответствующих звуковых единиц. Задача выбора единицы имеет высокую сложность, поэтому современные синтезаторы используют методы машинного обучения, которые могут изучить соответствие между текстом и речью, а затем предсказать значения речевых функций из значений подтекста. Эта модель должна быть изучена на этапе обучения синтезатора с использованием большого количества текстовых и речевых данных. Входные данные для этой модели - это числовые лингвистические функции, такие как идентификация фонемы, слова или фразы, преобразованные в удобную численную форму. Выходной сигнал модели состоит из числовых акустических характеристик речи, таких как спектр, основная частота и продолжительность фразы. Во время синтеза обучаемая статистическая модель используется для сопоставления входных текстовых функций с речевыми функциями, которые затем используются для управления бэкэнд-процессом выбора звуковой единицы, где важны соответствующие интонации и длительность.

В отличие от front-end, бэкэнд в основном не зависит от языка. Он состоит из выбора нужных звуковых единиц и их конкатенации (то есть склейки) в фразу. Когда система обучается, записанные речевые данные сегментируются в отдельные речевые сегменты, используя принудительное выравнивание между записанной речью и сценарием записи (с использованием акустических моделей распознавания речи). Затем сегментированная речь используется для создания базы данных звуковых единиц. База данных дополнительно пополняется важной информацией, такой как лингвистический контекст и акустические характеристики каждой единицы. Используя построенную базу данных устройства и предсказанные интонационные функции, которые определяют процесс выбора, выполняется поиск Витерби (вверху - целевые фонемы, ниже - возможные звуковые блоки, красная линия - наилучшее их сочетание):


Выбор основан на двух критериях: во-первых, звуковые единицы должны иметь одну (целевую) интонацию, и, во-вторых, единицы должны быть, по возможности, объединены без слышимых сбоев на границах. Эти два критерия называются соответственно целевыми и конкатенационными расходами. Целевая стоимость - это разница между прогнозируемыми целевыми акустическими характеристиками и акустическими характеристиками, извлекаемыми из каждого блока, тогда как стоимость конкатенации представляет собой акустическую разницу между последующими единицами:


После определения оптимальной последовательности единиц отдельные звуковые сигналы конкатенируются для создания непрерывной синтетической речи.

Скрытые марковские модели (СММ) обычно используются в качестве статистической модели для целевых прогнозов, поскольку они непосредственно моделируют распределения акустических параметров, и, таким образом, их можно легко использовать для вычисления целевой стоимости. Тем не менее, подходы, основанные на глубоком обучении, часто превосходят СММ в синтезе параметрической речи.

Целью системы TTS Сири является подготовка единой модели, основанной на глубоком обучении, которая может автоматически и точно прогнозировать как целевые, так и конкатенационные затраты для звуковых единиц в базе данных. Таким образом, вместо СММ использует смесь плотности сети (СПС, mixture density network) для прогнозирования распределений по определенным признакам. СПС объединяют обычные глубокие нейронные сети (ГНС) с гауссовскими моделями.

Обычный ГНС представляет собой искусственную нейронную сеть с несколькими скрытыми слоями нейронов между входным и выходным уровнями. Таким образом, ГНС может моделировать сложную и нелинейную зависимость между входными и выходными характеристиками. Напротив, СММ моделирует распределение вероятностей выходных данных с учетом входных данных с использованием набора гауссовых распределений, и обычно обучается с использованием метода максимизации ожидания. СПС сочетает преимущества ГНС и СММ, используя ГНС для моделирования сложной взаимосвязи между входными и выходными данными, но обеспечивая распределение вероятностей на выходе:


Для Siri используется унифицированная целевая и конкатенационная модели на основе СПС, которые могут прогнозировать распределение как целевых характеристик речи (спектра, высоты тона и продолжительности), так и стоимости конкатенации между звуковыми единицами. Иногда речевые особенности, такие как аффиксы, довольно стабильны и развиваются медленно - например, в случае гласных. В другом месте речь может изменяться довольно быстро - например, при переходе между озвученными и невокализованными звуками речи. Чтобы учитывать эту изменчивость, модель должна иметь возможность корректировать свои параметры в соответствии с вышеупомянутой изменчивостью. СПС делает это используя отклонения, встроенные в модель. Это важно для улучшения качества синтеза, поскольку мы хотим рассчитать целевые и конкатенационные издержки, характерные для текущего контекста.

После подсчета единиц на основе общей стоимости с использованием СПС выполняется традиционный поиск по Витерби, чтобы найти лучшее сочетание звуковых единиц. Затем они объединяются с использованием метода совпадения с перекрытием формы волны, чтобы найти оптимальные моменты времени конкатенации для создания плавной и непрерывной синтетической речи.

Итоги

Для использования СПС в Сири было записано как минимум 15 часов высококачественных речевых записей на частоте 48 кГц. Речь была разделена на фонемы с использованием принудительного выравнивания, то есть было применено автоматическое распознавание речи, чтобы выровнять входную звуковую последовательность с акустическими характеристиками, извлеченными из речевого сигнала. Этот процесс сегментации привел к созданию примерно 1-2 миллионов фонем.

Чтобы провести процесс отбора звуковых единиц на основе СПС была создана единая целевая и конкатенационная модели. Входные данные для СПС состоят в основном из двоичных значений с некоторыми дополнительными функциями, которые представляют собой информацию о контексте (по две предшествующих и следующих фонемы).

Качество новой системы TTS Сири превосходит предыдущую - это подтверждают многочисленные тесты на картинке ниже (интересно, что лучше всего оценили как раз новый русский голос Сири):


Лучшее качество звука связано как раз с базой данных на основе СПС - это обеспечивает лучший выбор и конкатенацию звуковых блоков, более высокую частоту дискретизации (22 кГц против 48 кГц) и улучшенное сжатие звука.

Прочесть оригинал статьи (требуется хорошее знание английского и физики), а также послушать, как менялся голос Сири в iOS 9, 10 и 11, можно .

Siri - верный помощник каждого эйпломана. С помощью этой обалденной системы вы можете искать погоду, звонить друзьям, слушать музыку и так далее. Функция ускоряет процесс поиска каких-либо нужных вам вещей. Допустим вы просите показать Siri погоду на сегодня в Санкт-Петербурге, а она с радостью вам помогает. Говорят, что совсем скоро она сможет выслушивать людей, так как многие часто жалуются ей на свои проблемы, а она лишь бездушно предлагает номер ближайшей психологической службы.

Итак, представим, что вам возможно надоел её голос и вы бы хотели его изменить. Многие думают, что это невозможно, но на самом деле работы здесь секунд на двадцать.

Шаг первый.

Заходим в настройки. Если что, иконка обычно находится на первой странице рабочего стола или же в папке "Утилиты".

Шаг второй

После того как мы нашли приложение, ищем графу Siri. Как известно, этот пункт находится в третьем разделе программы.

Шаг третий.

Рядом с надписью Siri, переведите положение кнопки на режим вкл. Если уже было именно так, то пропустите этот шаг.

Шаг четвертый

Переходим в раздел "Голос" и выбираем тот вариант, который вам больше всего нравится. Здесь вы можете изучить разные акценты, а также поменять пол говорящего. Не во всех языках есть акцент, но в большинстве. Вообще это не главное, так как через некоторое время приложение само начинает подстраиваться под вас.

В последнее время в нашу повседневную жизнь всё больше проникают голосовые помощники. Большинство пользователей iPhone и других продуктов компании Apple хорошо знакомы с одним из них – Siri, но мало кто понимает все перспективы виртуальных ассистентов и умеет пользоваться всеми их возможностями и функциями.

Что такое голосовой помощник

Представьте, с вами рядом всегда находится ваш преданный друг, который в любое время дня и ночи готов с вами поговорить, ответить на любой ваш вопрос и выполнить поручения. При этом он никогда не устает, у него не бывает плохого настроения, и он с каждым днем становится всё умнее и понимает вас всё лучше. Это и есть голосовые помощники, которые доступны для повседневного использования уже сегодня.

Голосовые помощники встроены в компьютеры, планшеты, телефоны, умные часы, умные колонки и даже в автомобили. Важно понимать, что взаимодействие с голосовым помощником осуществляется исключительно голосом, без использования рук, не нажимая ни на какие кнопки. Это принципиально новый способ взаимодействия человека и программы, который очень похож на общение между людьми.

  • Siri от компании Apple.
  • Google Ассистент компании Google.
  • Alexa от Amazon.
  • Алиса от компании Яндекс.

Мы уже писали ранее и , а в этой статье мы подробно расскажем о Сири.


Голосовой помощник Siri

Siri – это голосовой помощник, который первым стал поддерживать русский язык, и только потом появилась отечественная , вышедшая в конце 2017 года, а еще позже летом 2018 на русском заговорил . Сири довольно хорошо распознает русскую речь, даже если рядом играет музыка или присутствуют посторонние шумы.


Сири в iPhone SE

Siri не всегда принадлежала компании Apple. Изначально, это было отдельное приложение в App Store для iOS. В 2010 году Apple приобрела компанию Siri Inc. и их уникальную разработку. Вскоре после покупки, Apple встроила Сири в iPhone 4S, а затем и в последующие свои устройства. Тогда, в 2011 году, Siri стала первым продуктом на рынке персональных голосовых ассистентов.

Siri подстраивается под каждого пользователя индивидуально, изучает его предпочтения и начинает лучше понимать своего «хозяина». В первую очередь это заметно в улучшении распознавания вашего голоса после первых недель использования. Также есть возможность указать Siri, как следует обращаться к вам и называть имена ваших контактов из адресной книги, чтобы она лучше вас понимала. А когда Siri произносит имена неправильно, всегда можно её поправить, показать правильное ударение.

Siri доступна на iPhone, iPad, Mac, Apple Watch, Apple TV и , а также почти во всех современных автомобилях через функцию CarPlay. Способ запуска Siri и список доступных команд разнится в зависимости от устройства.


Как запустить Siri на iPhone, iPad и iPod touch

Запуск нажатием кнопки «Домой»

Siri доступна на всех iPhone, начиная с iPhone 4s, на операционной системе iOS 5 и выше. Для запуска Siri на iPhone (за исключением iPhone X), нужно нажать и удерживать центральную кнопку «Домой».

Чтобы запустить Сири на iPhone X необходимо нажать и удерживать боковую кнопку.

После звукового сигнала, можно произносить запрос. На некоторых устройствах следует дождаться появления Siri на экране, прежде чем давать команду.

Привет, Сири – Как включить Siri голосом

Siri можно запускать исключительно с помощью голоса, вообще без нажатия на кнопки. Нужно будет всего лишь сказать: «Привет, Siri». После звукового сигнала можно задавать вопрос или давать команду.

Для этого на устройстве должна быть активирована функция «Привет, Siri»: Настройки → Siri и поиск → Слушать «Привет, Siri».

На всех моделях iPhone, начиная с iPhone 6s, а также на iPad Pro эту функцию можно использовать в любой момент, сказав «Привет, Siri» так, чтобы это уловили микрофоны гаджета. На более ранних айфонах и айпадах функция «всегда слушает» работает только тогда, когда ваш гаджет подключен к зарядному устройству.

Как включить Сири в наушниках

Используя оригинальную гарнитуру Apple с кнопками дистанционного управления или совместимые Bluetooth-наушники, активировать Siri можно нажатием на центральную кнопку или кнопку вызова. После звукового сигнала можно делать запрос.

Используя беспроводную гарнитуру AirPods от Apple, для запуска Siri дважды прикоснитесь к внешней поверхности любого наушника.

Сири на компьютере Mac

Siri доступна на компьютерах Mac с macOS 10.12 Sierra и более новыми версиями операционной системы. Однако, на данный момент функционал голосового помощника на маке ограничен. Все, что здесь умеет Siri – звонить по FaceTime, писать сообщения, включать музыку, показывать прогноз погоды и помогать работать с файлами и папками.


Сири на маке

Стоит отметить, что работа с файлами на компьютере с помощью голосового ассистента действительно удобна. Сири может осуществлять быстрый поиск файлов, сортировать их по типу, дате или ключевому слову. Например, если сказать Сири: «Покажи мои фотографии за вчерашний день», то откроется папка с соответствующими медиафайлами.

Активировать Siri на Mac можно несколькими способами:

Вероятно, в следующих версиях macOS появится больше команд для Siri, включая команды для HomeKit. Это будет логичным продолжением интеграции голосового помощника от Apple в свои ноутбуки и настольные компьютеры.


Функции Сири

Персональный ассистент Siri умеет отвечать на вопросы, давать рекомендации и выполнять команды. Давайте рассмотрим некоторые из них.


Это лишь малая часть всего того, что умеет Siri. Ознакомиться с большим количеством команд можно в нашей статье о командах для Сири . Полный же список команд для голосового помощника в айфонах и умных колонках Хоум Под вы найдете в нашем справочном мобильном приложении, которое мы регулярно обновляем. Скачать приложение «Команды Siri» можно бесплатно. Установив его, вы всегда будете иметь под рукой самый актуальный список команд для голосового помощника.

Теперь пользователь iPhone и iPad может вводить текстовые запросы и команды для Siri. Но здесь есть один момент. В бета-версиях iOS 11 нужно выбирать между текстовым и голосовым набором. Если активирована функция «Ввод текста для Siri», помощник не воспринимает голосовые команды. Было бы гораздо удобнее, если бы Siri мог переключаться между этими опциями автоматически. Возможно, в будущих версиях производитель это учтет.

Как использовать текстовые команды Siri:

Чтобы активировать текстовые команды для Siri в iOS 11, выполните следующее:

Шаг 1. Откройте раздел Siri и Поиск и активируйте опцию Слушать «Привет, Siri».


Шаг 2. Перейдите «Настройки» > «Основные» > «Универсальный доступ» > Siri.

Шаг 3. Активируйте переключатель напротив опции «Ввод текста для Siri».


Шаг 4: Нажмите и удерживайте кнопку «Домой». Теперь вместо привычного звукового сигнала на экране появится вопрос «Чем я могу помочь» и стандартная клавиатура.


Шаг 5: Просто введите запрос или команду и нажмите «Готово».

Ответ Siri будет отображен в виде текста. Если виртуальный помощник не понял задачу, можно нажать на запрос и отредактировать его.


Внешняя клавиатура

Функция голосовых запросов к Siri работает также с внешней клавиатурой на iPad. Наличие кнопки «Домой» (как на Logitech K811) делает процесс ввода еще удобнее. Нажав на клавишу и указав команду для Siri, пользователь может намного быстрее выполнить простые задачи, например, отправить сообщение, воспроизвести музыку или создать заметку.

Подобный функционал особенно важен теперь, когда Apple позиционирует iPad Pro в качестве замены для компьютера. Постепенно iOS превращается в операционную систему профессионального уровня, которая тесно связана с аппаратным обеспечением, всегда подключена к интернету и постоянно находится в кармане человека.

Хоте ли бы вы иметь личного ассистента в айфоне? Например, чтобы вы смогли планировать свой день, неделю и даже месяц, и кто-то в приятной манере напоминал о важных делах, планировал ваши встречи, направлял действия, звонил или отправлял почту прямо из вашего смартфона. Такую интеллектуальную программу голосового интерфейса Siri на iPhone разработала в России проектная группа SiriPort.

Индивидуальные характеристики голосового помощника Siri отвечают современным инновационным требованиям по созданию искусственного интеллекта. Приложение супер умно и умеет полноценно выполнять голосовые команды из всех возможных действий на смартфоне: звонить абонентам из списка контактов, отправлять сообщения, находить нужную информацию, создавать закладки и тексты заданий, не используя при этом клавиатуру смартфона, а лишь голосовой интерфейс. Данная статья расскажет как установить Siri на iPhone 4 или айфон 5 или 6 поколения.

Новое лицензионное приложение личного ассистента является программой по распознаванию голоса, и во всех устройствах компании Apple она установлена. Необходимо добавить, что голосовой помощник работает на основе iOS 7 на устройствах iPhone 4S используя Siri, Siri на iPhone 5, на iPhone 5S, iPhone 6, iPhone 6S, iPhone 7 поколения. Кроме того, помощник может обслуживать iPad Mini, Mini 2 и Mini 3, присутствует также на iPod Touch 5-го поколения, на устройствах Apple Watchа, и еще работает на iPad 3 поколения и выше.

После появления версии iOS 8.3, Siri iPhone можно настроить на русский язык. Система iOS 10 на девайсах нового поколения учитывает еще большие возможности голосового ассистента. Это намного облегчает работу по поиску и запоминанию данных личной информации, экономит, как говорится, время и деньги.

Хотите знать как включить Siri на iPhone?

Например, если не знаете как включить Siri на iPhone 4 — 7 или не понимаете как отключить Siri, то приступим к действиям поэтапно. Рассмотрим голосового помощника на iPhone 4S или iPhone 6S, используя голосового помощника. Сначала следует выяснить, установлено ли на айфон 4 или iPhone 6S приложение и почему Сири не работает на айфоне. Если выяснится, что программу асисстента нельзя запустить на айфоне, не отчаивайтесь, можно устанавливать другие довольно похожие альтернативные программы, например,программу «Dragon Go!», разработанную Компанией «Nuance», которая будет иметь возможность доступа к другим программам, установленным в iPhone, таким как Google, Netflix, Yelp и иным.

Если голосовой помощник при продаже был установлен в айфоне, скорее всего он будет в активном состоянии по умолчанию. Чтобы проверить это, зажмите кнопку Home на айфоне. Сири подаст звуковой сигнал о своей готовности работать. Можно давать команду голосом: например, сказать четко вслух: «Проверить почту!»

Если Siri не активирована нужным образом, самостоятельно получится это сделать следующим образом. Откройте основной экран телефона и нажмите «Настройки», отыщите папку «Основные» и, зная как пользоваться, запустите приложение «Siri». Впрочем, работая с умной программой, можно дать десяток заданий помощнику, общаясь вслух. Попробуйте произнести приветствие, например: «Hey!» или «Привет, Сири!», или, допустим, «Какая погода, Сири?». Кроме того, можете определить пол своего помощника, выбрав его в разделе настроек.

Как поменять голос или язык Siri

Если голосовой ассистент общается с вами непонятным языком, можете поменять его язык. Для этого в меню «настройки» айфона найдите Siri, выберите команду «Язык Сири». Перед вами откроется перечень вариантов языков и, пролистав, выберите нужный, с помощью которого будет в дальнейшем общаться с вами помощник.

Если хотите запрограммировать манеру общения индивидуального ассистента, настройте не только ее голос, а и установленный стиль обращения, различные фразы, которые вам приятно будет слышать.С этой целью опять зайдите в раздел «Настройки», запустите программу «Siri», найдите командную строку «Аудиоотзыв» и соответственно активируйте подходящий вам вариант общения.

Кстати, разработчики данного программного продукта предусмотрительно внедрили в сознание голосового помощника возможность распознавать голоса, интонацию, акцент и даже диалект, она понимает любые языки.

Режим Siri в автомобиле

Включение приложения Siri может весомо облегчить ваши задачи, выбрав по карте нужное направление, когда вы двигаетесь за рулем автомобиля. Для этого авто должно поддерживать программное обеспечение CarPlay или использовать функцию «не глядя», имеющуюся в данной программе. Чтобы воспользоваться услугами помощника, нужно его вызвать, нажав кнопку голосовой команды, находящуюся прямо на руле авто и дать Siri соответствующую команду.

Если в автомобиле имеется сенсорный экран с поддержкой CarPlay, активируйте Siri, запустив через меню экрана кнопку Home. Если вы озвучили команду, помощник ожидает паузы в речи, чтобы начать выполнять. Но, если в машине очень шумно, лучше ответить находящейся в экране кнопкой, передающей звуковую волну, и тогда Сири догадается, что вы закончили, и начнет выполнять порученное задание. Если понадобится, войдя в настройки айфона, также можно прочитать как отключить Siri.

Можно еще подключить помощника к источнику через Bluetooth-гарнитуру, а также через USB провод. При этом выполнить все действия в аналогичном порядке.