Вперед в будущее: любимец женщин Жорж Милославский возвращается на экраны
Персонаж стал лицом новогодней рекламной кампании Сбера.
14:35, 2 декабря 2020
В этом году лицом новогодней рекламной кампании Сбера станет самый первый бренд-амбассадор банка — Жорж Милославский. Персонаж, которого сыграл всенародно любимый актер театра и кино Леонид Куравлёв в фильме «Иван Васильевич меняет профессию», еще в 1973 году призывал: «Храните деньги в сберегательной кассе».
Оказавшись в 2020 году, герой узнает, что теперь Сбер — больше чем банк, не просто финансовая компания, а технологический гигант. А как раз одна из компаний экосистемы Сбера и сделала возвращение любимого персонажа возможным.
Помимо воссоздания внешности киногероя с помощью технологий искусственного интеллекта, создателям ролика необходимо было синтезировать его голос, который является важной составляющей образа героя. Эту нестандартную задачу решали специалисты Группы ЦРТ, входящей в экосистему Сбера.
Обычно для качественного синтеза речи с помощью технологии TTS (text-to-speech) требуется не менее 20 часов речи диктора, записанной в студии по определённому текстовому шаблону. В случае с голосом Леонида Куравлева задача требовала нестандартного подхода.
Во-первых, нужен был именно тот голос, которым актер говорил 47 лет назад, а с годами его речь изменилась. Во-вторых, даже с учётом того, что актёр в 1970-х много снимался в кино, записи его голоса не всегда подходили для работы. В разных кинокартинах, в зависимости от роли, актёр менял манеру речи и подачу, на его монологи накладывалась фоновая музыка и шум плюс старые записи, даже оцифрованные, содержат дефекты.
В общей сложности в распоряжении команды ЦРТ было около четырех минут разнообразно звучащей речи актёра из таких фильмов, как «Глубокие родственники», «Суета сует», «Не может быть» и «Иван Васильевич меняет профессию». Эти аудиодорожки легли в основу обучения системы TTS и синтеза речи.
Для зрителей и слушателей такое аудио ничем не отличается от обычного, и они не смогут различить, что было синтезировано, а что — архивная запись. Однако специальные системы детектирования, которые разрабатывает Группа ЦРТ, способны определить искусственность голоса. Это позволяет защититься от хакеров и безопасно использовать TTS в коммерческих проектах компании.
Благодаря такой кропотливой работе Жорж Милославский побывал на концерте NILETTO, познакомился с новыми сервисами Сбера, а также подарил зрителям радость и веру в новогоднее чудо, ведь такие необычные волшебные истории обычно случаются в канун самого любимого праздника — Нового года.
Старший вице-президент, директор департамента маркетинга и коммуникаций Владислав Крейнин рассказал:
– В нашей новой рекламной кампании мы хотели еще раз рассказать, что сегодня Сбер уже больше чем банк. А как это сделать просто и технологично? Используя самые передовые технологии, которые у нас есть, мы не только перенесли Жоржа Милославского в 2020 год, но и смогли объединить сразу несколько поколений нашей страны и зарядить предпраздничным настроением, которое так сегодня необходимо всем нам.
Вся представленная история — это знакомство героя с новым миром, динамичным, цифровым, полным возможностей. И в этом увлекательном путешествии у любимого киноперсонажа есть доверенный и надежный помощник — Сбер.
Генеральный директор Группы компаний ЦРТ Дмитрий Дырмовский:
– Группа ЦРТ создает технологии мирового уровня, синтез речи (Text-to-speech, TTS) — одна из них. Мы создаем ее на стеке методов глубинного обучения, что позволяет добиться высокого качества звучания синтезированного голоса. Учитывая задачи и сроки этого проекта, мы пошли нестандартным путем: собрали данные для обучения TTS из фрагментов фильмов, построили фонемную транскрипцию, выровняли со звуковой дорожкой, очистили данные от постороннего шума. Затем имеющуюся модель, обученную на большом экспрессивном наборе данных, обучили говорить новым голосом, сделали голос эмоциональным, похожим на нашего героя.
Так, с помощью нейросетей всего по четырем минутам речи нам удалось воссоздать голос 50-летней давности. Но несмотря на то, что на непрофессиональный слух синтезированный голос неотличим от реального, это все-таки синтез. Для того чтобы выявлять синтезированный голос от живой человеческой речи, в ЦРТ разрабатывают специальные системы детектирования спуфинг-атак (попыток взлома), они учитывают массу характеристик звука, указывающих на то, что голос не является живым. Мы всегда должны быть на шаг впереди: не только создавать новые технологии и продукты, но и постоянно искать новые средства их защиты. Последние мировые конкурсы демонстрируют, что нам это удается.
14:00, 17 декабря 2024 59
15:11, 21 декабря 2024 105
22:08, 21 декабря 2024 44
09:27, 16 декабря 2024 65
18:17, 18 декабря 2024 149
16:32, 19 декабря 2024 180
14:25, 20 декабря 2024 97
11:50, 19 декабря 2024 1
16:14, 21 декабря 2024 75
11:30, 18 декабря 2024 194
12:46, 19 декабря 2024 1
21:21, 20 декабря 2024 27
10:00, 20 декабря 2024 245
13:17, 22 декабря 2024 63
12:04, 21 декабря 2024 22