Дрожь камеры вбирает звук: стало опасным болтать о секретах во время фото- и видеосъёмки
2 968

Дрожь камеры вбирает звук: стало опасным болтать о секретах во время фото- и видеосъёмки

Кевин Фу, профессор электротехники, вычислительной техники и компьютерных наук Северо-Восточного университета, нашёл способ извлекать звук из фотографий и даже из немых видео. Фу с коллегами изобрели Side Eye («Побочный глаз»), инструмент с поддержкой машинного обучения. Новинка может определить пол человека, говорящего в комнате, где была сделана фотография, и даже слова, которые он произносил. А всё потому, что технология цифровой съёмки фактически встраивает звуковые колебания в картинку.


Для понимания сути Фу предложил представить, что кто-то снимает видео для TikTok, затем убирает оригинальный звук и накладывает музыку. Но у кого-то может возникнуть любопытство, а что они там на самом деле говорили, за кадром. Сама идея звучит как научная фантастика, да так оно и есть. Идея Side Eye возникла после просмотра научно-фантастического телесериал «Грань». В одной из сотни его серий команда исследователей, работающих на ФБР, извлекала звук из расплавленного стекла. Когда тот конкретный эпизод вышел в эфир, один критик в журнала Den of Geek назвал идею со стеклом «нелепой» и «псевдонаучной». Но Фу с его утверждением не согласился. Он был готов поспорить, что такое в принципе возможно.

Side Eye использует технологию стабилизации изображения, стандартную для большинства смартфонных камер. Чтобы дрожь руки не влияла на резкость снимков, в камерах есть пружинки, которые уравновешивают объектив. Электромагнит и датчики перемещают объектив в равных и противоположных направлениях, чтобы уменьшить помехи.

Фу объяснил, что всякий раз, когда кто-то говорит рядом со смартфоном, это вызывает крошечные вибрации и слегка отклоняет свет. Угол освещения меняется еле-еле, и если его не искать, то невозможно и заметить.

Однако, казалось бы, очень трудно выделить звуковую частоту из микроскопических колебаний изображения. Но Фу сказал, что метод съёмки в большинстве телефонных камер на самом деле облегчает достижение невозможного. Проще говоря, технология заключается в том, что камеры в смартфоне сканируют все пиксели изображения не одновременно, а построчно сотни тысяч раз для одной фотографии. По сути, это означает, что можно более чем в тысячу раз увеличить объём частотной информации, чтобы повысить степень детализации звука.

Пока есть хоть немного света, Side Eye будет эффективен, хотя чем больше изображений в него загрузить, тем лучше. Фу сказал, что даже фотография, направленная на потолок, позволит Side Eye сделать своё дело.

Результат изобретённого метода обработки — воссозданный звук, поначалу приглушённый и не вполне отчётливый. Но с помощью машинного обучения в итоге удаётся извлекать достаточно информации о сказанном возле смартфона во время съёмки.

Если вы хотите знать, сказал ли я «да» или «нет», вы можете потренировать Side Eye на людях, говорящих «да» и «нет», а затем посмотреть на закономерности и с высокой степенью уверенности, когда я получу изображение позже, узнать, сказал ли кто-то «да» или «нет»

— Кевин Фу, профессор Северо-Восточного университета.

«Побочный глаз» может даже опознать говорящего, если его натренировать на определённый голос. Однако пока что это получается не слишком точно, признал Фу.

С точки зрения кибербезопасности Side Eye открывает совершенно новый мир угроз, о которых должны знать не только эксперты, и обычные люди. Фу говорит, что наиболее интересным применением для Side Eye может стать новая форма цифровых доказательств для юристов и прочих специалистов уголовно-правовой системы.
Наши новостные каналы

Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.

Рекомендуем для вас