Что такое Теория Активного Восприятия (TAPe)

Мы разработали Теорию Активного Восприятия, TAPe (Theory of the Active Perception), которая описывает, как человеческий мозг воспринимает информацию. Учёные из разных областей науки (нейробиологи, лингвисты, психологи и т. п.) говорят о врождённом механизме восприятия, благодаря которому человеческий мозг воспринимает ту или иную информацию. В середине 70-х годов прошлого века была сформулирована гипотеза о Языке Мышления, как некоем врождённом механизме, которым человек воспринимает информацию.

Теория Активного Восприятия описывает часть законов Языка Мышления. Мы также открыли изоморфизм TAPe и естественного языка человека. Это позволяет говорить о новом способе обработки информации, который во много раз быстрее и эффективней известных на сегодня технологий.
Здесь важно уточнить, что мы разделяем понятия «восприятие» и «информация». Цепочку можно описать примерно так: реальность — восприятие — информация — обработка. Чтобы превратить информацию в данные, различные технологии её трансформируют/преобразовывают/перекодируют/переформатируют в нужный для этих технологий формат, и только затем эти данные можно использовать для решения поставленных задач.На этапе преобразования информации происходит потеря значимых связей, присутствующих в первоначальной реальности. Преобразование информации драматически обедняет полезную нагрузку собранных данных.

Информацию можно получать с гораздо большим числом значимых связей, потратив на это гораздо меньше ресурсов, вплоть до того, что вместо двоичной системы, на основе которой работают сегодня все устройства, нужна другая — с другими элементами, которые взаимодействуют по другим законам.
Краткое описание ключевых принципов Теории Активного Восприятия
В основе TAPe лежат теория групп, алгебра Ли, гетерархия элементов, антитранзитивность, лингвистические способы взаимосвязей между элементами и пр.

Важно понимать, что мозг для «вычислений» не использует математику с корнями, интегралами, функциями и т. д., и это не компьютер, который оперирует 0 и 1. Но если проводить аналогии, то мозг оперирует элементами, образующими систему, своеобразный «алфавит», который мы решили назвать языкоматематикой. Мы используем этот неологизм, поскольку уверены, что он наиболее точно описывает суть происходящих в мозге процессов по восприятию информации. То, что можно условно назвать языковыми элементами («буквами»), взаимодействуют друг с другом по определённым математическим законам, порождая новые элементы («слова» и «предложения»). В TAPe, в языкоматематике для обозначения элементов мы оперируем такими категориями, как операторы, фильтры, группы, в зависимости от их иерархии или, точнее, гетерархии, а сами элементы называем T-bit. Законы взаимодействия элементов друг с другом на разных уровнях и описывает Теория Активного Восприятия.
Например, элементы групп связаны между собой так, что один уровень элементов порождает другой уровень элементов. При этом отношения между этими элементами антитранзитивны. Антитранзитивность в том числе приводит к определённому способу иерархии (гетерархии) элементов: они располагаются только одним единственно возможным способом, в зависимости от обоюдных значений, которые они принимают. Элементов в TAPe минимально достаточное количество, то есть ровно столько, сколько нужно, чтобы воспринимать (в том числе распознавать) любую визуальную информацию. Мы считаем, что человеческий мозг воспринимает визуальную информацию так, как это описывает TAPe. Когда зрительный анализатор человека воспринимает какую‑то информацию («видит»), условный элемент (в TAPe — это фильтр) «забирает» на себя определённый вес информации, и эта информация используется в нейронной сети мозга. В отличие от технологий распознавания, которым нужна карта с большим числом ключевых признаков изображения, мозгу нужно минимальное количество таких фильтров, чтобы распознать изображение. При этом, скорее всего, мозгу не обязательно каждый раз делать «вычисления» — мы ведь не каждый раз всматриваемся в объект, нам часто достаточно лёгкого узнавания. Кроме того, изображение объекта, который мы многократно видели, мозг способен достроить без глубокого распознавания.
Мы говорим именно о визуальной информации, поскольку математические методы TAPe проработаны сейчас именно для визуальной информации. Но при этом мы уверены, что Теория Активного Восприятия распространяется на любой тип информации вообще —и изоморфизм с языком это только подтверждает.

Изоморфизм Теории Активного Восприятия и естественного языка

Во время работы над Теорией Активного Восприятия мы обратили внимание, что её структура напоминает структуру естественного языка (то есть языка, который используется людьми для общения), и в ещё большей степени структуру определённой группы языков. Так мы открыли изоморфизм TAPe и естественного языка.
Изоморфизм TAPe и языка:
Иерархия или гетерархия: элементы языка, как и элементы Теории Активного Восприятия, объединяются на разных уровнях в группы элементов. Гетерархическая структура означает, что элементы системы взаимоопределяют друг друга.
Связи: элементы в языке, как и в ТAPe, взаимодействуют между собой по определённым законам. Законы, по которым образуются эти связи, описывает TAPe: они похожи и для теории, и для языка.
Количество элементов: число элементов на разных уровнях в языке и в TAPe совпадает в порядках. Точного совпадения нет, поскольку любой язык — это свободная, а не строгая система, в отличие от математической теории.
Врождённый механизм восприятия языка
О врождённом механизме восприятии языка говорит, например, Ноам Хомский. Почему любой человек с рождения способен выучить любой язык? Как именно человеческий мозг «высчитывает» такую сложнейшую систему, как грамматика языка? По каким именно законам объединяются элементы в языке? Хомский, а вместе с ним и десятки других учёных по всему миру, пытаются ответить на эти вопросы. В частности, в середине прошлого века он выдвинул несколько гипотез и теорий, которые определили развитие лингвистики на десятилетия вперёд. Но Хомский не пошёл дальше относительно общих концепций, почему именно таким образом разные элементы языка взаимодействуют друг с другом и порождают новые элементы (смыслы).

Хомский в своих работах не использует понятие Языка Мышления. Зато он выдвигает гипотезу, что язык как врождённая система в какой‑то исторический момент времени в первую очередь начал использоваться человеком как инструмент для мышления, и лишь позднее — как инструмент коммуникации. Эта гипотеза оспаривается: распространено мнение, что язык появился в первую очередь именно как средство коммуникации. Но мы склонны соглашаться именно с Хомским. Эта гипотеза хорошо встраивается в более общее понятие Языка Мышления, которое предложил Фодор.

Язык Мышления — это некий врождённый механизм, которым мозг воспринимает информацию. И когда Хомский говорит о врождённой способности человека усваивать любой естественный язык благодаря универсальной грамматике, которая каким‑то образом «встроена» в наш мозг с самого рождения, для нас очевидно, что нужно говорить о более общем понятии. Мы предлагаем использовать понятие Язык Мышления. А TAPe описывает часть принципов Языка Мышления. Мы называем эти принципы языкоматематикой.
Изоморфизм TAPe и естественного языка позволяет утверждать, что у человека есть единый врождённый механизм восприятия — но не только языка (как предполагает Хомский), а в принципе любой информации.
Изоморфизм TAPe и естественного языка позволяет утверждать, что у человека есть единый врождённый механизм восприятия — но не только языка (как предполагает Хомский), а в принципе любой информации.

Особенности работы TAPe в области Computer Vision

Современные технологии Computer Vision довольно ограничены и при этом требуют больших затрат (финансовых, человеческих, интеллектуальных, временных и т. п.) для решения задач. Чем сложнее задача, тем больше требуется ресурсов. Многие решения объявляются настоящим прорывом, но относительно возможностей распознавания человеческого мозга они остаются примитивными. Если бы Терминатор работал на современных технологиях CV, его голова была бы размером с дом — чтобы обрабатывать такое количество информации так, как это происходит в фильме, в реальности ему потребовалось бы сегодня неестественно много ресурсов.

TAPe позволяет на порядки сократить ресурсы, необходимые для решения задач разной сложности из области СV. Так, на базе TAPe мы разработали технологию поиска видео по видео, с помощью которой можно, например, в режиме реального времени искать и распознавать тысячи видеороликов на тысячах телеканалов, библиотеках фильмов и видеохостингах. Для этого достаточно одного сервера без видеокарт.
Распознавание без операции свёртки
Одна из причин такой эффективности — отсутствие в TAPe-алгоритмах операции свёртки, наиболее ресурсоемкой операции в области компьютерного зрения. Технология на основе TAPe, также как мозг человека, обрабатывает любое изображение сразу и в целом.
Одномоментное снятие ключевых признаков
Вторая причина эффективности технологии в том, что она умеет одномоментно получать карту ключевых признаков любого изображения на любом уровне детализации этого изображения. Одномоментно — то есть все признаки сразу. Количество этих ключевых признаков минимально достаточно для решения любых задач компьютерного зрения.

Теория Активного Восприятия моделирует процессинг мозга и «снимает» сразу все необходимые для распознавания изображения признаки — именно так, согласно TAPe, и распознает информацию мозг. Изображение (в широком смысле этого слова), снимаемое зрительным анализатором человека, «автоматически» раскладывается мозгом на те самые признаки, которые постоянны и не меняются, вне зависимости от задач.В TAPe-технологии нет необходимости раскладывать изображение на пиксели. Любой объект (изображение) обладает достаточным количеством минимальных признаков, как утверждает TAPe, и TAPe же позволил нам разработать алгоритм, позволяющий снимать эти признаки.
Работа в условиях априорной неопределённости
Современные технологии компьютерного зрения, в отличие от человеческого мозга, не умеют распознавать изображения в условиях априорной неопределённости — напротив, им требуется, если угодно, «априорная определённость», то есть искусственная нейросеть «должна знать», что именно и где она ищет. Поэтому нейросети работают с так или иначе подготовленной человеком выборкой. Технологии на базе TAPe,как и мозгу, такая выборка не нужна: она умеет работать в условиях априорной неопределённости.
Выводы
С использованием TAPe можно разработать технологии, при помощи которых можно построить алгоритмы распознавания любого изображения любого класса, как без предварительного обучения, так и без предварительной постановки задачи. Обучение будет происходить во время процесса распознавания, как это происходит с человеком, который учится с течением жизни и который в процессе такого естественного обучения часто как бы перерешивает одни и те же задачи распознавания.

Однако речь может идти не только о компьютерной зрении. Можно говорить о новых принципах построения архитектуры как нейронных сетей, так и компьютерных процессоров, арифметико-логических устройств (АЛУ), дата-центрах с новыми принципами управления данными и т. п.

Глоссарий

Язык Мышления (восприятия)
Гипотеза о языке мышления (Language of thought hypothesis), предложенная американским философом Джерри Фодором, утверждает, что все мысли представлены в виде языка, в котором определяются связи между простыми компонентами мысли или концептами. Согласно этой гипотезе, такой язык должен быть врождённым и универсальным для всех людей. Сам Джерри Фодор называет этот язык «ментализом». Гипотеза базируется на достижениях современной генеративной лингвистики и когнитивных наук. В частности, из лингвистики заимствовано ключевое в данной теории понятие — «синтаксис».

Согласно данной гипотезе, мышление осуществляется на языке мысли, при этом мысль трактуется как пропозициональное отношение или установка[1]). При этом сложные мысли конструируются из простых элементов по законам синтаксиса ментализа. Базовыми элементами при этом являются концепты, природа которых предположительно сенсорная.

Основой гипотезы являются три тезиса[2]:

A. Мышление основано на ментальных репрезентациях, которые имеют однозначные причинно-следственные связи с психологическими состояниями, интенциями и действиями.

B. Ментальные репрезентации, являющиеся компонентами пропозициональных отношений, составляют репрезентационную или символическую систему, в которой выполняются два условия:
  1. Отношения задаются комбинаторным синтаксисом и семантикой: структурно сложные (молекулярные) репрезентации построены из структурно простых (атомических) компонентов, а значение определяется как содержание каждого из компонентов, так и синтаксическими (формальными) связями между ними.
  2. Операции с репрезентациями зависят от их синтаксической (формальной) структуры, которая задаётся комбинаторным синтаксисом.
C. Функциональный материализм. Ментальные репрезентации имеют реальное физическое воплощение (возможно, в разных формах), в случае с живыми существами это предположительно нейрофизиологические структуры мозга. (Источник)
Вычисление
Это не только математическое преобразование, позволяющее преобразовывать входящий поток информации в выходной, с отличной от первого структурой. Если смотреть с точки зрения теории информации и ТАРе, вычисление — это способ/метод/процесс/структура/иерархия получения из входных данных нового знания.
Теория групп
Раздел общей алгебры, изучающий алгебраические структуры, называемые группами, и их свойства. Группа является центральным понятием в общей алгебре, так как многие важные алгебраические структуры, такие как кольца, поля, векторные пространства, являются группами с расширенным набором операций и аксиом. Группы возникают во всех областях математики, и методы теории групп оказывают сильное влияние на многие разделы алгебры. В процессе развития теории групп построен мощный инструментарий, во многом определивший специфику общей алгебры в целом, сформирован собственный глоссарий, элементы которого активно заимствуются смежными разделами математики и приложениями. Наиболее развитые ветви теории групп — линейные алгебраические группы и группы Ли — стали самостоятельными областями математики.
Алгебра Ли
Классическая математика включает множество различных областей, одной из которых является теория Ли. Название получила в честь норвежского математика Софуса Ли. Теория Ли изучает различные аспекты интегрирования дифференциальных уравнений, группы преобразований и контакт сфер. Основополагающим понятием теории Ли является экспоненциальное отображение, связывающее алгебры Ли с группами Ли и называемое соответствием группы Ли — алгебры Ли. Теория Ли является частью дифференциальной геометрии, поскольку группы Ли являются дифференцируемыми многообразиями. Группы Ли возникают из единицы, и касательные векторы к однопараметрическим подгруппам порождают алгебры Ли. Структура группы Ли определяется её алгеброй, а структура алгебры Ли выражается системами корней и корневых данных.
Антитранзитивность
Многие авторы используют термин «интранзитивность» для обозначения «антитранзитивности». В математике «интранзитивность» (иногда называемая «нетранзитивностью») является свойством бинарных отношений, которые не являются транзитивными отношениями. Это может включать в себя любое отношение, которое не является транзитивным, или более сильное свойство «антитранзитивности», которое описывает отношение, которое никогда не является транзитивным.
Языкоматематика
Способ получения из входных данных нового знания, имеющий в себе признаки и математических и лингвистических преобразований, объединённых в общую систему. Является инструментом/методом Языка Мышления.
Математика
Здесь учение об отношениях между объектами, о которых ничего не известно, кроме описывающих их некоторых свойств, — например, именно тех, которые в качестве аксиом положены в основание Теории активного восприятия.
Иерархия | Гетерархия
Согласно ТАРе иерархия — это ацикличное положение частей или элементов чего‑либо в порядке от одного класса элементов к другому и организация их (элементов, частей) в структуру типа «дерево» с возможностью построения разнообразных связей в зависимости от задачи. Если иерархичность системы отражается в связях управления господства и подчинения, то гетерархичность — в связи координации.
Фильтры | Операторы | Группы TAPe
В Теории активного восприятия используется конечное число элементов, которые по определённым законам объединяются в группы разных уровней. Эти элементы мы называем фильтрами-операторами. Фильтры — это условно математическая величина, наделённая, в частности, абсолютными значениями. Так, фильтр можно посчитать по массе изображения, которое попало в этот фильтр. Операторы уже к математике не относятся. Оператор возникает (принимает значение) с учётом фильтров. Это тот же самый элемент, что и фильтр, который обозначается точно также, но означает он уже не математические величины. Это скорее буквы, которые являются значимыми сами по себе. С помощью таких элементов TAPe и описывает тот самый переход от математики к языку и обратно — то, что мы называем языкоматематикой, которой оперирует человеческий мозг.
T-bit
Это единица информации, подмножество наиболее информативных взаимосвязанных элементов информации, содержащихся в выборке данных и получаемое согласно принципам TAPe. Использование T-bit вместо битов или других формальных, технических единицы дигитализованных данных (пикселей и др) позволяет передать гораздо больше информации в единице данных и снизить вычислительные затраты на порядки.

ТАРе решает задачи компьютерного зрения эффективнее,

чем любая другая технология —

вот реальные примеры

Мы открыли и разработали Теорию Активного Восприятия, TAPe, которая моделирует работу врождённых механизмов восприятия человека, математически описывает Язык Мышления (подробнее о концепции языка мышления можно почитать на английском). Технологии на основе TAPe будут оперировать т.н. образами, а не массивами структурно несвязных чисел — нулями и единицами — двоичной системы счисления, как сейчас.Образ или T-bit, как мы их называем, в отличие от двоичной системы — это описание на подмножестве как раз максимально информативных связанных элементов информации.

Все это позволяет в единице информации T-bit передавать намного больше значимой информации, для любого класса задач объёмы вычислительных операций сокращаются на порядки

Мы уже применили принципы TAPe в технологиях компьютерного зрения, как в реальных продуктах, так и пилотных проектах для разных клиентов. С помощью TAPe решались задачи, решение которых «традиционными» технологиями требует столько ресурсов — финансовых, технических, человеческих — что это становилось бы невыгодным и неэффективным с точки зрения любого бизнеса. Вот несколько примеров, как TAPe делает невозможное возможным.
Поиск видео по видео для онлайн-кинотеатра
Задача
В ответ на запрос пользователя (это может быть фильм, режиссёр, актёр/актриса, страна производства, жанр, год и пр.) онлайн-кинотеатр хочет предлагать видео подборку самых популярных сцен в соответствии с запросом.
Решение
Популярность сцен можно определить с помощью YouTube как самого большого видеохостинга в мире. Популярность в данном случае — это как часто те или иные сцены из какого‑то фильма используются в ютюбовских роликах (видео подборках, UGC-роликах, обзорах и проч.).

Чтобы вручную решить задачу, нужно было бы как минимум по каждому фильму просмотреть все ссылки, посчитать, какие сцены сколько раз использовались в этих ссылках, далее смонтировать ролик.
Как решали задачу мы
Для каждого фильма сформировали семантическое ядро, это десятки текстовых запросов для YouTube. В итоге для каждого фильма YouTube выдал в среднем 500−1000 ссылок, примерно 30 тыс. минут видео на один фильм. Все ссылки были проиндексированы нашей системой. Затем система сравнила все видео по этим ссылкам с эталоном (эталон — непосредственно full-видео фильма). Таким образом система для каждого фильма сравнила 30 тыс. минут видео в ссылках с самим фильмом и определила, какие сцены из фильма используются чаще всего и на основе этого составила рейтинг наиболее популярных сцен. Таких сцен 20−30 для каждого фильма, система из них смонтировалаодин ролик.

Индексация видео занимает определённое время, а вот на сравнение эталона с ссылками и составление рейтинга у системы уходит несколько секунд

Индекс видео занимает 1 мб на час видео. Для работы нужен самый обычный сервер с самыми обычными характеристиками.
Digital Asset Management for adult content hosting
Задача
Проверка на уникальность загружаемого пользовательского видео, чтобы оплачивать пользователям права только за уникальный контент. Видеоархив, по данным клиента, составляет 5 млн видео. В среднем длина одного ролика 15−20 мин. База видео пополняется со скоростью 10−12 видео/в минуту.
Решение
Очевидно, нужно успевать проверять пользовательское видео на уникальность ещё до того, как оно будет загружено в общую базу видео. Получается, что на проверку отводится 5−6 секунд — за это время нужно сравнить загружаемое видео со всей базой в 5 млн видео и обнаружить повтор любой продолжительности, если он есть.

Кроме повторов могут также встречаться попытки фрода со стороны пользователей: монтаж, перемонтаж, зеркальное видео, разные разрешения, соотношения сторон, различные шумы и т. д. Все это тоже нужно распознавать.
Как решали задачу мы
Во‑первых, мы проиндексировали всю базу видео клиента. По договорённости с клиентом мы разработали конвертер, который позволял клиенту самостоятельно превращать свой архив в индекс в нашем TAPe-формате: клиент не хотел отдавать контент третьей стороне. Затем клиент пересылал индекс нам и мы с ним уже могли работаем. Индекс невозможно конвертировать обратно в видео.

С технической точки зрения для решения задачи мы придумали архитектуру из 8 серверов, которая позволяла по индексу видеоархива в режиме реального времени каждое загружаемое видео обрабатывать таким образом, чтобы находить в нем повторы. Как только новое пользовательское видео приходило на хостинг, оно сразу индексировалось системой: сначала на клиентской стороне, затем индекс видео отправлялся нам, и мы уже проверяли на полное или частичное совпадение.

Восемь серверов держали индекс видео в оперативной памяти, чтобы можно было максимально быстро к нему обращаться. Этого хватало на распараллеливание необходимых вычислений. Никаких дополнительных требований к интернету,
хостингу и т. п. не требовалось.

Все это занимает отведённые 5−6 секунд:

за это время новое видео сравнивается со всем архивом и обнаруживаются (или не обнаруживаются) повторы

Восемь серверов держали индекс видео в оперативной памяти, чтобы можно было максимально быстро к нему обращаться. Этого хватало на распараллеливание необходимых вычислений. Никаких дополнительных требований к интернету,
хостингу и т. п. не требовалось.
Постоянный (ongoing 24/7) мониторинг выхода ТВ-рекламы для рекламодателей
Задача
Мониторить выход в эфир рекламных роликов в разных городах, регионах, странах, чтобы рекламодатели могли проверить выход рекламы на соответствие их медиаплану.

Особенности российского рынка, где мы и запустили продукт, таковы, что до 70% региональной ТВ-рекламы никак не мониторилось: было огромное количество городов, которые не входили в исследовательскую панель измерения телесмотрения. В этих городах рекламодатель никак не мог проконтролировать правильность выхода рекламы: в итоге, по нашей статистике, минимум 20% рекламы в регионах выходило с нарушениями: невовремя или не выходила вовсе, из-за чего целевая аудитория не видела рекламу или не видела её в запланированном количестве. В денежном эквиваленте это примерно 240 млн $ — столько тратилось на рекламу, которая никак не проверялась с точки зрения эффективности. Выходила ли реклама, сколько раз, в какое время и в нужное ли время — на все это не было эффективных ответов.
Решение
Можно, конечно, в каждом городе посадить по 3−4, а лучше десяток сотрудников, которые круглосуточно будут смотреть ТВ и сверять эфир с медиапланом рекламодателей. Но это кажется не очень надёжным и эффективном решением.

На рынке есть технические решения, которые позволяют так или иначе мониторить
ТВ-эфир, но у них куча ограничений. Во‑первых, они скорее всего не связаны с видео. Например, в Китае используют технологию watermark: поскольку решение отраслевое, то можно договориться со всеми вещателями, чтобы они использовали одну и ту же watermark. Кто‑то мониторит по звуку, по технологии fingerprint и проч. У всех этих способов есть свои недостатки и ограничения. Во‑вторых, сами по себе подобные решения — это именно индустриальные, тяжёлые решения, которые иногда называют «холодильником» из-за их внешней схожести. Стойка дорогущих серверов, которым нужны специальные условия для работы и которые есть не во всех ЦОДах. Целый программно-аппаратный комплекс, созданный для решения конкретных задач. Все это очень дорого и сложно и не всегда решает задачу мониторинга буквально одного телеканала в отдельно взятом небольшом городе, куда «холодильник» не поставишь.
Как решали задачу мы
Чтобы решить эту проблему, мы развернули инфраструктуру в 150 городах в пяти странах, которая позволяла мониторить ТВ-сигнал в неохваченных регионах, и организовали мониторинг 1000 ТВ-каналов. При этом система легко масштабировалось: в любом момент можно было увеличить как число городов, так и количество ТВ-каналов.

В каждом городе мы установили серверы, которые записывали от 1 до 10 каналов. Каждый сервер создавал индекс ТВ-сигнала плюс формировал видеоархив.На центральный сервер отправлялся только индекс эфира, где практически мгновенно сравнивался с эталонами. В данном случае эталоны — это рекламные ролики клиентов. Всего в базе системы было до 50 тыс. роликов, количество роликов никак не влияло на быстродействие системы. Для нужд клиентов база в индексе хранилась на сервере один год, база видео — не более 3 месяцев.

Таким образом, можно было в режиме реального времени узнать, выходила ли реклама клиента и если да, то когда именно

В таком виде система обрабатывала 1000 минут в минуту. Для сравнения, на тот момент пополнение YouTube составляло 2500 минут видео в минуту, то есть мы в реальном времени обрабатывали объём видео, сравнимый с 40% объёма YouTube.

Для России это был уникальный продукт. На мировом рынке есть решения, которые также предлагают мониторинг рекламы, однако эффективность TAPe позволила нам создать решение, по себестоимости дешевле конкурентов в сотни раз.
Мониторинг прямого эфира в 200 городах для крупной телекомпании
Задача
Более узкая задача, которая выросла из предыдущего кейса: мониторинг и анализ ТВ-сигнала в регионах на соответствие медиаплану одной конкретной телекомпании. Здесь заказчик уже не рекламодатель, а непосредственно сам ТВ-вещатель.
Решение
Нужно как‑то мониторить эфир в 200 городах (как и в предыдущем кейсе, их может быть и больше). Основной — эталонный — ТВ-сигнал ретранслируется из центра в региональные города, где в эфир уже могут вставляться локальный контент: новости, реклама, местные передачи и т. п. Для компании особенно важно, чтобы конкретная реклама выходила в конкретное время, поскольку от этого также зависят доходы самой компании плюс, в случае нарушений, у рекламодателей могут возникнуть претензии к ТВ-компании.

Дополнительное условие — сообщать о технических сбоях в трансляциях. Кроме того, основных (эталонных) ТВ-сигналов было четыре —из-за часовых поясов.
Как решали задачу мы
Мы разработали систему, которая настраивается на нужную частоту, моментально индексирует ТВ-сигнал, что позволяет в реальном времени мониторить эфир в режиме 24/7.

Для работы системы мы развернули довольно сложную инфраструктуру: поставили спутниковые тарелки для приёма четырёх эталонныхТВ-сигналов, а во всех двухстах городах поставили серверы для записи трансляции в каждом городе. Записывался цифровой, кабельный и даже аналоговые ТВ-сигналы. На каждом из двухсот серверов ТВ-сигнал индексировался в онлайн-режиме и отправлялся на центральный сервер, где уже и проверялся на соответствие медиа-плану. Сами региональные серверы также управлялись из единого центра, удалённо.

В итоге каждую минуту мы получали 4 минуты эталонного сигнала (по минуте с каждого из четырёх) и 200 минут регионального сигнала (по минуте из каждого города), которые нужно было сравнить с эталонными. На центральный сервер отправлялся только индекс, а видеозаписи эфиров хранились на региональных серверах.
***
Мы описали четыре кейса, которые, надеемся, дают какое‑то представление о возможностях технологий на базе TAPe. На самом деле, это лишь малая часть, даже если говорить только о возможностях TAPe в области работы с видео и решении любой задачи computer vision, в том числе разработка нового формата видео и изображений, кодека.

При этом мы уверены, что TAPe применима далеко за пределами технологий компьютерного зрения: возможны новые принципы построения и архитектуры нейронных систем, разработка новых IT-девайсов, включая видеокарты и компьютерные процессоры, новые системы хранения данных и пр.
Пришла пора выбросить на помойку идею арифметико-логических устройств (АЛУ), на которых работают ваши компьютеры, и придумать что-то новое…
Почему будущие ИТ-устройства должны работать без 0 и 1, если они хотят быть ИТ-устройствами будущего
+
+

Почему будущие

ИТ-устройства должны работать без 0 и 1,

если они хотят быть ИТ-устройствами будущего

Пришла пора выбросить на помойку идею арифметико-логических устройств (АЛУ), на которых работают ваши компьютеры (потому что из-за них все эти технологии перестали быть достаточно круты, чтобы делать действительно клевые штуки не только в фильмах Ридли Скотта)
Как работает АЛУ
Прочитайте википедию или любую статью на эту тему.
Например, на study.com.
Зачем мы это прочитали?
Все длинные и многословные (как эта) статьи про АЛУ в итоге сводятся к тому, что АЛУ выполняет примитивные операции. Это не значит, что АЛУ — это плохое, примитивное устройство. Это значит, что оно выполняет примитивные операции.
Ну и что?
Ну и то, что набор команд, который используется в АЛУ, никому на самом деле не нужен. То есть конкретно вам не нужно выполнять операцию десятичной арифметики, а тем более высшей математики через двоичную систему счисления. Это же крайне неудобный для человека способ решения «семь умножить на восемь», согласитесь.

Все это нужно компьютеру, потому что по‑другому современные компьютеры не умеют. Вы не будете умножать в уме 7 на 8 так, как это потом будет сделано на компьютере. А если это будет не «7 на 8», а сложение или не дай бог перемножение скольких‑то там миллиардов со сколькими‑то там миллиардами, то способом, каким это решает компьютер, лично вы никогда не сможете решить этот пример, даже если захотите — вам не хватит жизни. Для таких задачек люди придумали потрясающий способ сложения, умножения и деления «в столбик», которому учат в начальной школе. Есть гении, которые моментально складывают, перемножают, делят любые числа в уме — но есть подозрение, что они делают это не таким способом, как это делает компьютер.
И что?!
Итак, АЛУ — это про то, как выполнить на компьютере требуемую человеку операцию хоть каким‑то способом — удобным, собственно, для самого компьютера.

И этот способ почему‑то уже слишком долгое время считается чуть ли не единственно возможным. А всё из-за того, что кто‑то умный сто лет назад придумал триггер, работа которого основана на алгебре логики, которую придумал Буль почти двести лет назад, которая основана на двоичной системе счисления, которую придумал Лейбниц больше трехсот лет назад, который подсмотрел её в китайской Книге Перемен, которой как минимум две тысячи семьсот лет.
И спустя пару десятков лет после изобретения триггера появились первые ЭВМ. Поскольку ничего больше толком предложено не было (а зачем предлагать, если все и так прекрасно работает — миллиарды складываются и перемножаются, а больше, по сути, от ЭВМ (электронно-(внимание!) вычислительной машины) ничего и не требовалось до недавнего времени), то теперь все бесконечное число девайсов вокруг нас всю информацию хранят и оперируют ею в виде 0 и 1.

В середине прошлого века для решения тогдашних прикладных задач это было удобно. Но ведь задачи с тех пор изменились, согласитесь. Количество информации и данных, которые пытаются обрабатывать с помощью компьютеров для решения новых задач, стало прямо‑таки титанически огромным. Взять хотя бы Full Self Driving систему, над которой бьётся вся передовая мировая автопромышленность.

Но не кажется ли вам, что нулей и единиц уже недостаточно для решения таких новых задач. Складывается ощущение, что просто все привыкли пользоваться этими элементарными единицами информации, и, несмотря на их очевидное неудобство, продолжают их использовать.
Скажете, что ничего другого нет?

Проблема в том, что в итоге задачи и их решение, да и само развитие IT, ограничено уже на уровне этих самых элементарных единиц, 0 и 1

На самом деле это очень сильная (простите за нескромность) мысль. Нули и единицы задают тон, тренд, являются альфой и омегой IT-мира, потому что определяют, какими должны быть архитектура компьютера, какими должны быть решения задач и в конце концов какие это должны быть задачи. Степень влияния нулей и единиц на результат такова, что мы бы назвали её неотвратимой степенью влияния. Нули и единицы определили и определяют до сих пор направление развития информационных технологий — а заодно и их ограниченность. Это никого не смущало (и, прямо скажем, не многих смущает до сих пор), потому что количество практических задач, которые можно решать таким способом, впечатляет.
Арифметико-логический паровой двигатель
Но спросите себя, насколько плох паровой двигатель? Согласимся, вопрос сам по себе глупый. Для 19 века это было потрясающим изобретением. Оно таковым и остаётся, поскольку повлияло буквально на всю человеческую цивилизацию, примерно как огонь Прометея, окультуривание пшеницы, изобретение металлических орудий и оружия, футбол и пенициллин.

И все‑таки странно было бы сегодня заявлять, что паровая тяга — единственно возможная, самая эффективная, самая эргономичная и самая подходящая для решения большинства практических задач, стоящих перед человечеством. Да, когда‑то паровой двигатель двигал автомобили (локомобили), паровозы, станки, совершил промышленную революцию во всем мире.

Сейчас мы с вами уверены, что парового двигателя было бы недостаточно для решения всех современных задач, хотя теоретически, наверно, можно представить, как все вокруг работает на паровой тяге. Может быть и в космос можно было полететь на паровой тяге, только зачем? Даже двигателя внутреннего сгорания уже недостаточно для задач, которые стоят перед одной из самых консервативных отраслей в мире — автомобилестроением.

Тем не менее прямо сейчас на технологиях почти столетней давности — триггерах с их нулями и единицами — гигантские корпорации пытаются разработать нечто принципиально новое. Компании, R&D команды, учёные по всему миру пытаются решать качественно новые задачи, задачи качественно другого уровня сложности — но все они ограничены всё теми же вводными 0 и 1, то есть решают эти принципиально новые, невероятные задачи принципиально старым способом, неудобным для этих задач. Это примерно как запускать на Луну ракету на паровой тяге. Вероятно, и эту задачу можно решить таким вот способом. Но какой ценой?

Задачи становятся всё сложнее и сложнее, можно даже сказать всё смелее и смелее, и на их решение тратится всё больше и больше ресурсов — финансовых и интеллектуальных — просто потому, что чем сложнее задача, тем неудобней для их решения современные технологии, основанные на 0 и 1, и тем больше нужно ресурсов, чтобы старым способом решить новые задачи. Никто об этом не думает, но и никто уже не считается с затратами, не рассчитывает эффективность проектов, надувая огромный пузырь экстенсивного развития, в котором какие‑то задачи решаются просто ради решения, а не их практического применения (которое часто невозможно, потому что это оказывается слишком дорого даже для всех денег мира).

В компьютере гениально простая алгебра логики переводится в сложную математику — её на это обрекают программисты, поскольку только в таком виде они умеют ставить задачи и контролировать процесс получения решения

Это называется «программировать».
Получается, нужен какой‑то другой АЛУ, да?
Да, но не только другой АЛУ. Нужен другой АЛУ, который будет работать не как АЛУ, не с 0 и 1. Например, как вы знаете или догадываетесь, наш мозг для принятия решений (вычислений) не использует ни высшую математику, ни 0 и 1. Нам ничего из этого не нужно, чтобы поймать мяч. Мы производим нужные нам вычисления как‑то иначе. Но почему бы тогда не представить такое Устройство, которое тоже умеет делать вычисления, а точнее работать с информацией (собирать, обрабатывать, принимать решения) без использования алгебры логики и без сложной математики дифференциалов и квадратных корней.

Нам нужно нечто другое, не АЛУ, а какое‑то другое «У». Устройство, которое будет воспринимать информацию. Назовём это устройство пока персиватором или персивером, от глагола to perceive, воспринимать, по аналогии со словом «процессор», Чем нас не устраивает слово «обработчик» (процессор)? Говоря про обработку информации, мы отсекаем львиную долю важных стадий работы с информацией. Ведь сначала информацию нужно каким‑то образом собрать «как есть» и только затем уже что‑то с ней делать, как‑то её обрабатывать, что‑то вычислять, то есть принимать решение — всё то, с чем так прекрасно справляется наш мозг.

Поэтому наше гипотетическое устройство должно работать с информацией на более низком уровне, которое умеет принимать и обрабатывать информацию как она есть, а не представленную в виде 0 и 1 — прям как наш мозг. Соответственно, у такого устройства, которое мы удачно назвали персиватором/персивером, на входе должны быть другие элементарные единицы, которые должны взаимодействовать между собой по иным законам, чем 0 и 1 в АЛУ.
Если не 0 и 1 — то что?
Кажется, у нас есть ответ. Мы разработали TAPe (Theory of the Active Perception), которая описывает, как человеческий мозг воспринимает информацию. В TAPe мы использовали теорию групп, но самое главное — некоторые научные открытия, которые сделали основатели компании. Фактически, TAPe — это новый способ обработки информации, который, как вы уже догадались, мы и предлагаем использовать в этих персиваторах/персиверах.

Когда мы говорим, что такие устройства должны работать с информацией как наш мозг, нужно уточнить одну вещь. На самом деле теорий, объясняющих, как это делает наш мозг, довольно много, при этом нет какой‑то одной главной, принимаемой всеми учёными за истину. Поэтому как именно наш мозг обрабатывает информацию никто не знает. Но мы надеемся, что TAPe сильно ближе других технологий и алгоритмов к восприятию и обработке информации так, как это делает мозг.

Другими словами, TAPe (пока) — не теория устройства и функционирования мозга, TAPe — это логика, метод, который более точно описывает работу мозга, чем технологии, использующие высшую математику, которая никакого отношения к работе мозга не имеет.

Короче говоря, персиватор/персивер, о котором мы говорим как о замене АЛУ,

мог бы работать на основе TAPe, используя в качестве элементарных единиц не 0 и 1, а элементарные единицы TAPe

Подробней о⦁TAPe можно почитать вот здесь.
Proof of concept
На основе TAPe уже созданы технологии и продукты, которые на порядки эффективней позволяют работать с видео. Да, компания ещё не стала «единорогом», и было бы здорово жить в мире, в котором все было бы немного проще. Но пока все работает по старому доброму правилу «Идея гениальной инновации стоит 1 $, разработка продуктов на её основе — 10 $, а продажа этих продуктов — уже 100 $». В реальности эта геометрическая прогрессия выглядит ещё неприятней.

Тем не менее, первые две стадии мы уже прошли и даже зашли на территорию третьей: мы создали первый (и единственный) в мире сервис поиска видео по видео (именно по видео, а не по описанию, кадру и тд). Наши клиенты могли в режиме реального времени, практически моментально в огромных массивах видео искать и находить (или не находить) нужные им совпадения. Например, телеканалы сравнивали свои эфиры с эфирами других каналов, чтобы отслеживать пиратские трансляции. Фактически, обрабатывались и сравнивались года видео.

Кстати, Google потратил на разработку фактически аналогичной технологии 100 млн $ (и продолжает тратить деньги на её поддержку) на Content ID — систему, которая следит за соблюдением авторских прав на YouTube. Для разработки Content ID были привлечены действительно лучшие умы в том числе в области искусственного интеллекта, включая легендарного Джеффри Хинтона.

100 млн $, больше десяти лет, лучшие умы для решения на самом деле не самой сложной задачи — вот что мы имеем в виду, когда говорим о недостаточности 0/1, о том, что эта концепция уже себя исчерпала и что для решения современных задач старыми способами требуется все больше ресурсов

В то же время нашей технологии благодаря TAPe для решения тех же самых задач не требуются такие основополагающие понятия в области AI&ML, computer vision и пр., как градиентный спуск или операция свёртки. Они нам просто не нужны, TAPe прекрасно справляется без них. Или, например, TAPe одномоментно снимает с любого изображения ключевые признаки, по которым это изображение распознается. При этом таких признаков в TAPe всегда минимально достаточное количество (то есть оптимальное), TAPe «узнает» их автоматически.

Если вы не знаете, что все это значит, спросите у своего знакомого программиста (у всех сегодня должен быть знакомый программист). Если вы сами занимаетесь чем‑то в области нейронных сетей и распознавания изображений, то перестаньте крутить пальцем у виска и сквернословить в наш адрес. Не верите — пишите нам, мы вам покажем.
А⦁при чем здесь АЛУ?
Проблема в том, что современные компьютеры на паровой тяге с их АЛУ не дают развернуться TAPe во всей её мощи. TAPe основана и работает с принципиально другими единицами информации, которые сами по себе являются значимыми — в отличие от 0 и 1. Это в том числе значит, что на единицу информации в TAPe приходится на порядки (на порядки порядков) больше значимой информации, чем в одном старом-добром бите. Но поскольку TAPe приходится иметь дело с данными, представленными в виде 0 и 1, то эти данные приходится конвертировать в нужный для TAPe формат, затем конвертировать обратно… И все равно эффективность технологий в области видео на базе TAPe превосходит «традиционные» технологии. Остаётся только догадываться, каких результатов можно будет добиться, если построить компьютер, обрабатывающий информацию не через 0 и 1, а через элементарные единицы TAPe.

Но что это должен быть за компьютер? Может быть — барабанная дробь — квантовый? Или нейроморфный?! Но откройте любую статью о квантовых или нейроморфных процессорах, и вы увидите, что в основе этих инноваций лежат всё те же старые добрые АЛУ с их традиционной алгеброй логики, а значит и всё с теми же 0 и 1. Но такой алгебры логики явно уже сейчас, для современных CPU, недостаточно для решения текущих задач. Здесь (здесь — то есть уже вообще везде) нужен изначально другой подход, другие принципы, чтобы перестать запускать ракеты в космос на ста паровых двигателях. Нужны не просто принципиально другие устройства (не-АЛУ), а нужны такие не-АЛУ, которые будут работать на других математических методах.

И мы считаем, что TAPe может стать тем, что освободит современный мир от гнёта нулей и единиц

Ну или хотя бы позволит создать принципиально другое устройство, персиватор/персивер, который станет основой дивного нового мира.

Аминь.