О методах построения трёхмерной модели среды функционирования автономных роботов

Д.Н. Потепалов
Московский государственный технический университет радиотехники, электроники и автоматики,
г. Москва


Возможность ориентироваться в окружающем пространстве является важной составляющей автономности робота. Не имея представления об окружающей среде, робот не сможет с ней адекватно взаимодействовать, а следовательно, и выполнять поставленную ему задачу. Для стационарного робота, установленного, например, на заводе, окружающая среда весьма детерминирована – это может быть лента конвейера, рабочая поверхность станка и т.п., поэтому для функционирования ему достаточно иметь в качестве датчиков очувствления простую систему технического зрения, состоящую из одной или, в редких случаях, нескольких видеокамер, а воздействие на окружающую среду осуществлять путём перемещения захватного устройства или инструмента. Однако для мобильного робота, предназначенного для выполнения разного рода задач, требующих перемещения по заранее неизвестной траектории (например, охота на паразитов), требуется более глубокий анализ окружающей среды. Необходимо не только оценивать расстояние до ближайших препятствий, но и иметь представление о природе близлежащих объектов – движутся они или являются неподвижными, представляют ли они интерес с точки зрения полученного задания или нет. Современные роботы более или менее справляются с этой задачей с помощью разного рода сенсоров – видеокамер, сенсоров глубины, тактильных и т.п. [1]. Сами по себе показания сенсоров представляют из себя просто последовательности чисел, и для принятия решений по управлению роботом необходимо этот поток чисел обрабатывать. При этом цели такой обработки при решении любой конкретной задачи схожи: найти что-то в окружающей среде, уклониться от препятствия, произвести некоторое действие над объектом. Поэтому видится интересным выделить этап обработки в отдельную задачу. Если у робота будет представление окружающей среды в форме совокупности известных или неизвестных объектов, положение которых в пространстве установлено, то решения по управлению будут формироваться существенно проще, чем на основании "сырых" показателей сенсоров. Кроме того, поскольку элементам этой совокупности легко поставить в соответствие слова из естественного языка, наличие такого представления окружающей среды создаёт основу для разработки систем интерфейса к роботу, допускающих команды на естественном языке. Разработка такого представления на концептуальном уровне и является основной целью данной работы.

Проблема построения модели

Более формально, проблема, рассматриваемая в данной работе – построение такого алгоритма анализа информации от сенсоров робота, который восстанавливал бы трёхмерную структуру окружающих робота объектов, выделял бы среди них известные и уточнял их положение в пространстве на основании формализованных знаний об этих объектах. Искомый алгоритм должен быть максимально независим от конкретной проблемной области и не требовать для своей работы большого количества специфических сенсоров.

В решении поставленной задачи можно выделить несколько отдельных, на первый взгляд, независимых подзадач:

· восстановление 3D-модели окружающих объектов и их положения относительно робота

· построение некоторого унифицированного описания объекта, учитывающего максимум его характеристик (форму, цвет и т.п.) и позволяющего эффективно проводить сравнение объектов между собой

· построение алгоритма поиска интересующего объекта в окружающей среде с учётом имеющейся видеоинформации и построенной 3D-модели по признаковому описанию

Поскольку видеокамеры с той или иной целью устанавливаются на большинстве мобильных роботов, для решения первой подзадачи предлагается использовать методы анализа визуальной информации. Наиболее математически обоснованный результат обеспечивает восстановление геометрии с использованием стереопары камер и триангуляции [2], однако у этого метода есть серьёзное ограничение – при малой стереобазе (расстояние между камерами) метод применим лишь на небольших расстояниях, поскольку погрешность при определении углов за счёт дискретизации изображения видеокамерой растёт пропорционально квадрату расстояния до объекта. Учитывая малые размеры современных роботов, более привлекательным видится восстановление 3D по последовательности кадров с одной камеры. Этот процесс образует самостоятельную задачу машинного зрения, в зарубежной литературе получившую название Structure From Motion (SFM). В связи со всё более широким распространением цифровых видеокамер в этой области наметился достаточно серьёзный прогресс за последнее время ([3], [4], [5]). Разработанные алгоритмы SFM находят и практическое применение – например, в задаче восстановления геометрии паруса по видео. Поэтому адаптация этих достижений к задаче формализации внутреннего представления среды функционирования автономных роботов представляет перспективное направление для исследования.

При решении второй подзадачи видится целесообразным задействовать наработки в области сегментации различного рода объектов на плоском изображении. В литературе известно множество различных характеристик изображения, позволяющих отличать поверхности с определённой текстурой, основанных назначениях интенсивности пикселей (например, в книге [6] приведено 18 различных подходов к этой проблеме и 318 различных признаков). В случае, когда интересующий робота объект обладает характерной текстурой, значения подобных признаков могут оказать существенную помощь в его идентификации. Концепции, используемые для описания двумерных изображений (коэффициенты Фурье, отклики вейвлетов, моменты изображения) допускают перенос и на трёхмерный случай; изучение эффективности такого рода характеристик может открыть новые возможности для узнавания интересующих робота объектов.

Решение третьей подзадачи можно разбить на 2 этапа: поиск объектов и их идентификация. На этапе поиска необязательно точно определить, что за объект наблюдается, достаточно понять, что в данной области пространства находится нечто, что можно рассматривать как отдельный объект, точная природа которого будет определена на этапе идентификации. Результатом этапа поиска должно стать разделение окружающего пространства на зоны, каждая из которых либо требует более детального изучения, либо является фоном. Для достижения такой цели существуют различные методы сегментации изображения, основанные на анализе градиента интенсивности; особый интерес представляет разработка подобных методов для трёхмерного представления окружающей среды. Этап идентификации можно рассматривать как задачу распознавания образов: имеется признаковое описание объекта (построенное по выделенной области), необходимо определить, к какому классу принадлежит объект (предполагается, что количество интересующих робота объектов конечно и невелико). Выбор подходящего для этой задачи метода распознавания, а также отбор релевантных к идентификации объекта признаков представляет собой отдельное направление для исследования.

Как было отмечено в начале этой части, перечисленные подзадачи можно рассматривать независимо. Однако, поскольку решение каждой их них является частью общей цепи, то имеет смысл подумать о том, как использовать результаты работы отдельных этапов для взаимной коррекции. Например, в литературе известны ([8]) подходы к восстановлению трёхмерной структуры по одному цифровому изображению, работающие при условии наличия на изображении объекта с известными размерами и геометрией. Поскольку в контексте рассматриваемой проблемы у робота имеется набор известных объектов, имеет смысл хранить вместе с описанием каждого из них и трёхмерную модель, которую можно будет использовать для корректировки реконструированной по методу SFM. Также реконструированная модель пространства может помочь на этапе сегментации изображения на области – если на изображении присутствует перепад градиента и при этом реконструкция сообщает, что расстояние от точек слева и справа от него до робота примерно одинаковое, то такой перепад не является границей между двумя разнесёнными в пространстве объектами. С учётом этих соображений общая схема решения задачи формализации видится следующим образом:

· восстановить трёхмерную модель окружающей среды с использованием SFM

· произвести сегментацию пространства на области, могущие содержать объекты, с использованием как алгоритмов сегментации на плоском цифровом изображении, так и кластеризации вершин построенной трёхмерной модели

· построить признаковое описание для каждой выделенной на предыдущем шаге области

· на основании признакового описания произвести идентификацию объектов в выделенных областях

· для опознанных объектов на основании сопоставления реконструированной трёхмерной модели и эталонной определить положение объектов в пространстве; возможно, скорректировать результат реконструкции на основании узнавания объекта

Заключение

В данной работе поставлена задача преобразования информации с сенсоров робота в структурированную модель окружающей среды. Приведённая концептуальная схема решения поставленной задачи предполагает совместное использование результатов из областей трёхмерной реконструкции по видео, анализа изображений и распознавания образов с целью построения указанной модели. При условии успешной реконструкции трёхмерной структуры окружающих объектов робот сможет полноценно ориентироваться в пространстве и планировать траекторию своего движения. Засчёт использования методов анализа изображений реконструированная модель становится осмысленной, приобретает вид совокупности объектов. Наличие упорядоченного представления объектов окружающей среды и технического оснащения упрощает разработку интерфейса к роботу, допускающего команды на естественном языке. Такая схема решения, безусловно, не является единственно возможной, и формулируется здесь как гипотеза, требующая проверки на практике. При этом перечисленные достижения в области машинного зрения позволяют ожидать успешных результатов при проведении дальнейших исследований в намеченном направлении.

Список литературы

1. Воротников С.А. Информационные устройства робототехнических систем / С.А. Воротников – М.: Изд. МГТУ им. Н.Э. Баумана, 2005. – 383 с.

2. Hartley R., Zisserman A. Multiple View Geometry in Computer Vision 2nd ed / R. Hartley, A. Zisserman – Cambridge University Press, 2003 – 655 с.

3. Bregler C. Recovering Non-Rigid 3D Shape from Image Streams. / C. Bregler, A. Hertzmann, H. Biermann / Proceedings of IEEE Conference on Computer Vision and Pattern Recognition – 2000 – с. 2690-2696.

4. Akhter I. Nonrigid Structure from Motion in Trajectory Space. / I. Akhter, Y. Sheikh, S. Khan, T. Kanade / Proceedings of Conference on Neural Information Processing Systems – 2008 – с. 41-48.

5. Fayad J. Non-Rigid Structure from Motion Using Quadratic Deformation Models. / J. Fayad, A. Del Bue, L. Agapito, . P. M. Q. Aguiar / Proceedings of British Machine Vision Conference – 2009.

6. Jahne B. Handbook of Computer Vision and Applications Volume 2 Signal Processing and Pattern Recognition / B. Jahne – New York: Academic Press, 1999 – 967c.

7. Shapiro L. Computer Vision 1st ed. / L. Shapiro, G. Stockmann – New York: Prentice Hall, 2001 – 608 с. 


Назад к списку