Что такое реконструкция объекта: Понятие реконструкции Акты, образцы, формы, договоры Консультант Плюс

Содержание

Понятие реконструкции \ Акты, образцы, формы, договоры \ Консультант Плюс

]]>

Подборка наиболее важных документов по запросу Понятие реконструкции (нормативно–правовые акты, формы, статьи, консультации экспертов и многое другое).

Судебная практика: Понятие реконструкции Открыть документ в вашей системе КонсультантПлюс:
Подборка судебных решений за 2019 год: Статья 1 «Основные понятия, используемые в настоящем Кодексе» Градостроительного кодекса РФ
(Р.Б. Касенов)Суд удовлетворил требования администрации района к счетной палате субъекта РФ о признании недействительным представления, обязующего администрацию принять меры по возврату средств бюджета автономного округа, использованных не по целевому назначению. При этом суд признал неверными выводы счетной палаты о проведении администрацией реконструкции сетей водоснабжения вместо предусмотренного бюджетом капитального ремонта.

Как указал суд, в п. 14.1 ст. 1 Градостроительного кодекса РФ предусмотрено понятие реконструкции линейных объектов, согласно которому это изменение параметров линейных объектов или их участков (частей), которое влечет за собой изменение класса, категории и (или) первоначально установленных показателей функционирования таких объектов (мощности, грузоподъемности и других) или при котором требуется изменение границ полос отвода и (или) охранных зон таких объектов. В рассматриваемом случае счетная палата не представила доказательств, свидетельствующих об изменении класса, категории и (или) первоначально установленных показателей систем водоснабжения, а также не доказала необходимость изменения границ полос отвода и (или) охранных зон таких объектов. Само по себе изменение диаметра трубы на отдельном участке системы водоснабжения, а также изменение траектории прокладки трубы на отдельном участке не может толковаться как обязательно влекущее изменение характеристик системы водоснабжения. Таким образом, спорные работы, проведенные администрацией, не подпадают под понятие «реконструкция».

Статьи, комментарии, ответы на вопросы: Понятие реконструкции

Нормативные акты: Понятие реконструкции «Градостроительный кодекс Российской Федерации» от 29.12.2004 N 190-ФЗ
(ред. от 02.07.2021)14) реконструкция объектов капитального строительства (за исключением линейных объектов) — изменение параметров объекта капитального строительства, его частей (высоты, количества этажей, площади, объема), в том числе надстройка, перестройка, расширение объекта капитального строительства, а также замена и (или) восстановление несущих строительных конструкций объекта капитального строительства, за исключением замены отдельных элементов таких конструкций на аналогичные или иные улучшающие показатели таких конструкций элементы и (или) восстановления указанных элементов;

Реконструкция — это.

.. Что такое Реконструкция?

Реконструкция

Изменение конструкции пути, вызывающее необходимость корректировки его паспорта

Реконструкция — комплекс строительных работ и организационно-технических мероприятий, связанных с изменением основных технико-экономических показателей (нагрузок, планировки помещений, строительного объема и общей площади здания, инженерной оснащенности) с целью изменения условий эксплуатации, максимального восполнения утраты от имевшего место физического и морального износа, достижения новых целей эксплуатации зданий.

Реконструкция — комплекс строительно-монтажных работ и организационно-технических мероприятий, связанных с изменением основных технико-экономических показателей или назначения объекта недвижимости.

Реконструкция

переустройство существующих объектов недвижимости основного, подсобного и обслуживающего назначения, связанное с их совершенствованием и изменением технико-экономических показателей (строительного объема, общей и полезной площади и т.п.), а также полного или частичного изменения их функционального назначения и конструктивных решений, замены морально и физически устаревшего технологического и инженерно-технического оборудования, приведение в соответствие с функциональным назначением объекта элементов наружной рекламы и т.п.

3.5 реконструкция: Комплекс строительных работ и организационно-технических мероприятий, связанных с изменением основных технико-экономических показателей (количества и площади квартир, строительного объема, общей площади здания, вместимости, мощности, пропускной способности или назначения объекта недвижимости).

реконструкция — комплекс работ и организационно-технических мероприятий по переустройству существующих объектов газораспределительных систем, в т.ч. с изменением основных технических характеристик в целях повышения их технического уровня или условий эксплуатации;

3.5.

Реконструкция — комплекс строительных работ и организационно-технологических мероприятий, связанных с изменением основных технико-экономических показателей (количество и площадь квартир, назначение объекта недвижимости, строительного объема, вместимости, мощности и т.д.).

3.12. реконструкция: Комплекс строительных работ и организационно-технических мероприятий, связанных с изменением основных технико-экономических показателей (количества и площади квартир, строительного объема, общей площади здания, вместимости, мощности, пропускной способности) или назначения существующего объекта недвижимости.

39. Реконструкция — изменение конструкции сосуда, вызывающее необходимость корректировки паспорта сосуда (например, устройство дополнительных элементов), и другие вызывающие изменения параметров работы сосуда.

3.37 реконструкция: Комплекс строительных работ и организационно-технических мероприятий, связанных с изменением основных технико-экономических показателей (нагрузок, планировки помещений, строительного объема и общей площади здания (сооружения), инженерной оснащенности) с целью изменения условий эксплуатации, максимального восполнения утраты от имевшего место физического и морального износа, достижения новых целей эксплуатации здания.

Реконструкция^* — комплекс работ, при выполнении которых осуществляется изменение основных конструктивных и технико-экономических показателей — форм и размеров поперечных сечений тоннелей, материалов конструкций, инженерной оснащенности с целью улучшения условий эксплуатации, повышения пропускной способности, максимального восполнения утраты от имевшего место физического и морального износа, а также последствий воздействия неблагоприятных природно-климатических факторов.

Восстановление — устранение полного или частичного разрушения тоннелей после землетрясения, пожара, террористического акта или другого катастрофического воздействия.

1.3.43 реконструкция: Комплекс строительных работ и организационно-технических мероприятий, связанных с повышением технико-эксплуатационных показателей резервуара.

Реконструкция — изменение параметров объектов капитального строительства, их частей (высоты, количества этажей, площади, показателей производственной мощности, объема) и качества инженерно-технического обеспечения.

3.16 реконструкция : Изменение параметров объектов магистральных трубопроводов или их частей, за исключением замены отдельных элементов, которое влечет за собой изменение класса, категории и/или первоначально установленных показателей функционирования такого объекта или при котором требуется изменение границ полос отвода и/или охранных зон такого объекта.

Реконструкция — переустройство всего предприятия, производства, цеха, отделения, здания, установки или их большей части в связи с изменениями в технологическом процессе или оборудовании.

3.34 реконструкция: Изменение параметров объектов капитального строительства, их частей (количества помещений, высоты, количества этажей (далее этажность), площади, показателей производительной мощности, объема) и качества инженерно-технического обеспечения.

35. Реконструкция — изменение конструкции сосуда, вызывающее необходимость корректировки паспорта сосуда, например устройство дополнительных элементов, и другие вызывающие изменения параметров работы сосуда.

2. Реконструкция — изменение параметров объектов капитального строительства, их частей (количества помещений, высоты, количества этажей, площади, показателей производственной мощности, объема) и качества инженерно-технического обеспечения.

1.3.2. Реконструкция — это переустройство (как правило без расширения) существующих зданий, сооружений, цехов предприятий и объектов основного, подсобного и обслуживающего назначения по комплексному проекту модернизации в целях повышения технико-экономического уровня, улучшения качества и изменения номенклатуры продукции и услуг, улучшения условий труда и охраны окружающей среды.

3.1.7. Реконструкция — переустройство существующих объектов, как правило, без расширения имеющихся зданий и сооружений основного назначения.

3.11.20 реконструкция: Комплекс операций по улучшению сооружения для его использования при новом режиме эксплуатации и (или) изменения его назначения.

10. Реконструкция — изменение параметров объектов капитального строительства, их частей (высоты, количества этажей (далее — этажность), площади, показателей производственной мощности, объема) и качества инженерно-технического обеспечения;

Смотри также родственные термины:

1.6 Реконструкция (модернизация) здания

—

3.87 реконструкция автомобильной дороги : Комплекс работ, при выполнении которых осуществляется изменение параметров автомобильной дороги, ее участков, ведущий к изменению класса и/или категории автомобильной дороги, либо влекущий за собой изменение границы полосы отвода автомобильной дороги.

62. Реконструкция архитектурно-ландшафтного объекта

Усовершенствование функционирования архитектурно-ландшафтного объекта в изменившихся условиях, предусматривающее изменение планировки и размещения посадок

3.49 реконструкция гидроэлектростанции: Комплекс работ на действующих объектах ГЭС по их переустройству (строительству взамен) в целях повышения безопасности, технического уровня, улучшения технико-экономических показателей объекта, условий труда и охраны окружающей среды. При необходимости расширения, технического перевооружения реконструируемого объекта соответствующие работы и затраты включаются в состав проекта реконструкции объекта.

3.13 реконструкция гидроэлектростанции : Комплекс работ на действующих объектах ГЭС по их переустройству (строительству взамен) в целях повышения безопасности, технического уровня, улучшения технико-экономических показателей объекта, условий труда и охраны окружающей среды.

Примечание — При необходимости расширения, технического перевооружения реконструируемого объекта соответствующие работы и затраты включают в состав проекта реконструкции объекта.

Реконструкция городского поселения

Застройка земельного участка, строительство, реконструкция здания, строения, сооружения, улицы, дороги, объекта транспортной и инженерной инфраструктуры, благоустройство на сложившейся селитебной, производственной, ландшафтно-рекреационной территории городского поселения

1.3. РЕКОНСТРУКЦИЯ ДЕЙСТВУЮЩИХ ПРЕДПРИЯТИЙ^*

Полное или частичное переустройство производства без строительства новых и расширения действующих цехов основного назначения со строительством (при необходимости) новых и расширением объектов вспомогательного и обслуживающего назначения. К реконструкции действующего предприятия относится также строительство новых цехов и объектов взамен ликвидируемых того же назначения, дальнейшая эксплуатация которых по техническим и экономическим условиям признана нецелесообразной

То же

3.28 реконструкция дороги : Комплекс строительных работ на существующей дороге с целью повышения ее транспортно-эксплуатационных показателей с переводом дороги в целом или отдельных участков в более высокую категорию. Включает: спрямление отдельных участков, смягчение продольных уклонов, устройство обходов населенных пунктов, уширение земляного полотна и проезжей части, усиление конструкции дорожных одежд, уширение или замену мостовых и инженерных сооружений, переустройство пересечений и примыканий и т.д. Технология производства работ аналогична технологии строительства дороги.

реконструкция железной дороги : Усиление пропускной способности железной дороги с сохранением функций основной деятельности без изменения категорийности.

Реконструкция жилого дома — переоборудование жилого дома с целью совершенствования его объемно-планировочных решений и архитектурных качеств (с осуществлением перепланировки квартир, секций, этажей или нежилых помещений, в том числе с изменением их функционального назначения), а также конструктивно-технических и инженерно-технических решений с учетом современных требований при изменении объема жилого дома путем пристройки новых объемно-планировочных элементов, в том числе квартир или их помещений, лестнично-лифтовых узлов, помещений нежилого назначения, а также надстройки (в том числе мансардным этажом) или разборки частей жилого дома.

Реконструкция жилого дома — комплекс финансовых, организационно-технических мероприятий и строительных работ, связанных с изменением основных технико-экономических показателей жилого дома (количества и площади квартир, строительного объема и общей площади дома) или его первоначального функционального назначения, осуществляемых в целях улучшения условий проживания и приведения эксплуатационных показателей жилого дома к уровню современных требований. Реконструкция жилого дома может включать: изменение планировки помещений, габаритов, возведение надстроек, встроек, пристроек, переоборудование чердачного помещения или мансарды, а при наличии обоснований — частичную разборку здания; повышение уровня инженерного оборудования, включая наружные сети (кроме магистральных), замену изношенных и морально устаревших конструкций и инженерного оборудования на современные, более надежные и эффективные, улучшающие эксплуатационные показатели жилого дома; улучшение архитектурной выразительности здания, а также благоустройство прилегающей территории.

реконструкция застройки — комплексное или частичное переустройство сложившейся застройки, благоустройства и инженерного оборудования территории с целью улучшения условий проживания населения, экономичной эксплуатации и эффективного использования территории;

Реконструкция здания — комплекс строительных работ и организационно-технических мероприятий, связанных с изменением основных технико-экономических показателей (количества и площади квартир, строительного объема и общей площади здания, вместимости или пропускной способности или его назначения) в целях улучшения условий проживания, качества обслуживания, увеличения объема услуг.

Реконструкция здания — комплекс строительных работ и организационно-технических мероприятий, связанных с изменением основных технико-экономических показателей (нагрузок, планировки помещений, строительного объема и общей площади здания, инженерной оснащенности) с целью изменения условий эксплуатации, максимального восполнения утраты от имевшего место физического и морального износа, достижения новых целей эксплуатации здания.

3.27 Реконструкция здания — комплекс строительных работ и организационно-строительных мероприятий, связанных с изменением основных технико-экономических показателей (количества и площади квартир, строительного объема и общей площади здания, вместимости, пропускной способности и т.д.) или его назначения в целях улучшения условий проживания, качества обслуживания, увеличения объема услуг.

10 реконструкция здания [сооружения, оборудования, коммуникаций, объектов жилищно-коммунального назначения]: Комплекс операций по переустройству действующего здания [сооружения, оборудования, коммуникаций, объектов жилищно-коммунального назначения] в целях повышения технического уровня, улучшения технико-экономических показателей, условий эксплуатации и охраны окружающей среды.

Реконструкция здания (сооружения)

Комплекс строительных работ и организационно-технических мероприятий, связанных с изменением основных технико-экономических показателей (количества и площади квартир, строительного объема и общей площади здания, вместимости или пропускной способности и т.п.) или его назначения

3.19 реконструкция здания (сооружения) : Изменение параметров объекта капитального строительства, его частей (высоты, количества этажей, площади, объема), в том числе надстройка, перестройка, расширение объекта капитального строительства, а также замена и (или) восстановление несущих строительных конструкций объекта капитального строительства, за исключением замены отдельных элементов таких конструкций на аналогичные, или иные улучшающие показатели таких конструкций элементы и (или) восстановление указанных элементов (по статье 1 Федерального закона от 28 ноября 2011 г. № 337-РФ [1]).

Реконструкция здания (сооружения)

—

3.31 реконструкция магистрального газопровода: Совокупность мер по полному или частичному переустройству магистрального газопровода с целью повышения его полезных свойств и технико-экономических показателей.

3.34 реконструкция мостовых сооружений: Изменение параметров мостовых сооружений, которое влечет за собой изменение класса, категории и (или) первоначально установленных показателей функционирования таких объектов (мощности, грузоподъемности и других) или при котором требуется изменение границ полос отвода и (или) охранных зон таких объектов.

Примечание — Перестройку, которая подразумевает замену существующих конструкций мостового сооружения, относят к реконструкции.

3.35 Остальные термины с соответствующими определениями приняты в соответствии с ГОСТ 15467-79, ГОСТ Р 27.002-2009, title=»190-ФЗ Градостроительный кодекс Российской Федерации», title=»384-ФЗ Технический регламент о безопасности зданий и сооружений», title=»196-ФЗ О безопасности дорожного движения» «О безопасности дорожного движения».

3.1.2 реконструкция объектов капитального строительства (за исключением линейных объектов) : Изменение параметров объекта капитального строительства, его частей (высоты, количества этажей, площади, объема), в том числе надстройка, перестройка, расширение объекта капитального строительства, а также замена и (или) восстановление несущих строительных конструкций объекта капитального строительства, за исключением замены отдельных элементов таких конструкций на аналогичные или иные улучшающие показатели таких конструкций элементы и (или) восстановления указанных элементов.

[Градостроительный кодекс Российской Федерации [1], пункт 14 статьи 1]

1.1.8. Реконструкция объектов ТСОДД — комплекс строительных работ и организационно-технических мероприятий, связанных с переустройством существующих объектов ТСОДД, с целью совершенствования их эксплуатации, изменения режимов работы для улучшения организации дорожного движения. Проводится в соответствии с годовыми планами реконструкции, строительства и модернизации объектов ТСОДД.

6.24 реконструкция переплета : Изготовление нового переплета с воспроизведением стиля и конструкции, близких к первоначальным

Реконструкция подводного перехода — перестройка перехода для улучшения его функционирования (например, прокладка дополнительных ниток газопроводов на переходе, замена старых ниток газопроводов на новые и т.п.).

3.37 реконструкция резервуара : Капитальный ремонт, предусматривающий полное удаление металлических конструкций резервуара.

Словарь-справочник терминов нормативно-технической документации. academic.ru. 2015.

Реконструкция зданий, объектов и сооружений различной сложности.

Поэтапная реконструкция

Сотрудники компании проводят осмотр и оценку объектов, при необходимости – испытывают конструкции возможными и допустимыми способами. После того, как будет получен результат мониторинга, заказчик получает заключение о возможности проведения работ по реконструкции и информацию о технико-экономических показателях проекта.

Под понятием реконструкция зданий понимается полная реорганизация. Данный процесс всегда трудоемок и отнимает много времени. Он нуждается в профессиональном подходе на каждом этапе. Благодаря реконструкции даже обветшалое здание реально сделать пригодным для жизни и деятельности.

В большей части случаев работы по реконструкции включают в себя:

изменение размеров объекта;
усиление сооружений и конструктивных элементов;
оформление бумаг на участок;
процедуры, связанные с перепланировкой;
восстановление инженерных сетей и коммуникаций;
возведение пристройки и надстройки;
отделка внутренней и внешней стороны здания;
переделка чердака в мансарду и др.

Работы реконструкции зданий

В зависимости от того, к какому типу относится здание, строителями в индивидуальном порядке подбирается комплекс работ. Обычно реконструкция объектов подразумевает ремонт, восстановление, замену перекрытий, лестниц, окон, дверей, обновление фасада здания. Если сравнивать ее со строительством дома с нуля, то она обходится дешевле.

Нашими специалистами промышленного назначения выполняется при изменении технологического процесса либо при необходимости расширить производственные объемы. Максимум внимания здесь отдается укреплению стен, восстановлению фундамента, перекрытий для сохранения прочности и устойчивости всего объекта.

В общественных зданиях работы реконструкции зданий отличаются между собой в зависимости от типа объекта. Восстановление нежилого либо административного здания включает в себя укрепление несущих стен, фундамента, отделки фасада, ремонта кровли.

Реконструкция сооружений различного назначения

Специалистами нашей компании проводится реконструкция капитальных зданий. Здесь подразумевается изменение фасада здания, улучшение технических характеристик сооружений, увеличение безопасности и эффективности. Выполнить работы реконструкции зданий нужно, если имеются преждевременные разрушения конструкций, осыпается фасад, необходимо изменить внутреннюю площадь объекта, усилить несущие системы, восстановить фундамент.

Как правило, понятия ремонт и реконструкция неотделимы. Они включают в себя комплекс работ, при которых требуется частично либо полностью поменять размер объекта либо выполнить его перестройку, а также перепланировку и завершающую отделку. К любому проекту реконструкции настоящие специалисты подходят индивидуально, учитывают особенности местности, возможности и инструменты.

От чего зависит стоимость реконструкции?

Стоимость реконструкции здания зависит, в первую очередь, от:

Типа;
Площади;
Строительных материалов, которые будут применяться в процессе проведения различных работ;
Сроков, в которые необходимо проделать работы.

В большинстве ситуаций определение типа необходимой реконструкции, определения стоимости различных работ и сроков их выполнения осуществляется после проведения тщательного осмотра здания при помощи квалифицированных специалистов. Для этого осуществляется выезд на объект сотрудника.

Какие бывают способы обновления зданий?

Так как конечной целью любой реконструкции является максимально возможное повышение эффективности эксплуатации постройки, проведение комплексных работ включает в себя:

Обновление фасада;
Изменение отдельных технических показателей;
Возведение дополнительной надстройки;
Замену устаревшего кровельного покрытия;
Усиление несущей конструкции;
Проведение грамотной перепланировки;
Обновление инженерных систем и коммуникаций.

Также не стоит забывать о том, что дополнительной целью реконструкции здания является предельное сокращение расходов на их содержание, поэтому за счет применения современных материалов цена на реконструкцию жилых и коммерческих зданий достаточно быстро окупается, так как происходит оптимизация объекта.

Помимо всего прочего правильная и своевременная реконструкция дает возможность избежать каких-либо непредвиденных ситуаций, к примеру, пожаров или же каких-либо других, которые могли бы возникнуть вследствие неправильного монтажа проводки или же замыкания из-за протечки устаревшего кровельного покрытия.

уровень стойкости здания относительно сложных природных условий, изменение строения

Автор zazemly На чтение 8 мин Просмотров 12 Опубликовано 21.10.2019

Понятие «реконструкция», часто фигурирующее в законодательных и нормативных актах, в целом соответствует определению процесса обновления. Но, к примеру, капитальный ремонт тоже символизирует реставрационные работы. Поэтому при возникновении юридически спорных моментов важно знать – что такое реконструкция объекта капитального строительства как вида архитектурной деятельности, и какими регламентирующими документами закреплен сам термин.

Смысл реконструкции по официальной терминологии

Во избежание разночтений понятие процедуры установлено в 14 пункте I-й статьи Градостроительного Кодекса РФ (ГСК РФ). Начальный параграф документа разъясняет основные термины, использующиеся в нормативно-законодательном акте.

Следуя узаконенному определению, под реконструкцией объектов КС понимаются изменения размеров, норм, габаритов самого объекта и его фрагментов (метража, этажности, высотности), а также изменение конфигурации строения (пристрой, надстрой).

К этапу реконструкции относят перестройку или восстановление несущей системы. Данная формулировка исключает рассмотрение линейных объектов как отдельного вида сооружений.

Выражая своими словами, реконструкция объекта капитального строительства – это процесс внесения существенных концептуальных и структурных корректировок в строение жилого назначения.

Типы реконструкций, выделяемых законодательством

Совместно с общим толкованием восстановления здания в Кодексе дано детальное описание других видов мероприятий. В таблице представлены понятия законодательно зафиксированных видов процедуры.

Категории реконструкций	Суть процесса
Базовая реорганизация ОКС (объектов кап.строя)	Имеется в виду «недострой» – строение, не введенное в эксплуатацию, обладающее такими элементами, как: ● встройки или надстройки мансардного этажа; ● перестройки для улучшения функционирования; ● расширение площади; ● манипуляции с несущими конструктивными элементами. Это обусловлено расхождениями с концепцией первоначального проекта
Реконструкция линейных объектов строительства	Речь идет о строениях, длина которых в разы превалирует над шириной (линейно-кабельные сооружения, инженерные коммуникации). Суть преобразований заключена в действиях, приводящих к обновлению технических и эксплуатационных характеристик (классификация, категория и т. п.)
Реконструкция сооружений, в т. ч. жилых	Внесение существенных конструктивных трансформаций. К обновлению строений относятся процедуры инверсий технико-экономических показателей строения: ● изменение метража отдельных жилых помещений; ● переоснащение коммуникаций и коммунальных сетей. Реконструкция квартир аналогична реформированию зданий, но в масштабах отдельного жилья
Реконструкция объектов ОС	Понимается переоснащение и перевооружение строений производственного характера для улучшения ряда показателей – наращивание производственных мощностей либо изменение товарной линейки продукции

Следует понимать, что капремонт не попадает под определение реконструкции согласно Градостроительному Кодексу РФ. Иными словами, пристройка балкона к помещению – это реконструкция, а настил других полов – это капремонт.

В каких ситуациях понятие «реконструкция» востребовано в процессуальной деятельности

После ратификации в 2013 году ФЗ № 218 любой строительный объект, возведенный как на участках ИЖС, так и ЛПХ, подлежит постановке на кадастровый учет. Процесс регистрации невозможен без оформления технического плана, информация в котором должна быть актуальной на этапе проведения процедуры.

Поэтому любая реконструкция должна сопровождаться следующими действиями:

Оформление и получение нового тех. плана. Работа выполняется кадастровыми инженерами, которые предварительно должны получить на руки проект и разрешение на реконструктивную деятельность.
Обязательна дополнительная регистрация с дальнейшим предоставлением информации в уполномоченные государственные учреждения.

При всей значимости и важности кадастрового учета понятие «реконструкция» широко востребовано в других нормативно-правовых актах. На него ссылаются в Жилищном, Гражданском и Земельном Кодексах России. Поэтому важно понимать суть термина, из которого проистекают аспекты правоустанавливающих норм и правил.

Особенности процедуры реконструкции на примере МКД

Жилой дом (МКД) как объект реконструкции, помимо типичных признаков самого определения – изменение характеристик, восстановление или перепланировка несущих конструктивных элементов – зависит от мнения квартиросъемщиков. Дополнительно подготовительному этапу процедуры обновления предшествует получение широкого перечня согласований и разрешительной документации из разных уполномоченных инстанций.

Общий процесс регламентируется положениями ГСК России, а вот частные детали проходят уточнение региональными дополнениями и поправками.

Сведения, необходимые собственникам недвижимости, при реконструкции дома

Чтобы процедура обрела силу, с точки зрения закона, следует пройти ряд этапов. Так как обновление дома напрямую затрагивает интересы жильцов, то они должны знать права и обязанности. Решение об инициировании и проведении Реформации принимают собственники жилья.

Порядок утверждения необходимости реконструктивных работ:

Проводится общее собрание владельцев фонда как жилого, так и нежилого строительства, о чем они должны быть оповещены не позднее, чем за десять суток до сходки.
В оповещении указываются сведения о лице, инициирующем собрание, повестка заседания, место сбора и перечень представителей от муниципальных органов.
Собрание считается правомочным, если соблюден кворум, т. е. количество присутствующих составляет 50 и более процентов от числа проживающих.
Люди должны четко понимать, что предстоит в ходе реконструкции – будет некапитальный ремонт или перепланировка.
Собственники имеют право ознакомиться с регламентирующими и проектными документами по обновлению дома.
Если предстоящие работы ущемляют собственников в параметрах общедомового имущества (подвалы, чердаки, подъезды), то разрешение на проведение работ должно быть получено от каждого жильца. В ином случае достаточно 2/3 голосов от общего числа, проживающих в многоквартирном доме.

На основании общего собрания принимается и оформляется протокол с решением о реконструктивных работах.

Перечень необходимых документов

База в процедуре обновления строения – проектные документы. Это основная составляющая для разрешения на проведение реконструкционных мероприятий.

Подготовительному этапу разработки плана предшествуют изыскания в области инженерии, в рамках которых анализируются:

Климатические характеристики местности.
Надлежащие природоохранные мероприятия.
Расчеты по компоновке сооружения, придомовой земли и расположению систем коммуникаций.

ПИР проводится как самой строительной компанией, так и с привлечением сторонних профессионалов. Документы на проект в конечной форме – это пакет бумаг, состоящий из текста и графиков, в котором предопределены необходимые для реконструкции решения.

Если предстоящие мероприятия касаются допусков к опасным производствам, то разработка проекта поручается строго ИП либо юр. лицам, наделенными сертификатом и лицензией о праве соответствующих мероприятий.

Следующий этап заключается в согласовании проекта строительной компанией или заказчиком. После чего пакет проходит процедуру государственной экспертизы. Экспертная комиссия рассматривает документы на соответствие действующим нормам и стандартам:

технологические нормативы;
санитарные требования;
охрана наследия в культурной сфере;
противопожарные нормы;
экологические стандарты;
промышленной и прочих видов безопасности.

Положительное решение по проекту считается полностью согласованным.

Вторичной документацией является ГПЗУ – градостроительный план участка земли. Проектные документы составляются согласно земельному плану, что позволяет проводить работы на придомовой территории.

Реконструкцию дома невозможно начать без согласования и соответствующего разрешения на строительство, особенно если в ходе работ возникнет необходимость превышения предельно-допустимых норм надежности конструкций. Поэтому в полномочные организации предъявляется вся наработанная ранее документация.

На заключительном этапе реконструкции инстанция, выдавшая разрешение на возведение строения, осуществляет приемку обновленного сооружения и выдает «добро» на ввод здания в эксплуатацию. Этот последний разрешительный акт служит основанием для внесения корректировок в регистр объекта, подлежащего реконструкции.

Взаимоотношения между подрядчиком и заказчиком

Права и обязанности сторон регламентируются договором строительного подряда, дополненного в силу специфики указанных работ правилами, нормами и стандартами. Реконструкция, равно как и другие масштабные работы по обновлению, проводится под постоянным надзором уполномоченных органов.

Процедура проходит следующие этапы:

Заказчик в рамках 7 календарных дней до начала реконструкции направляет в Госстройнадзор уведомление о начале работ с приложением и копий документов.
Извещение, полученное надзорным органом, позволяет уполномоченным лицам составить график проверок реконструируемого здания.
Исполнитель во время проведения мероприятий по реконструкции должен полностью следовать заданию заказчика, пунктам проекта, соблюдать технические нормативы. А также обеспечивать безопасные условия труда работникам и следовать природоохранным мероприятиям.
Взаимоотношения подрядчика и заказчика определяются договором. Работники в случае опасного производства должны быть квалифицированы на классность по пожарной, газовой и электрической безопасности.
Все материалы, применяемые в процессе работ, сертифицируются.
Представителем заказчика со стороны подрядчика обеспечивается беспрепятственный доступ на место проведения реконструкции для осуществления контроля по выполнению работ. По результатам проверки составляется акт освидетельствования, о чем в журнале производства работ делается соответствующая запись.
Приказом по Государственному Строительному Надзору ответственным за выполнение проверок по конкретному объекту назначается уполномоченное лицо в должности. Проверки осуществляются по утвержденному графику, за исключением обращений физ. или юр. лиц по факту нарушений.
При выявлении дефектов, составляется акт в 2 экземплярах, за счет которого виновному выдается предписание с конкретизацией нарушения и со сроками устранения неполадок. Остальные итоги заносятся в общие или специальные журналы.
Фактическое завершение реконструктивных мероприятий проходит приемо-сдаточную процедуру и утверждаются в акте о приеме-сдаче.

Последним шагом служит извещение надзорных инстанций об окончании работ. После чего назначают контрольную проверку, о дате которой уведомляется заказчик за 3 суток до ее осуществления.

Последствия реконструкции без разрешения

Реконструкция недвижимости по закону требует оформления разрешительной документации, чем граждане часто пренебрегают. На практике это может обернуться для владельца жилья негативными последствиями, вплоть до признания перестроенного объекта самовольной постройкой с требованием вернуть помещение в первоначальное состояние.

Пока жилец эксплуатирует недвижимость его спокойствию ничто не угрожает. Проблемы начинаются с того момента, когда возникнет необходимость совершить сделку либо иные манипуляции, требующие регистрации объекта.

В результате изменения технических параметров помещения в процессе реорганизации налицо расхождения с имеющимися данными в органах Росреестра. Без получения выписки из ЕГРП на реконструированное жилье невозможно подтвердить личный статус собственника. Кроме сорванных планов, предусмотрены административные меры наказания:

Наложение административного штрафа.
Требования перепланировки до первоначального состояния или снос построенных конструкций.
Обращение органов власти в суд для признания объекта самовольной постройкой.

Легализовать постройку через суд крайне затруднительно, так как имеются разночтения в понятии «самостроя». Иногда за этим определением стоит появление нового объекта в результате проведенных работ. В других случаях замену несущих конструкций приравнивают к самовольной реконструкции.

Поэтому, прежде чем приступать к самостоятельным работам, лучше заручиться разрешением в муниципальном архитектурном отделе или в Жилкомиссии. Если же реконструкция произведена, то для ее легализации целесообразно воспользоваться административной процедурой.

Нужно произвести новые замеры, оформить технический план, получить обновленный кадастровый паспорт и воспользоваться упрощенной процедурой регистрации. Это потребует дополнительных расходов, но законность действий окупит все затраты.

Реконструкция, модернизация жилых и общественных зданий и сооружений

Разберемся, что такое реконструкция. Чем отличается от модернизации. В каких случаях можно сделать техническую модернизацию объекта.

Виды и требования

Многие собственники зданий хотят их переделать, улучшить. Конечно, хочется это сделать с наименьшими затратами по деньгам и времени. Одной статьей весь процесс не описать, поэтому мы сейчас расскажем, первый этап мероприятий по правильному определению вида строительства. Вид строительства определяет Заказчик, и крайне важно его правильно определить, чтобы не попасть в тупики и большие затраты.

Согласно законодательству, существует 4 вида строительства:

Новое строительство
Реконструкция
Модернизация
Техническая модернизация

Про новое строительство рассказывать не будем. Новое – значит, не было раньше такого здания.

Рассказываем про остальные три вида.

Требования к проектированию

Все проектные работы по реконструкции и модернизации должны производится в соответствии с действующими нормативными документами. Необходимо соблюдение Технического Регламента 2009/013/BY «Здания и сооружения, строительные материалы и изделия. Безопасность» и для этих видов работ ТКП 45-1.02.02-104-2008*, ТКП 45-1.04-206-2010*.

Чем отличается реконструкция от модернизации?

Итак, разберемся, какие изменения являются реконструкцией, а какие все таки модернизацией и чем они отличаются.

Согласно ТКП 45-1.01-4.2005* п. 3.3.9

Модернизация – согласно ТКП 45-1.01-4-2005* п. 3.3.

Иными словами, если изменения предполагают смену назначения здания (был офис — сделали магазин; был склад — сделали фитнес центр и т.д), которые повлекут изменения его технико – экономических показателей (площадь, объем и т.д), то это является Реконструкцией.

Проектирование реконструкции зданий и сооружений — Примеры проектов

Реконструкция склада

К нам обратился заказчик, у которого имелось складское здание в Минске. Оно больше было похоже на заброшенные строения. Конечно, было желание все это облагородить и на участке построить современное здание.

Так здание выглядело до реконструкции

Так выглядит здание после реконструкции

Этот вид строительства будет реконструкцией, так как здание увеличено в объеме. Оно надстроено и пристроено дополнительными площадями. Так же в складском здании появились новые функции торговли и административных площадей.

Реконструкция колледжа

Нами была выполнена реконструкция колледжа. К существующему зданию была сделана двухэтажная пристройка. Этот вид строительства тоже называется реконструкцией, так как изменились площади (технико-экономические показатели).

Здание до реконструкции

Здание после реконструкции

Реконструкция объекта, это дело не простое. Процедура дорогая, долгая и не простая. Одно проектирование стоит на 30% дороже нового строительства. Изменить объект это всегда дорого и долго. Поэтому, многие понимая это, стараются свои объекты изменить при помощи Модернизации. Эта процедура более простая и дешевая.

Получить бесплатную консультацию вы можете в офисе проектного бюро Тектоника, предварительно записавшись по телефону 8 (033) 377-02-50.

Что такое модернизация?

Перечень работ, которые выполняются при модернизации зданий и сооружений приведен в приложении «В» ТКП 45-1.04-206-2010*

Если вы найдете виды работ в этом перечне, то можно пойти путем модернизации, это не сложная процедура.

Если при модернизации не затрагиваются несущие конструкции, то прохождение Государственной экспертизы не требуется. Прохождение Государственной экспертизы при реконструкции является обязательным в любом случае, независимо от того, затронуты ли несущие конструкции здания или нет. ТКП 45-1.04-206-2010*

Самым распространенным примером модернизации в нашем проектном бюро является перепланировка помещений с изменением вентиляции, электроснабжения. Это когда в существующем объеме здания делается новая планировка. Такая потребность часто возникает в офисах, торговых центрах, когда арендаторы меняются и меняются их запросы. Приходится делать модернизацию объекта. В проектном бюро Тектоника вы можете заказать модернизацию объекта любого назначения начиная «под ключ», от получения всех разрешительных документов до ввода в эксплуатацию и получения нового технического паспорта.

Вот только несколько примеров наших работ.

Проектирование модернизации зданий и сооружений — Примеры проектов

Модернизация торгового объекта на рынке Раковский кирмаш

Торговый зал нужно было разделить на 2 независимых зала для разных арендаторов, убрать связь со смежными помещениями, расширить входную группу в противопожарной стене.

Торговый объект до модернизации

Торговый объект после модернизации

Модернизация объекта общественного питания кафе Dolce

Нужно было сделать доготовочную зону, изменить планировку обеденного зала, изменить санузлы.

Кафе до модернизации

Кафе после модернизации

Модернизация административного здания

Здание расположено по адресу ул. Смоленская в г. Минске. Нужно было изменить планировку по заданию заказчика, изменить систему вентиляции, электроснабжения.

Административное здание до модернизации

Административное здание после модернизации

Модернизация помещений стоматологии

Требовалось изменить планировку стоматологии, привести ее в соответствие с действующими нормами Минздрава РБ.

Стоматология до модернизации

Стоматология после модернизации

Больше примеров можно посмотреть по ССЫЛКЕ

Вы можете обратиться за бесплатной консультацией по этому вопросу по телефону 8 (033) 377-02-50

Техническая модернизация

С выходом Декрета №7 Президента, появился новый вид строительства Техническая модернизация. Техническую модернизацию можно выполнять без Решения администрации. Это самая простая процедура, в строительстве. Поэтому многие хотят пойти по пути Технической модернизации, но не всегда это возможно. Чтобы не было путаницы, МАиС дало разъяснения, что такое Техническая модернизация.

Например, нужно вам сделать систему вентиляции, для этой системы нужно сделать венткамеру с устройством перегородок. Вот такого типа работы называются Технической модернизацией. Перепланировка помещения – это не является технической модернизацией. Заказать проектирование технической модернизации вы можете у нас на сайте или по телефону 8 (033) 377-02-50.

Стоимость проектирования реконструкции или модернизации здания или нежилого помещения

С нежилыми помещениями и зданиями однозначного ответа нет, на это определение влияет много факторов, которые должны посмотреть специалисты. Вы можете обратиться к нашу организацию, за бесплатной консультацией, мы поможем вам грамотно составить название объекта, и выработаем направление по согласованию и проектированию реконструкции или модернизации, которое сэкономит ваше время и средства.

Реконструкция объектов строительства любой сложности

Реконструкция объектов строительства выполняется в двух основных направлениях. С одной стороны — это точное восстановление первоначального вида и назначения построек, которое проводится с применением современных материалов и коммуникаций. Данный вид работ необходим для строений, которые имеют культурно-историческую ценность. С другой стороны, мы выполняем реконструкцию зданий и с полным перевоплощением объекта, увеличением его размеров в высоту или ширину. В данном случае полностью переоборудуются коммуникации, укрепляется фасад и каркас здания, проводится замена кровли и прочие работы, которые повышают эксплуатационные характеристики объекта или даже меняют его назначение.

Полученный и накопленный за долгие годы опыт позволяет нашей строительной компании браться за реконструкцию строительных объектов любого типа и различной сложности. В ходе выполнения ремонтных работ повышается эффективность эксплуатации здания, улучшаются его технико-экономические показатели.

Реконструкция объектов строительства включает по желанию заказчика или при необходимости:

реорганизацию объекта;
капитальный ремонт;
изменение технических показателей;
изменение габаритов;
строительство мансардных этажей, пристроек, надстроек и переоборудование чердачного помещения;
усиление несущих конструкций и фундамента;
разборка несущих конструкций и части объекта;
замена инженерных систем и коммуникаций.

Реконструкция объектов строительства, как и любое капитальное строительство, начинается с составления проекта. Для того чтобы архитектор мог подобрать наилучший вариант выполнения поставленных перед ним задач, проводится первичный осмотр объекта. В любом случае мы отталкивается не только от условий, но и учитываем желания заказчика. Наша основная задача — это найти способ реализации потребностей заказчика в условиях и состоянии объекта, который бы соблюдал все нормы и стандарты качества и был максимально экономичен.

Почему для реконструкции объектов строительства выбирают нас:

мы гарантируем качество исполнения заказа и строгое соблюдение заключенного договора без нарушения сроков или увеличения договорной стоимости;
следим за строгим соблюдением норм и стандартов;
имеем широкий штат высококвалифицированных специалистов и оборудование для выполнения любых строительных и ремонтных работ;
налаженные взаимосвязи с производителями и прямыми поставщиками строительных материалов, что позволяет нам выполнять заказы, окончательная стоимость которых будет ниже, чем у большинства других компаний.

Заказывая реконструкцию объектов строительства у нас, вы можете быть уверены, что все работы будут проведены в предельно короткие сроки и с максимально высоким качеством.

Проектирование реконструкции зданий и сооружений – Проектсервис

Реконструкция здания – это особый вид строительных работ, результатом которых является изменение назначения, площади, вместимости и других параметров здания. Особенностью данного вида работ является необходимость учета текущего состояния здания, проложенных инженерных коммуникаций, наличия инфраструктуры и других параметров. Поэтому проектирование реконструкции зданий и сооружений входит в число наиболее сложных и ответственных услуг, требующих от исполнителя тщательной проработки всех аспектов, наличия опыта решения многоплановых задач. Компания «Проектсервис» обладает необходимым опытом и компетенцией для проектирования реконструкции объектов различного назначения – спортивных, промышленных, торговых, логистических, обеспечит полный комплекс услуг по проведению обследований и разработке технической документации.

Этапы проектирования реконструкции

Начальным этапом проектирования является обследование строительных конструкций и инженерных систем объекта. В ходе обследований устанавливается запас несущей способности конструкции, её устойчивости, определяется необходимость работ по усилению. Результатом обследований является разработка рекомендаций по дальнейшему проектированию, а полученные данные предоставляются в экспертизу в исходно-разрешительной документации.

В зависимости от объёма и сложности работ проектирование реконструкции здания состоит из нескольких стадий:

Подготовка эскизного проекта.
Подготовка технико-экономического обоснования. При необходимости проводится и архитектурно-историческое исследование.
Разработка рабочего проекта.
Подготовка рабочей документации.

Категория сложности объекта и этапы проектирования устанавливаются заказчиком. Поэтому возможна разработка проекта в три, два и даже один этап. При трехэтапном проектировании не требуется технико-экономическое обоснование, при двухэтапном – разрабатывается эскизный проект (или рабочий проект) и рабочая документация. При наличии технико-экономического обоснования возможно и одноэтапное проектирование, включающее подготовку рабочих документов.

Также, в случае необходимости, при проектировании реконструкции различных типов зданий и сооружений проводятся инженерные изыскания (геологические, геодезические, экологические), проводится подготовка документации для государственной или негосударственной экспертизы. Завершающим этапом является проведение авторского надзора за соблюдением проектных решений в ходе проведения строительных работ.

Особенности проектирования реконструкции зданий и сооружений

Все технико-экономические и финансовые расчеты, предусмотренные проектом реконструкции, производятся согласно требований СП 11-101-95 и СНиП 11-01-95. Основным документом на проектирование является технико-экономическое обоснование. Вся необходимая документация на реконструкцию разрабатывается на основании данного документа, требований бюджета, задания заказчика и результатов инженерных изысканий.

Особенностью проекта реконструкции сооружения является необходимость в проведение предварительного обследования объекта. Итогом обследования являются:

состав и предварительные объёмы работ;
условия для строительства;
этапы реконструкции;
сроки выполнения работ;
необходимые ресурсы и услуги.

При проведении предпроектного обследования производится оценка технического состояния зданий, инженерных систем и оборудования. Это является основанием для принятия решения об использовании, усилении, замене или ремонте строительных конструкций. Порядок проведения работ определяется технологической схемой, спецификой эксплуатации здания, а также условиями обеспечения его жизнедеятельности и другими параметрами.

Реконструкция 3D-объекта по несовершенным данным глубины с использованием расширенной сети YOLOv3

2.2. Алгоритм классификации и сегментации

Наша цель — обнаруживать отдельные экземпляры объектов в сцене, чтобы иметь систему, которую можно использовать в реальных средах. Следовательно, нам нужен классификатор, способный обнаруживать более одного экземпляра объекта для данного кадра, например, наличие двух чашек и игрушечного самолета на столе потребует от нас перестроить модели как чашек, так и игрушечных самолетов соответственно. .К счастью, некоторые исследования уже были выполнены в области классификации экземпляров отдельных объектов [44,45,46].

По этой причине для выполнения нашей задачи классификации мы используем один из существующих современных классификаторов, поскольку он показал одни из лучших результатов в задачах классификации, то есть YOLOv3 [47], который у нас есть адаптированы к нашим потребностям для вывода дополнительной маски геометрической сегментации (), в то время как авторы упоминали, что не смогли добиться сегментации экземпляра объекта в своей исходной статье.Кроме того, мы определяем термин геометрическая сегментация как расширение сегментации, которое позволяет различать экземпляры близлежащих объектов. Это делается путем создания свечения тепловой карты, которое исходит от источника объекта. Хотя существуют другие более легкие методы, такие как MobileNet [48], в нашей статье мы пытаемся сравнить результаты классификации, используя три разных метода: используя только информацию о цвете; использование только информации о глубине; используя информацию как о цвете, так и о глубине.Поэтому мы решили использовать более медленный, но более точный алгоритм, чтобы получить наиболее репрезентативные результаты.

Как и большинство алгоритмов классификации отдельных экземпляров объекта, YOLOv3 использует так называемые привязки для обнаружения объектов. Эти якоря используются в качестве прыжков с ограничивающих рамок при классификации объектов, например, автомобиль имеет профиль, сильно отличающийся от профиля баскетбольного мяча. В то время как баскетбольный мяч в большинстве случаев имеет ограничивающую рамку с соотношением сторон 1: 1, что означает, что их ширина такая же или очень близка, когда изображение искажено, к его высоте, в то время как автомобиль, такой как автомобиль, по большей части имеет высота меньше его ширины.По этой причине один якорь может специализироваться на обнаружении автомобилей, а другой — на обнаружении баскетбольных мячей. Дополнительная функция, хотя и менее полезная из-за того, как создается наш набор данных для обучения и тестирования, — это спецификация масштабов ограничивающей рамки, разработанная авторами YOLOv3 . Эти специализации по размеру группируют ограничивающие прямоугольники в три группы: маленькие, средние и большие. Например, маленькие объекты могут включать кухонную утварь, средние объекты могут включать людей, большие объекты могут включать автомобили.Однако эти группы ограничивающих рамок не являются исключением для этих объектов, в отличие от якорей, поскольку они могут сильно различаться в зависимости от расстояния камеры от объекта. Следовательно, поскольку наш набор данных полностью однородно генерирует масштабы объектов, эта группировка теряет часть своей полезности.

В нашей работе мы экспериментировали с тремя типами входных данных в ИНС: цветовое пространство, поле глубины объекта спереди назад и их комбинацию. В случае цветового пространства мы используем 3 входа канала для представления красного , зеленого , синего цветов; при использовании поля глубины мы используем одноканальный вход, содержащий только нормализованные значения поля глубины, а для их комбинации мы используем каналов RGBD по тому же принципу.Нормализация значения глубины выполняется путем деления каждого пикселя z значения с использованием zmax кадра, таким образом устанавливая глубину в диапазоне z = [0,1]. После этого наш входной уровень подключается к сети DarkNet53 , содержащей 53 сверточных слоя в соответствии со спецификациями, которая выводит три маршрута: основной маршрут , , обычно используемый для более крупных объектов, маршрут 2 , используемый для объектов среднего размера и, наконец, маршрут . 1 для небольших объектов. Из-за того, что набор для тестирования генерируется равномерно случайным образом и содержит один и тот же объект потенциально во всех категориях размеров, мы теряем часть гибкости, обеспечиваемой этой настройкой, и она минимально влияет на производительность классификации, если ее удалить.Однако, чтобы остаться верным исходному алгоритму и получить максимально объективный результат, мы решили сохранить все ветви, используемые в исходном материале. Кроме того, эти три маршрута являются хорошей отправной точкой для использования ярлыков в нашем расширении сегментации ().

Предлагаемое нами расширение сегментации геометрических объектов.

Поскольку каждый из ближайших маршрутов разделен масштабом степени двойки, мы используем транспонированный сверточный слой [49], чтобы постепенно масштабировать их, а затем объединить их в желаемую окончательную матрицу формы.Мы создаем нашу бесклассовую маску геометрической сегментации, сначала увеличивая масштаб выходного сигнала основного маршрута и объединяя его с маршрута 2 , а затем полученный слой снова масштабируется и объединяется с окончательным выходом DarkNet ( маршрут 1 ), который обеспечивает Мы используем слой, содержащий скрытую информацию обо всех предыдущих слоях, каждый из которых задан для изучения объектов разного размера.

Затем мы разветвляем полученные скрытые узлы на четыре разных уровня.Каждый слой содержит немного отличающуюся конфигурацию сети, что позволяет им по существу голосовать за свое влияние на конечный результат, извлекая различные скрытые карты функций из предыдущих слоев (). Первые три ветви ( A, B, C ) являются сверточными ветвями, содержащими один, два и три сверточных слоя соответственно. Однако для нашей последней ветви ( D ) вместо сверточного слоя мы используем слой максимального пула для извлечения наиболее заметных функций. Мы выбрали этот параллельный наборный подход, потому что мы обнаружили, что он более эффективен при извлечении масок объекта, чем линейно наложенные слои при обучении слоев сегментации независимо от модели в целом.Такое отделение задачи сегментации от задачи классификации при обучении дает дополнительное преимущество, позволяя нам использовать трансферное обучение, которое, как было показано, дает очень хорошие практические результаты [50].

Таблица 1

Архитектура геометрической сегментации.

	Тип	Фильтры	Размер	Выход
Главный маршрут	Транспонированная свертка	1024	2 × 2 × 2	20 × 20
	Объединить	—	—	20 × 20
	Свертка	256	1 × 1	20 × 20
Маршрут 2	Транспонированная свертка	256	2 × 2 × 2	40 × 40
	Объединить	—	—	40 × 40
	Свертка	256	1 × 1	40 × 40
	Высокий	—	—	160 × 120
Ветвь A	Свертка	128	1 × 1/2	80 × 60
Ветвь B	Свертка	32	1 × 1	160 × 120
Ветвь B	Свертка	128	1 × 1/2	80 × 60
Ветвь C	Свертка	32	1 × 1	160 × 120
	Свертка	128	2 × 2	160 × 120
	Свертка	256	3 × 3/2	80 × 60
Филиал D	Максимальный бассейн	256	3 × 3/2	80 × 60
	Конкатенация	—	—	80 × 60
	Свертка	256	1 × 1	80 × 60
	Свертка	128	1 × 1	80 × 60
	Свертка	1	1 × 1	80 × 60
	Значения зажима	—	—	80 × 60

Затем мы пропускаем наши объединенные ветви через сверточные слои, чтобы извлечь наиболее жизнеспособные функции и нормализовать их вывод в диапазоне (0, 1), давая нам окончательное изображение сегментации.В нашем случае конечный результат сегментации составляет 80 × 60, потому что этого более чем достаточно для извлечения приблизительных масок глубины, поскольку нам не требуются идеальные по пикселям представления сегментов. Наконец, мы используем каскадную заливку (алгоритм 1) для классификации масок по пикселям. Это сделано потому, что мы обнаружили, что сгенерированные двоичные маски невосприимчивы к ложным срабатываниям и ложным отрицаниям, в отличие от классификации с использованием ограничивающих рамок, которые могут иметь три типа ошибок: ложные срабатывания, ложные отрицания и неправильная классификация.Это позволяет нам удалить ложные срабатывания обнаружения ограничивающей рамки, когда они не пересекают исходную точку маски. В нашем тестовом наборе лучшие параметры каскада были ϵ = 0,9, θ = 0,01.

Кроме того, мы также модифицировали сеть YOLOv3 , поскольку у нас были проблемы с невозможностью обучения сети из-за постоянного падения в локальные минимумы во время градиентного спуска и постоянного застревания в них.Для решения этой проблемы мы ввели периодические гиперпараметры [51] во время обучения модели. В частности, мы изменили скорость обучения на чередование в указанном диапазоне lrmin = 1e − 6, lrmax = 1e − 4.

y (x) = xw1 × (lrmax − lrmin) + lrmin, еслиx

(1 )

Эта периодическая скорость обучения (уравнение (1)) значительно улучшила способность наших моделей изучать лежащие в основе взаимосвязи входной даты путем чередования низких и высоких скоростей обучения, таким образом выскакивая из потенциальных локальных минимумов, которые могут начать вращаться во время стохастический градиентный спуск.Наша функция состоит из двух этапов: первый этап состоит из двух итераций обучения, где w1 = 2 × s, и второй этап из 4 итераций, где w0 = 4 × s, где с — количество шагов в пакете. Мы выбрали функцию обучения с двумя состояниями, потому что изначально высокая скорость обучения может привести к расхождению модели. Поэтому на первом этапе мы линейно увеличиваем скорость обучения. На втором этапе мы используем функцию косинуса и оператор модуля для изменения модели между двумя значениями.Форма переменной функции также может иметь влияние на сходимость модели, поскольку некоторые модели требуют, чтобы они находились в разных точках экстремума в течение разного количества раз. Следовательно, наличие другого набора данных может потребовать более точной настройки параметров этого уравнения для разных форм уклона, при этом сохраняя преимущества наличия переменных скоростей обучения.

Кроме того, когда мы обучаем NN с нуля, мы заметили, что наша сеть, несмотря на то, что мы могли найти лучшие результаты сходимости из-за периодических скачков скорости обучения за локальные минимумы, имела высокий коэффициент смещения.Высокий уровень смещения — это показатель того, что наша модель чрезмерно соответствует нашему набору данных. Чтобы решить эту дополнительную проблему, мы модифицировали сеть YOLOv3 , добавив дополнительные слои отсева с коэффициентом отсева P (x) = 0,5 после каждой ветви DarkNet53 и перед каждым из последних слоев, предсказывающих ограничивающие рамки.

Кроме того, у нас были проблемы с переобучением модели для обучающего набора, для решения этой проблемы мы дополнительно модифицировали нейронную сеть, добавив два дополнительных слоя исключения.Мы обучили нашу модель 6 раз, каждая с 50 итерациями, используя мини-пакет размером 8 для сравнения, потому что примерно после 50 итераций стандартная модель YOLOv3 начинает переоснащаться и терять точность с нашим набором данных проверки. Поэтому для наиболее объективного сравнения мы обучили нашу модифицированную сеть за такое же количество эпох. Обратите внимание, что даже несмотря на то, что наш метод также начинает переобучаться, в отличие от сетевой модели YOLOv3, точность нашей модифицированной модели при переобучении остается примерно на том же значении, из которого мы можем сделать вывод, что изменения делают модель более стабильной.

показывает различия в функции потерь при обучении с использованием данных RGB, RGB-D и глубины в качестве входных. Для немодифицированного YOLOv3 мы используем lr = 1e-5 в качестве средней точки между минимальной и максимальной скоростью обучения в функции скорости периодического обучения. Как видно из графика, функция потерь, использующая статическую скорость обучения для наборов данных RGB и RGB-D, достигает локального минимума, в результате чего модель замедляет свою способность изучать новые функции, в отличие от нашей периодической скорости обучения, которая, кажется, временно вынуждает модель выходит за пределы своей цели, что иногда приводит к ее попаданию в лучший локальный минимум.Этот эффект можно увидеть в отчетливых пиках и спадах на графиках. Выбросы на этих графиках представляют собой точки данных только для глубины. Хотя в обоих случаях функция потерь кажется ниже и имеет лучшую нисходящую траекторию при стохастическом спуске, однако мы заметили, что, несмотря на кажущиеся меньшие потери по сравнению с RGB и RGB-D, фактическая точность модели очень нестабильна в зависимости от эпохи за один период. основа эпохи. Мы утверждаем, что это так из-за одной только глубины, обеспечивающей очень нестабильные данные, которые очень трудно интерпретировать.Мы делаем это предположение из-за того факта, что даже когда мы принимаем эксперта для оценки только карт глубины, обычно очень трудно определить, какой это тип объекта, не зная его текстуры; можно только сказать, что в кадре действительно есть объект. Наконец, мы видим, что данные RGB-D являются явным победителем при обучении в обоих случаях, а это означает, что данные глубины действительно могут помочь в обобщении модели.

Сравнение потерь при обучении между базовым уровнем YOLOv3 и нашей модифицированной версией при использовании данных RGB, RGB-D и глубины в качестве обучения.Из-за того, что функция потерь по своей природе зашумлена для каждого из мини-пакетов, мы использовали цифровой фильтр Савицкого-Голея [52] для выполнения сглаживания всего графика.

2.3. Алгоритм реконструкции

Предлагаемый алгоритм реконструкции трехмерного объекта состоит из двух подсистем: реконструкции воксельного облака и постобработки (). На этапе реконструкции мы берем выходные данные маски 3D-классификатора для объекта и вместе с исходной картой глубины, которую мы вводим в нашу реконструктивную ИНС (), которая выполняет задачу реконструкции объекта для данного замаскированного входного кадра.В отличие от алгоритма классификации, мы используем только входные данные глубины от классификатора, поскольку он предоставляет достаточно информации для реконструкции конкретного объекта. Это связано с тем, что мы уже знаем класс объекта, который требуется для классификации, поскольку разные объекты могут иметь очень похожие представления глубины. Однако во время реконструкции это не проблема, потому что наша ИНС спроектирована таким образом, что каждая ветвь отвечает за восстановление подобных представлений объектов.

Процесс восстановления объекта по данным датчиков.

Схема разветвления сетевой архитектуры реконструкции отдельного объекта. Для заданного кадра глубины кодер глубины создает узкое место, которое затем напрямую подключается к узлу VAE, а результирующий сэмплер подключается к воксельному декодеру. Слой декодера вокселей выводит матрицу 32 × 32 × 32 × 2, которую можно объяснить как x × y × z × s, где компонентов x, y, z указывают положение в трехмерной сетке, а компонент s указывает состояние вокселя. закодировано как одноразовое.

После того, как ветвь классификатора-сегментации завершила свою задачу, для каждого экземпляра объекта выбирается соответствующим образом обученная ветвь реконструкции. В нашем случае все ветви узкоспециализированы на одном типе объекта, который он может реконструировать, поэтому требуется классификация объектов. Однако мы считаем, что нет никаких препятствий для создания более общих ветвей реконструкции объектов, например, все похожие объекты могут быть сгруппированы в одну задачу реконструкции. Это потенциально могло бы позволить некоторые упрощения в классификации-сегментации, поскольку больше не требовалось бы классифицировать экземпляры очень специфических объектов, тем самым снижая частоту отказов, вызванных сходством объектов.Например, чашка и корзина могут быть очень похожими объектами и ошибочно классифицироваться. Кроме того, гибридизация позволяет выполнять точную настройку ветвей реконструкции без необходимости переобучать всю модель нейронной сети, потенциально теряя уже существующие градиенты из-за онлайн-обучения, смещая результаты в сторону новых данных. Это, в свою очередь, сокращает время повторного обучения, если для конкретного объекта предоставляются новые точки данных, поскольку нам больше не нужно прикасаться к установленным ветвям из-за модульности.

Внутри нашей ветки сети реконструкции () для входных данных заданной глубины мы используем сверточные слои, чтобы уменьшить размерность входного изображения на этапе кодирования (см.). Для заданных входных данных мы создаем сверточный слой узкого места, который извлекает 96 объектов, после чего мы используем пространственный 2D-слой исключения [53] перед каждым с P (x) = 0,1 для улучшения обобщения. Мы используем пространственное исключение, поскольку это показано для улучшения обобщения во время обучения, поскольку оно снижает влияние сильной корреляции соседних пикселей в картах функций.После этого мы добавляем дополнительный начальный [54] слой (), который мы будем использовать в качестве остаточного блока [55], за которым следует еще одно пространственное исключение. После этого мы добавляем два дополнительных остаточных слоя узких мест, за каждым из которых следуют дополнительные отсеивания. С окончательной сверткой, дающей нам окончательные 256 функций с разрешением 20 × 15. Наш последний слой кодировщика подключен с помощью полностью подключенного уровня к вариационному автокодеру [56], содержащему 2 скрытых измерения, поскольку вариационные автокодеры продемонстрировали большие возможности в генеративных задачах. .Наконец, слой выборки соединяется с полносвязным слоем, который затем распаковывается в матрицу 4 × 4 × 4. Мы используем транспонированные трехмерные сверточные слои для выполнения повышающей дискретизации. Это делается дважды, что дает нам 4 карты характеристик в воксельном пространстве 32 × 32 × 32. До этого момента мы использовали Linear Rectified Units [57] (ReLU) для нашей функции активации, однако для нашего последнего трехмерного сверточного слоя мы используем функцию softmax для нормализации ее выходных данных, где каждый воксель содержит два нейрона.Один нейрон показывает уверенность в том, что он включен, другой нейрон показывает уверенность в том, что нейрон выключен. Это переключает задачу с задачи регрессии на задачу классификации, что позволяет нам использовать категориальную перекрестную энтропию для измерения потерь между прогнозируемым значением и нашей базовой истиной.

Пример начального слоя. Входной слой подключается к трем ветвям параллельно. Если используется несколько начальных слоев, начальные слои подключаются последовательно.Окончательные выходы начального слоя и свертка 1 × 1 затем соединяются с использованием сложения. Затем результат используется для последующих слоев.

Таблица 2

Архитектура реконструкции нейронной сети.

Алгоритм 1 Каскадная заливка
1: процедура GET_SEED (поле, маска, ϵ)	▹ Задает исходные значения.
2: cx, cy ← box	▹ Получить центр коробки.
3: seed ← ∅
4: seed ← find_closest_max (прямоугольник, маска)	▹ Найти ближайший максимальный пиксель в пределах границ.
5: если seed ≠ ∅∧seedvalue≥ϵ , затем
6: seedid ← boxid	▹ Установить идентификатор семян в поле id
7: return seed	▹ Вернуть начальное число, если значение больше ϵ
8: end if
9: return ∅	▹ Действительных семян не найдено.
10: окончание процедуры
11: процедура FILL_NEIGHBOURS (начальное число, θ)	▹ Рекурсивно заполнять свободные ближние черты одинаковыми или меньшими значениями.
12: для каждого n∈seedneightbours do	▹ Для каждого соседнего пикселя маски.
13: если nid = ∅∧nvalue≤seedvalue∧nvalue> θ , затем
14: nid ← seedid	▹ Установить для соседа тот же идентификатор, что и для seed.
15: FILL_NEIGHBOURS (n)	▹ Вызов рекурсивно.
16: end if
17: end for
18: end procedure
19: bounding_boxes ← sort_confidence (bounding_296) ▹ Сортировка ограничивающих рамок по степени достоверности.
20: для каждого box∈bounding_boxes do	▹ Для каждого ограничивающего прямоугольника b
21: seed ← GET_SEED (прямоугольник, ϵ)
22: if семя ≠ ∅ , затем
23: FILL_NEIGHBOURS (семя, θ)
24: конец, если
25: конец для

	Тип	Фильтры	Размер	Выход
	Ввод	—	—	320 × 240
Кодировщик	Свертка	96	5 × 5/2	160 × 120
	Выпадение 2D P (x) = 0.1	–		160 × 120
	Начало	(8, 4)	—	160 × 120
	Свертка	16	1 × 1	160 × 120
	Добавить	—	—	160 × 120
	Свертка	128	5 × 5/2	80 × 60
	Выпадение 2D P (x) = 0,05	—		80 × 60
	Начало	(8, 4)	—	80 × 60
	Начало	(16, 8)	—	80 × 60
	Свертка	32	1 × 1	80 × 60
	Добавить	—	—	80 × 60
	Свертка	128	3 × 3/2	40 × 30
	Выпадение 2D P (x) = 0.025	–		40 × 30
	Начало	(8, 4)	—	40 × 30
	Начало	(16, 8)	—	40 × 30
	Начало	(32, 16)	—	40 × 30
	Свертка	64	1 × 1	40 × 30
	Добавить	—	—	40 × 30
	Свертка	256	3 × 3/2	20 × 20
VAE	Flatten	—	—	76 800
	Полностью подключенный	—	—	512
	Среднее значение	—	—	2
	Стандартное отклонение	—	—	2
	Выборка	—	—	2
Декодер	Полностью подключен	—	—	64
	Изменить форму	—	—	4 × 4 × 4
	Начальная 3D	(32, 16)	—	4 × 4 × 4
	Начальная 3D	(16, 8)	—	4 × 4 × 4
	Начальная 3D	(8, 4)	—	4 × 4 × 4
	Свертка 3D	16	1 × 1 × 1	4 × 4 × 4
	Добавить	—	—	4 × 4 × 4
	Транспонированная конвенция 3D	64	3 × 3 × 3 × 2	8 × 8 × 8
	Начало 3D	(16, 8)	—	8 × 8 × 8
	Начало 3D	(8, 4)	—	8 × 8 × 8
	Свертка 3D	16	1 × 1 × 1	8 × 8 × 8
	Добавить	—	—	8 × 8 × 8
	Транспонированная конвенция 3D	32	3 × 3 × 3 × 2	16 × 16 × 16
	Начальное 3D	(8, 4)	—	16 × 16 × 16
	Свертка 3D	16	1 × 1 × 1	16 × 16 × 16
	Добавить	—	—	16 × 16 × 16
	Транспонированная конвенция 3D	4	5 × 5 × 5 × 2	32 × 32 × 32
	Свертка 3D (Softmax)	2	3 × 3 × 3	32 × 32 × 32

2.5. Набор данных

Поскольку наш метод влечет за собой требование априорной информации для реконструкции захваченного объекта, существует потребность в большом, хорошо маркированном наборе данных элементов. Однако, в отличие от распознавания объектов, которое имеет несколько наборов данных, например, COCO [58] набор данных, Pascal VOC [59]; похоже, что отсутствуют какие-либо общедоступные наборы данных, которые обеспечивают представление сцены RGB-D в дополнение к полностью отсканированной информации облака точек, пригодной для нашего подхода. Хотя существуют наборы данных, такие как ScanNet [60], в них отсутствуют более тонкие детали объекта из-за того, что сканирование сосредоточено на полном восприятии помещения, которое мы пытаемся сохранить.Таким образом, наши обучающие данные состоят исключительно из синтетически сгенерированных наборов данных, которые используют ShapeNetCore , подмножество набора данных ShapeNet , который предоставляет модели 3D-объектов, охватывающих 55 категорий (см. Пример модели чашки кофе в). Кроме того, мы используем реальные данные, полученные с помощью устройств Intel Realsense ZR300 и Intel Realsense D435i (Intel Corp., Санта-Клара, Калифорния, США) для визуальной проверки, поскольку их невозможно измерить объективно, не имея 3D-художник воссоздает копию указанных объектов в масштабе 1: 1, что, к сожалению, нереально.Однако использование реальных образцов в качестве набора для проверки не вызывает систематической ошибки обучения, поскольку они никогда не используются в процессе обучения.

Модель кофейной чашки из набора данных ShapeNetCore .

Как уже упоминалось, для обучения модели черного ящика мы используем набор данных ShapeNetCore , который мы подготовили с помощью Blender [61] для создания соответствующих наборов данных. В связи с тем, что мы обучаем гибридную нейронную сеть, нам нужны два отдельных набора для обучения и тестирования, по одному для каждой задачи.

2.5.1. Набор данных классификации

Для создания этого подмножества данных мы создаем случайные сцены, выполняя следующую процедуру. Во-первых, мы случайным образом решаем, сколько объектов мы хотим иметь в сцене в диапазоне nobjects = [1; 10), и выбираем это количество случайных объектов из набора данных ShapeNetCore для заполнения сцены. Перед применением любых внешних преобразований мы трансформируем геометрию объекта, чтобы все объекты имели одинаковый масштаб и имели одинаковую точку поворота.Для выполнения необходимых преобразований сначала вычисляем геометрические размеры. Как только мы узнаем размеры объекта, мы можем переместить все объекты по оси вверх на (в нашем случае это z ) и уменьшить все вершины по наибольшей оси (алгоритм 2). Это дает нам нормализованную геометрию с равномерным масштабом, которую мы можем свободно использовать.

Алгоритм 2 Нормализация геометрии
1: процедура Экстенты ( G )	▹ Вычисляет экстенты для геометрии G
2: minx, miny, minz ← Infinity	▹ Инициализировать минимальный вектор
3: maxx, maxy, maxz ← −Infinity	▹ Инициализировать максимальный вектор
4: для каждого v∈G do	▹ Для каждой вершины v
5: minx ← min (vx, minx)
6: miny ← min (vy, miny)
7: minz ← min (vz, minz)
8: maxx ← max (vx, maxx)
9: maxy ← max (vy, maxy)
10 : Maxz ← max (vz, maxz)
11: конец для
12: возврат мин, макс
13: процедура завершения
14: мин, макс ← EXTENTS (G)
15: границы ← макс − мин
16: max_bound ← 1 / max (boundsx, boundsy, boundsz)
17: для каждого v∈G do	▹ Для каждой вершины v
18: vx ← vx / max_bound
19: vy ← vy / max_bound
20: vz ← ( vz − minz) / max_bound	▹ Смещаем вершину по оси вверх на до границ нормализации
21: end для

Мы размещаем выбранные объекты со случайными матрицами трансформации в сцене, делая уверен, что объекты никогда не будут перекрывать друг друга в пространстве.Чтобы сгенерировать случайную матрицу локального преобразования ( L ) (уравнение (3)), нам понадобятся три ее компонента: масштаб ( S ), вращение (Rz) и со случайным значением; используйте заглавные или строчные буквы s в обоих местах в диапазоне s = [0,7,2); Вращение (Rz), где вращение — случайное значение в диапазоне θ = [0,2π), мы выполняем вращение только по оси z , чтобы гарантировать, что случайно сгенерированные сцены реалистичны и не требуют вмешательства художника; Преобразование ( T ), где значения x и y являются непересекающимися значениями в диапазоне r = [- 5,5] и α = [0,2π) (уравнение (2)).

L = S × R × T = s0000s0000s00001 × cosθ − sinθ00sinθcosθ0000000001 × 000000000000xyz1

(3)

После размещения объектов выбора нам нужно применить освещение, чтобы окружение выглядело как в реальной жизни. Для этого мы используем модель затенения Ламберта и направленные источники света. Мы случайным образом генерируем nlights = [1; 4) источников света в сцене. Мы выбираем случайное вращение света, мы игнорируем перенос, поскольку он не имеет значения для направленных источников света; мы генерируем случайный цвет в диапазоне ColRGB = [0.7,1], мы выбрали минимальную границу 0,7, чтобы избежать нереалистичных реальных молний; и случайная интенсивность I = [0,7,1]. Этот свет действует как наш ключевой свет. Чтобы избежать создания жестких теней, чего не было бы, если не использовать прожектор в реальном мире, для каждого ключевого источника света мы создаем фоновую подсветку, которая направляет противоположное направление основного света с половинной интенсивностью и идентичным цветом ключевому свету.

После завершения настройки сцены мы визуализируем сцену в трех режимах: цвет , глубина и маска .Цветовой режим дает нам изображение сцены с камеры с обычным световым спектром. Поскольку мы не помещаем никаких фоновых объектов в сцену, сгенерированный фон черный. Однако позже мы используем аугментацию во время обучения, чтобы переключать фон, чтобы улучшить скорость запоминания. Как только цветная рамка извлечена, мы извлекаем маску, чтобы извлечь маску, мы назначаем каждому объекту инкрементный ID , начиная с 1, это позволяет нам различать объекты в кадре. Наконец, мы визуализируем глубину сцены.Перед рендерингом глубины мы помещаем плоскость на землю, которая действует как наша точка земли, это позволяет получить более реалистичное представление глубины, потому что объекты больше не , плавающие в пространстве . Глубина отображается спереди назад, что означает, что чем ближе объект к камере, тем ближе значение глубины к нулю, была выбрана модель спереди назад, потому что она такая же, как модель Intel Realsense .

Каждая из сцен визуализируется с разрешением 320 × 240 n = 25 раз путем размещения ее в случайных местах (алгоритм 3) и направления ее в центр сцены, где r = 10, zmin = 4, zmax = 6.

1 Мы сохраняем перспективы в формате OpenEXR [62] вместо традиционных форматов изображений вместо, например, PNG , поскольку формат файла OpenEXR является линейным, что позволяет сохранить весь диапазон глубин без какой-либо потери информации, поскольку он не ограничивается 32 битами на пиксель.В окончательном файле EXR есть эти каналы: R , G , B , содержащие информацию о красном, зеленом и синем цвете соответственно; id канал содержит информацию о маске для конкретного пикселя; Z информация, содержащая данные линейной глубины.

После создания входного изображения мы дополнительно маркируем данные и извлекаем маску сегментации, которая будет использоваться в качестве выходных данных при обучении искусственной нейронной сети. Мы выполняем этот шаг после рендеринга сцены, чтобы учесть любой вид окклюзии, который может произойти, когда объекты находятся друг перед другом, вызывая их перекрытие.Мы извлекаем ограничивающие рамки объекта, находя самый верхний левый и нижний правый пиксели маски. Двоичная маска извлекается на основе квадратного расстояния пикселя от центра ограничивающей рамки. Это означает, что центральные пиксели ограничивающей рамки полностью белые и чем ближе к краям, тем темнее становится. Мы используем неплоскую сегментацию, чтобы иметь возможность экстраполировать отдельные экземпляры объектов в маске, когда они перекрываются, и это делается путем интерполяции интенсивности пикселей от края ограничивающего прямоугольника до центра ограничивающего прямоугольника.Затем маска масштабируется до разрешения 80 × 60 , поскольку обычно этого достаточно и сокращаются требуемые ресурсы.

2.5.2. Выбор якоря

Существующие якоря, которые используются с COCO , Pascal VOC и другими наборами данных, не подходят для нашего набора данных, редко вписываются в них. Поэтому мы провели анализ данных класса и выбрали три наиболее подходящих якоря для каждой шкалы ветвей классификатора. Как мы видим, наши классы обычно имеют тенденцию к соотношению сторон 1: 1 из-за того, что набор данных генерируется случайным образом, в отличие от реальных приложений.

Каждая отдельная точка обозначает средний масштаб ограничивающего прямоугольника объекта для каждого типа класса.

Однако, хотя классы имеют тенденцию быть смещенными в сторону 1: 1 по большей части, утверждение, что все отдельные экземпляры объектов будут аккуратно вписываться в это соотношение сторон, было бы неверным, поскольку они все еще сохраняют определенное смещение. Согласно предыдущему исследованию Single Shot Detection (SSD) [63], выбор неадекватных базовых якорных ящиков может негативно повлиять на процесс обучения и привести к переобучению сети.Поэтому мы выбрали 3 привязки на размер привязки, поскольку это, кажется, достаточно покрывает весь масштаб ограничивающей рамки, включая высокие, широкие и прямоугольные объекты. Мы выбираем опорные точки, используя K-Means , чтобы разделить данные на 9 отдельных групп ().

Выбранные якоря с использованием алгоритма кластеризации K-средних . Разные цвета обозначают отдельные группы привязок, отвечающие за обнаружение объектов в развороте.

Когда у нас есть точки кластера для обнаружения ограничивающей рамки, мы сортируем их, чтобы сгруппировать в малые, средние и большие наборы привязок.Дает нам три разных якоря, каждый из которых имеет самые популярные соотношения сторон для каждой ветви определения масштаба, как это видно на.

Таблица 3

Масштаб привязки в пикселях, рассчитанный с использованием метода кластеризации K-средних .

Алгоритм 3 Расположение камеры

1:
step_size ← 2π / (1 − n)
2:
для i
do do
3:
θ ← random (i, i + 1) ▹ Случайное число с плавающей запятой в диапазоне [i, i + 1]
4:
x ← cos (step_size × θ) × r
5:
y ← sin (step_size × θ) × r
6:
z ← random (zmin, zmax)
7:
конец для

62 6 Средний 8635, 46,02

Тип анкера	Анкер 1	Анкер 2	Анкер 3
Малый	18,83, 47,53	52,34, 37,53	34,13, 73,28
62,74, 68,31	62,75, 102,19
Большой	96,69, 84,20	103,66, 119,51	136,34, 146,64

Архитектура нейронной сети, описанная в разделе 2.2, была обучена в трех отдельные режимы, чтобы сделать вывод о том, насколько дополнительная информация о глубине улучшает результаты классификации. Эти три режима состоят из режимов обучения RGB, RGB-D и глубины. Если режим RGB подразумевает, что мы обучаемся, используя только информацию о цвете, которая была сгенерирована из набора данных, режим RGB-D использует информацию о глубине и цвете, и, наконец, режим глубины обучает сеть, используя только информацию о глубине.Мы не используем никакого дополнительного увеличения данных при обучении в режимах RGB и RGB-D. Однако мы добавляем дополнительные улучшения при обучении в режиме RGB-D. При обучении в режиме RGB-D есть небольшая вероятность, что канал RGB или Depth не будет включен в тестовый образец. Мы выполняем это увеличение, потому что и камера RGB, и датчики глубины могут потенциально иметь недопустимые кадры. Поэтому мы утверждаем, что обе эти точки данных в равной степени необходимы для задачи классификации, и что они должны быть обобщены отдельно друг от друга и должны обеспечивать равный вклад в задачу классификации.Это выбирается случайным образом при подготовке мини-пакета для отправки в искусственную нейронную сеть для обучения. Существует вероятность λ = 0,1, что конкретная входная точка данных будет выбрана для дополнительного увеличения. Если точка данных выбрана для увеличения, существует равная вероятность того, что данные RGB или глубины будут стерты из ввода и заменены нулями. Мы выбрали этот подход к увеличению, потому что кадры RGB и глубины с использованием реальных датчиков подвержены ошибкам. Например, камера RGB может выйти из строя при плохом освещении или даже быть недоступной, когда в комнате темно.Точно так же кадры глубины также подвержены ошибкам из-за несоответствий в создании карты глубины, что приводит к тому, что датчик создает эффект пятен в информации о глубине, кроме того, камеры, находящиеся слишком близко к объекту, могут быть полностью неспособны извлечь правильную информацию о глубине. Поэтому мы выбрали этот подход расширения, поскольку он позволяет датчикам работать в тандеме, когда доступны оба, но заполнять пробелы, когда один из них не может предоставить точную информацию.

2.5.3. Набор данных реконструкции

Для обучающего набора реконструкции мы используем тот же набор данных ShapeNetCore для создания соответствующих изображений глубины и истинности земли для отдельных воксельных облаков объектов. Мы использовали Blender для генерации обучающих данных. Однако сгенерированные входные данные отличаются. Мы утверждаем, что материал объекта не влияет на форму объекта, поэтому мы больше не генерируем цветовую карту, в отличие от данных классификации.Поэтому мы отображаем только информацию о глубине для каждого объекта. Мы визуализируем отдельные объекты, размещая камеры таким образом, чтобы конкретный объект был виден под всеми углами от 45 ° до 90 ° на расстоянии от 1 до 1,5 м, исключая низ. В результате у нас есть 48 перспектив для каждой из объектных моделей. Еще раз сохраняем модели как файл OpenEXR , чтобы сохранить значения глубины в этом формате без потерь. Наконец, мы генерируем представление воксельного облака [64].Вокселизация выполняется путем разделения на ячейки одинакового размера, где размер ячейки выбирается на основе оси наибольшего размера объекта. После разделения пространства мы повторяем для каждой из ячеек и вычисляем, должна ли конкретная ячейка быть заполнена пересечением луча и многоугольника [65].

производительность двух новых фреймворков на основе облегченных архитектур CNN и произвольной деформации сеток

Аннотация

В компьютерном зрении реконструкция объекта — это задача определения трехмерной формы объекта на основе одного или нескольких двухмерных изображений.Для этой цели наиболее распространенные фреймворки используют сетки вокселей и облака точек. Однако у обоих этих подходов есть серьезные ограничения. С одной стороны, вычислительные затраты на использование вокселей увеличиваются в кубическом масштабе по мере увеличения разрешения вокселей. Поэтому при реконструкции трехмерных объектов обычно устанавливается низкое разрешение. С другой стороны, облака точек неструктурированы по своей природе, и правильное определение поверхностей и контуров является сложной задачей. В этом исследовании реконструкция 3D-объекта выполняется с применением деформаций произвольной формы на ранее существовавших 3D-сетках посредством двух основных процессов обучения: выбора шаблона и деформации шаблона.Такой подход позволяет создавать высококачественные реконструкции трехмерных объектов с меньшими вычислительными затратами. Конкретно, разработаны и протестированы две новые облегченные модели CNN: многоцелевой обучающийся (Модель A) и обучающийся глубинной информации (Модель B). Согласно результатам, производительность многоцелевого учащегося в отношении выбора шаблона была примерно в три раза лучше (меньшая ошибка), чем в базовой архитектуре, что улучшило качество трехмерных реконструкций, тогда как учащийся с глубинной информацией показал многообещающие результаты. при реконструкции объектов сложной геометрии.Также исследуется неотъемлемая проблема использования расстояния фаски в качестве меры потерь.

Страница не найдена

К сожалению, страница, которую вы искали на веб-сайте AAAI, не находится по URL-адресу, который вы щелкнули или ввели:

https: // www.aaai.org/papers/symposia/fall/2004/fs-04-06/fs04-06-015.pdf

Если указанный выше URL заканчивается на «.html», попробуйте заменить «.html:» на «.php» и посмотрите, решит ли это проблему.

Если вы ищете конкретную тему, попробуйте следующие ссылки или введите тему в поле поиска на этой странице:

Выберите Темы AI, чтобы узнать больше об искусственном интеллекте.
Чтобы присоединиться или узнать больше о членстве в AAAI, выберите «Членство».
Выберите «Публикации», чтобы узнать больше о AAAI Press и журналах AAAI.
Для рефератов (а иногда и полного текста) технических документов по ИИ выберите Библиотека
Выберите AI Magazine, чтобы узнать больше о флагманском издании AAAI.
Чтобы узнать больше о конференциях и встречах AAAI, выберите Conferences
Для ссылок на симпозиумы AAAI выберите «Симпозиумы».
Для получения информации об организации AAAI, включая ее должностных лиц и персонал, выберите «Организация».

Помогите исправить страницу, которая вызывает проблему

Интернет-страница

, который направил вас сюда, должен быть обновлен, чтобы он больше не указывал на эту страницу.Вы поможете нам избавиться от старых ссылок? Напишите веб-мастеру ссылающейся страницы или воспользуйтесь его формой, чтобы сообщить о неработающих ссылках. Это может не помочь вам найти нужную страницу, но, по крайней мере, вы можете избавить других людей от неприятностей. Большинство поисковых систем и каталогов имеют простой способ сообщить о неработающих ссылках.

Если это кажется уместным, мы были бы признательны, если бы вы связались с веб-мастером AAAI, указав, как вы сюда попали (т. Е. URL-адрес страницы, которую вы искали, и URL-адрес ссылки, если таковой имеется).Спасибо!

Содержание сайта

К основным разделам этого сайта (и некоторым популярным страницам) можно перейти по ссылкам на этой странице. Если вы хотите узнать больше об искусственном интеллекте, вам следует посетить страницу AI Topics. Чтобы присоединиться или узнать больше о членстве в AAAI, выберите «Членство». Выберите «Публикации», чтобы узнать больше о AAAI Press, AI Magazine, и журналах AAAI. Чтобы получить доступ к цифровой библиотеке AAAI, содержащей более 10 000 технических статей по ИИ, выберите «Библиотека».Выберите Награды, чтобы узнать больше о программе наград и наград AAAI. Чтобы узнать больше о конференциях и встречах AAAI, выберите «Встречи». Для ссылок на программные документы, президентские обращения и внешние ресурсы ИИ выберите «Ресурсы». Для получения информации об организации AAAI, включая ее должностных лиц и сотрудников, выберите «О нас» (также «Организация»). Окно поиска, созданное Google, будет возвращать результаты, ограниченные сайтом AAAI.

границ | Автоматическая 3D-реконструкция из неструктурированных видео, объединяющая обобщение видео и структуру из Motion

Введение

Прогулка во втором десятилетии 21 века все больше и больше людей осознают влияние мультимедиа и социальных сетей на их жизнь.Этому способствует стремительный рост пользователей Интернета, который, согласно статистике Международного союза электросвязи (ITU), в 2015 году достиг примерно 3,2 миллиарда пользователей (Sanou, 2015). С другой стороны, стоимость приобретения устройств для захвата мультимедиа все больше и больше снижается, в то время как большинство из них теперь встроено в ноутбуки, планшеты и мобильные телефоны, что делает создание мультимедиа простой задачей для всех, везде и в любое время (Ван и Дей, 2013). Наконец, сила социальных сетей и потребность людей в общении с друзьями и семьей не только с помощью слов, текстов и общения, но и с помощью разнообразного аудиовизуального контента (Rutkowski and Mandic, 2007) стимулировали появление новых средства взаимодействия с нашим социальным окружением посредством использования социальных сетей, таких как Facebook, Instagram или Twitter (Soursos and Doulamis, 2012), (Doulamis et al., 2016).

Это, в дальнейшем, увеличило количество, сложность и разнообразие цифровых носителей, которые собираются, генерируются, обрабатываются, анализируются и хранятся в разнородных и распределенных репозиториях мультимедиа и облачных инфраструктурах, таких как Picasa и Flickr (Sevillano et al. ., 2012). Этот огромный объем мультимедийного контента, который формирует так называемый пользовательский контент (UGC) (Li et al., 2018), может использоваться для улучшения взаимодействия между людьми, а также для множества новых областей приложений в широкие области туризма, культуры, досуга и развлечений (Kosmopoulos et al., 2009; Ким и др., 2014; Вишневская и др., 2015). Например, как утверждают Нталианис и Дуламис в (Ntalianis and Doulamis, 2016), богатый медиаконтент социальных сетей можно использовать для создания персонализированных обзоров человеческой жизни, делая его / ее « вечным в цифровом виде» и оставляя его / ее след в мире навсегда! Другими словами, это означает, что мы можем создать альбом наших действий и жизней в пространстве и времени, который можно использовать в качестве исторической отметки на дереве нашей семьи и друзей для наших будущих потомков.В этих случаях следует учитывать вопросы конфиденциальности. Только авторизованные пользователи могут получить доступ к медиа-контенту. Подробную категоризацию проблем конфиденциальности в UGC можно найти в (Smith et al., 2012). Эти вопросы выходят за рамки данной статьи, но в нашем случае принимаются во внимание только свободно доступные данные.

Еще одно полезное использование этого многофункционального мультимедийного UGC — использовать для создания точных трехмерных (3D) данных о нашем мире (Ioannidis et al., 2009). В настоящее время извлечение трехмерной информации об объектах и, в частности, о глубине — это процесс, который может быть получен либо путем применения фотограмметрических методов из выбранного набора изображений, которые были должным образом захвачены / сгенерированы (Ремондино и Эль-Хаким, 2006), либо с помощью лазера. сканеры (Fritsch and Klein, 2018) или датчики глубины, такие как Time of Flight Cameras (Kim et al., 2009) или Kinect (Nguyen et al., 2012) для статических (Guo et al., 2014) и движущихся объектов (Laggis et al., 2017). Однако главный недостаток фотограмметрических подходов, которые используют двумерное (2D) для реконструкции, заключается в том, что им нужен определенный тип камер, которые будут использоваться для захвата данных изображения или позиционирования этих камер в определенных ориентациях по отношению к объекту. представляет интерес, чтобы получить 3D-модели с высокой точностью (Georgousis et al., 2016). В дальнейшем это подразумевает высокую стоимость реконструкции, которая далека от сегодняшних простых этапов производства изображений / видео.

Интересная концепция — использовать современные большие хранилища мультимедийных данных для фазы 3D-реконструкции. Это приведет к так называемому «дикому» 3D-моделированию в том смысле, что данные изображения взяты из распределенных, социальных или сетевых мультимедийных репозиториев, которые были захвачены для личного использования или других целей, но точно не для точной 3D-реконструкции. (Makantasis et al., 2016). Цель состоит в том, чтобы использовать содержимое неструктурированного изображения для выполнения схемы трехмерной реконструкции путем применения новых методов фильтрации на основе содержимого и кластеризации на основе визуального представления с использованием спектральной схемы.В этой статье мы расширяем вышеупомянутую концепцию, фокусируясь на видеопоследовательностях, расположенных на распределенных и разнородных мультимедийных платформах. Цель состоит в том, чтобы использовать богатую визуальную информацию видеоконтента для создания трехмерных моделей сцены, которую они изображают. Мы должны заявить, что использованные видео взяты из удаленных мультимедийных репозиториев, и они были созданы для личного или коммерческого использования, но не для 3D-моделирования. Таким образом, эти видео содержат много шума и объектов, не представляющих интереса, таких как люди на фасадах памятников, движущиеся машины, беспорядочный фон и т. Д.Кроме того, в этих видеороликах возникают серьезные проблемы с перемещением камеры, поскольку они были сняты без использования штатива, и поэтому кадры изображения дрожат. Для создания трехмерных моделей сначала к видеокадрам применяется алгоритм суммирования видео. Целью схемы резюмирования видео является извлечение небольшого, но значимого числа ключевых кадров из видеопоследовательности, способных максимально напоминать весь видеоконтент (Money and Agius, 2008). Предлагаемая новая концепция заключается в использовании дискриминантного анализа главных компонентов (d-PCA) для обобщения видео.Концепция d-PCA (Wang et al., 2018) была введена совсем недавно для кластеризации объектов, чтобы максимизировать согласованность переднего плана с фоном. Затем вводится алгоритм структуры из движения (SfM) для создания трехмерных моделей.

Предложенная концепция может быть очень полезна для приложений культурного наследия (CH) для массового автоматического (или, по крайней мере, полуавтоматического) документирования объектов CH, процесса, очень полезного для их защиты и для реализации надежных действий по обеспечению устойчивости к ним ( Ястикли, 2007).Точнее говоря, объекты CH, которые не так «привлекательны и известны», но по-прежнему велики в культуре и древних технологиях, которые они раскрывают, часто не получают достаточной финансовой поддержки для получения трехмерных геоцентрических моделей с высокой точностью. Кроме того, памятники СН, расположенные в бедных развивающихся странах или в регионах, страдающих от войн, конфликтов или других политических факторов неопределенности (например, недостаточной защиты от грабежей), несмотря на огромную культурную ценность, которую они представляют, не могут привлечь достаточных финансовых ресурсов для их точной документации (Remondino и Stylianidis, 2016).Во всех этих случаях можно использовать видеозаписи, доступные в Интернете или в репозиториях туристических СМИ, чтобы предоставить археологам / экспертам CH 3D-модели интересующих объектов, которые можно использовать для их документации по очень низкой цене (Doulamis N. et al., 2013; Yiakoumettis et al., 2014).

С другой стороны, массивная 3D-реконструкция может способствовать развитию технологий дополненной реальности и виртуальной реальности, поскольку она предоставит пул 3D-моделей, с помощью которых эти научные области могут развиваться (Bruno et al., 2010). Игровые приложения, в том числе серьезные игры для образовательных целей, новые увлекательные приложения для посетителей музеев, археологические инструменты для документирования и категоризации объектов или даже парадигмы мониторинга земли будут одними из других сценариев приложений, которые могут быть получены с помощью предлагаемой схемы (Иоаннидис и др., 2016).

Этот документ организован следующим образом: Описание современного состояния дается в разделе «Описание современного и предлагаемого вклада».Описанные работы относятся к (i) подходам к моделированию трехмерной реконструкции, (ii) обобщению видео, в то время как (iii) исследуется предлагаемый вклад. Раздел «Анализ видео и фильтрация на основе текста» представляет метод анализа видео и фильтрации на основе текста. Новый алгоритм дискриминантного анализа главных компонентов (d-PCA) обсуждается в разделе Дискриминантный анализ главных компонентов (суммирование видео d-PCA). В разделе «3D-реконструкция / моделирование на лету» с использованием структуры из движения показан метод 3D-реконструкции и моделирования «на лету», использующий концепции схемы «Структура из движения».Результаты экспериментов приведены в разделе «Результаты экспериментов» вместе с подробным описанием используемого набора данных и объективной метрики, применяемой для оценки эффективности схемы суммирования видео. Наконец, выводы. В разделе «Выводы» делаются выводы.

Описание современного состояния и предлагаемого вклада

В этом разделе мы описываем текущее состояние дел в области трехмерного моделирования / реконструкции и обобщения видео, то есть двух областей исследований, рассматриваемых в этой статье.Поскольку эти области широко изучались в последние годы, что подтверждается большим количеством опубликованных статей, мы ограничиваем наше описание теми работами, которые больше подходят для нашего подхода; то есть те, которые представляют 3D-моделирование и реконструкцию из неструктурированных видеоданных и видеосюжирования для краткосрочных видеопоследовательностей культурного или ландшафтного контента, как те, которые встречаются в наших случаях.

3D Моделирование / Реконструкция

Для получения точных 3D-моделей из набора камер следует применять фотограмметрические методы.Первым шагом к этому является калибровка набора камер, чтобы получить точную информацию о геометрии (Ремондино и Клайв, 2005). Однако калибровка камеры неприменима в нашем случае, когда рассматривается неструктурированный визуальный контент, то есть контент, доступный из видео, созданных для личного (или даже для бизнеса) использования. Затем следует выделить набор визуальных дескрипторов (Rothganger et al., 2006), которые должны быть инвариантными в рамках любого аффинного преобразования. Эти дескрипторы можно контролировать либо из известных точек (Alsadik et al., 2014) или может быть установлен в результате метода анализа изображения (безмаркерное описание) (Barazzetti et al., 2010; Verykokou et al., 2017). Далее для восстановления глубины пейзажа применяются вероятностное обучение или анализ на основе геометрии или даже другие схемы классификации (Gargallo and Sturm, 2005). Тем не менее, этот процесс требует много времени. Таким образом, были также внедрены быстрые методы для сокращения времени при сохранении максимально высокой точности реконструкции (Xia et al., 2013).

Новаторская работа, которая одновременно решает позу камеры и геометрию сцены автоматизированным способом, — это Structure from Motion (SfM). В этом методе используется метод групповой настройки, основанный на сопоставлении функций в нескольких перекрывающихся изображениях (Bolles et al., 1987; Westoby et al., 2012). Этот метод был распространен на моделирование нежестких конструкций, то есть моделирование формы деформируемых объектов. Так называемая нежесткая структура от движения (NRSfM) восстанавливает форму и позу объекта, который деформируется во времени, с помощью набора монокулярных камер (Torresani et al., 2008).

Было предложено несколько работ для решения проблемы неструктурированных данных изображения, которую мы рассматриваем в этой статье. В частности, Дорнингер и Нотеггер (2007) применяют трехмерную сегментацию для неструктурированных облаков точек. Результаты были применены для моделирования зданий, что является важной задачей фотограмметрии и дистанционного зондирования. Работа (Makantasis et al., 2016) находит набор соответствующих изображений, расположенных в распределенных и разнородных репозиториях мультимедиа, для получения точной 3D-реконструкции.Результаты нацелены на объекты материального культурного наследия, такие как памятники, исторические районы и здания. Трехмерная реконструкция из многовидовых неструктурированных изображений также предлагается в (Zhang and Chen, 2014). Подход анализирует трехмерные плоские примитивы, уточненные алгоритмом RANSAC (Schnabel et al., 2007), а затем оцениваются смежные области плоских примитивов, чтобы найти трехмерные линии пересечения на соответствующих гранях.

Недавно неструктурированное 3D-моделирование было расширено за счет включения измерения времени.В этом случае анализ фокусируется на создании точных 4D-моделей (3D-геометрия плюс время). В работах, предлагаемых в этой области, либо используется байесовский подход к анализу (Huang et al., 2016), либо обнаруживаются сходства в данных изображения, чтобы ускорить процесс реконструкции во времени (Doulamis A. et al., 2013; Ioannides et al. , 2013).

Обобщение видео

Некоторые методы резюмирования видео используют временные изменения траектории вектора признаков для определения характерных точек в контенте, через которые извлекаются ключевые кадры.Ключевая идея этих подходов состоит в том, чтобы локализовать колебания характерных точек характерных выступов, таких как пики или кривизны, а затем извлечь ключевые кадры во временных точках выступов (Doulamis et al., 2000b; Kuanar et al. , 2015; Kim et al., 2016). Основным преимуществом этих подходов в области обобщения видео является тот факт, что они могут различать периодические шаблоны контента и, таким образом, по-разному обрабатывать две похожие сцены, когда они размещаются в разных временных интервалах в видеопоследовательности.Хотя такое свойство рассматривается как преимущество для абстрагирования видеопоследовательностей, это недостаток в нашем случае, когда резюмирование видео запускает извлечение набора характерных кадров, с помощью которых будет выполняться трехмерная реконструкция / моделирование. В той же структуре, в работах (Panagiotakis et al., 2007, 2009) применяется анализ изо-содержания для локализации ключевых кадров в качестве тех, которые размещены на «одинаковом» (iso) контентном расстоянии в последовательности. Другие методы извлекают краткую сводку видео вместо ключевых кадров для представления абстрактной формы видеопоследовательностей (Cernekova et al., 2006; Мадемлис и др., 2016).

Некоторые другие алгоритмы реферирования видео выбирают наиболее дискриминантные кадры с точки зрения визуального контента в качестве ключевых. Более конкретно, метод кластеризации на основе графов для обобщения видео представлен в (Ngo et al., 2005), а использование кластеризации Делоне предлагается в (Mundur et al., 2006). Фреймворк оптимизации min-max представлен в (Li et al., 2005), а кластеризация гиперграфов недавно представлена в (Ji et al., 2018). Стохастический алгоритм, который извлекает наиболее репрезентативные ключевые кадры путем минимизации критерия взаимной корреляции, представлен в (Avrithis et al., 1999). Та же самая работа была улучшена в рамках нечеткой структуры в (Doulamis et al., 2000a) и распространена на стереоскопические видеопоследовательности, в которых доступны две стереопары каждого видеокадра (Doulamis et al., 2000). Наконец, в (Meng et al., 2018) краткое изложение многовидового видео представлено посредством репрезентативной выборки.

Предлагаемый вклад

В этом документе предлагается новый алгоритм трехмерной реконструкции и моделирования, который использует короткие видеопоследовательности, созданные простыми пользователями, в основном для личного использования (пользовательский контент).Мы предполагаем, что в коротких видеороликах изображена одна и та же сцена пейзажа, здания или памятника, 3D-модель которых нам нужно построить. Короткие видеоролики UGC извлекаются из мультимедийных репозиториев. Первоначально предлагается фильтрация на основе текста, как в (Makantasis et al., 2016), для уточнения коротких видеороликов в отношении их подписей, генерируя пул видеороликов, в каждом из которых показана одна и та же сцена, здание или памятник. Это применяется для уточнения видеопоследовательностей, чтобы улучшить анализ реконструкции на более поздних этапах.Будут учитываться только релевантные видеоролики. Затем собранный пул коротких видеороликов суммируется с помощью дискриминантного алгоритма. В нашем случае мы предлагаем новую схему резюмирования видео, основанную на дискриминантном анализе главных компонентов (d-PCA), представленном в недавней работе (Wang et al., 2018). Дискриминантный анализ принципала имеет своей целью извлечь наиболее важную информацию из одного набора данных, то есть наиболее важную информацию.

Метод, предложенный в (Wang et al., 2018) применялся для распознавания рукописных цифр и изображений лягушек. В этой статье мы должным образом модифицировали и расширили этот подход для извлечения небольшого, но значимого количества ключевых кадров из пула коротких видеороликов, изображающих один и тот же пейзаж. В частности, мы изначально создаем вектор визуальных признаков, извлекая дескрипторы ORB из каждого видеокадра. ORB может идентифицировать основные части содержимого изображения, инвариантные относительно аффинных преобразований. Затем мы модифицировали d-PCA, чтобы его можно было применять к временным рядам, как к видеопоследовательностям, а не к коллекциям данных, к которым применяется исходный алгоритм d-PCA.Мы также вводим понятие сгустков внутри каждого кластера, чтобы различать кадры изображения по их углам и ориентации. Наконец, мы предлагаем модификацию схемы в части выбора оптимального ключевого кадра по времени. После извлечения ключевых кадров из видео мы предполагаем, что они могут представлять в максимально возможной степени весь видеоконтент и предоставлять адекватную информацию для 3D-моделирования и реконструкции.

Причина, по которой мы выбираем метод d-PCA для обобщения видео вместо других методов, предлагаемых в литературе, связана с (i) характером наших видеопоследовательностей и (ii) конечной целью, которую мы имеем, т.е.е., для получения 3D-моделей объектов из видеозаписей, снятых для целей, отличных от 3D-реконструкции (например, для туристических). Первый факт подразумевает, что наши видеоролики короткие, обычно снимаются один и тот же объект (например, памятник), представляющий интерес, под разными углами и масштабом. Второй факт означает, что нам необходимо идентифицировать достаточное количество видов объекта, чтобы получить детальную трехмерную реконструкцию и одновременно «избавиться» от видов, которые вносят небольшой вклад в процесс реконструкции.D-PCA предназначен для поиска кластеров в визуальных данных, так что (i) контент в кластерах максимально отличается, в то время как (ii) контент внутри кластера является максимально согласованным. Первый критерий приводит к выбору минимально необходимого количества кластеров (т. Е. Представлений), которые необходимо учитывать при 3D-реконструкции. Второй критерий приводит к отбору наиболее репрезентативных видов объектов среди множества похожих изображений, снятых на видео. Это является причиной того, что мы применяем d-PCA для обобщения видео, а не другие методы, которые в основном были разработаны для суммирования длительных видео, состоящих из разных сцен, совершенно разного содержания и с целью дать быстрый обзор содержания видеопоследовательности. вместо определения различных видов объектов для построения 3D-моделей.

Выбранные ключевые кадры затем подаются в качестве входных данных в алгоритм SfM для выполнения реконструкции. Поскольку только небольшое количество репрезентативных кадров используется в качестве входных данных для SfM, время, необходимое для моделирования, оптимизируется, в то же время мы сохраняем точность 3D-реконструкции как можно более высокой. На рисунке 1 показана блок-схема предлагаемой архитектуры и основные шаги, предложенные для получения трехмерного моделирования и реконструкции на лету из неструктурированных коротких видеороликов UGC, распределенных по разнородным мультимедийным репозиториям.

Рисунок 1 . Блок-схема предлагаемой исследовательской методики для оперативного 3D моделирования и реконструкции объектов и сцен.

Как видно из рисунка 1, предлагаемая схема состоит из:

(a) Парсер видео: отвечает за локализацию видео из распределенных мультимедийных репозиториев или на платформе социальных сетей. Рассмотрен набор из N репозиториев / социальных платформ.

(b) Фильтрация на основе текста: цель состоит в том, чтобы уточнить проанализированные видео, чтобы сгруппировать вместе те, которые имеют аналогичное текстовое описание, e.г., похожие подписи. Идея состоит в том, чтобы выполнить своего рода семантическую фильтрацию данных путем объединения видео в кластеры, которые изображают один и тот же пейзаж, здание, памятник, регион и т. Д. Очевидно, что из-за несогласованности текста в описании семантических значений будет встречаться много выбросов. .

(c) Обобщение видео на основе d-PCA: Этот компонент реализует новый алгоритм суммирования видео, предложенный в этой статье, который основан на дискриминантном анализе главных компонентов (d_-PCA).Основная цель — извлечь набор репрезентативных кадров из пула коротких видеороликов с похожим визуальным содержанием.

(d) Алгоритм SfM: Затем мы приступаем к применению алгоритма структуры из движения (SfM), с помощью которого выполняется трехмерная реконструкция / моделирование.

В целом, предлагаемый метод нацелен на предоставление моделей трехмерной реконструкции для объектов, представляющих интерес (особенно культурных), из неструктурированного пользовательского контента (UGC), который был захвачен для различных целей (например,г., туристический), чем 3D моделирование. Основная цель — добиться масштабной трехмерной реконструкции объектов и памятников, а не использовать дорогостоящие фотограмметрические методы. Таким образом, мы используем 3D-реконструкцию «на лету», анализируя видеоконтент из коротких видеопоследовательностей. Вместо этого подходы, представленные в литературе в данной области, сосредоточены на достижении точных трехмерных моделей или на обобщении видеопоследовательностей в смысле автоматического извлечения небольших коротких трейлеров.Таким образом, эта статья нацелена на сложную проблему в обществе трехмерного компьютерного зрения; как ускорить 3D-реконструкцию и добиться массивного 3D-моделирования интересующих объектов, используя существующий видеоконтент, который был снят для целей, отличных от 3D-анализа.

Анализ видео и текстовая фильтрация

В этом разделе описаны два компонента: (i) анализ видео и (ii) текстовая фильтрация видеоконтента.

Развернутый алгоритм обнаруживает видео из распределенных и разнородных репозиториев и / или платформ социальных сетей.Идея состоит в том, чтобы отличать видео от других мультимедийных источников, таких как изображения, аудио, звуки, графика и тексты. Таким образом, алгоритм локализует только видеоисточники. Достаточное количество данных используется в качестве фильтра парсера для получения видео. Достаточно файлов, которые соответствуют сжатым или несжатым видеофайлам, используются для фильтрации, чем остальные. Для анализа мультимедиа используется безопасная структура, предложенная в одной из наших предыдущих работ (Halkos et al., 2009). Цель состоит в том, чтобы позволить синтаксическому анализатору завершить поиск без необходимости загружать мультимедийный контент заранее и без поставщиков контента (т.е.е., мультимедийные репозитории или владельцы социальных сетей), чтобы купить технологию синтаксического анализа. Таким образом, мы получаем короткие видеоролики V _i из распределенных репозиториев и / или платформ социальных сетей. Каждую видеопоследовательность можно рассматривать как набор из V _i = {⋯ f _{i, j} ⋯}, где f _{i, j} обозначает j — -й кадр i -й видеопоследовательности.

Что касается текстовой фильтрации, анализируются титры или текстовые описания видео. Затем выполняется простой лингвистический анализ, чтобы учесть сходство слов. Видео, которые попадают в одни и те же текстовые группы, группируются вместе, чтобы сформировать пулы видео с одинаковым контентом. Другими словами, мы формируем видеокластеры, которые имеют схожую текстовую семантику с точки зрения контента, который они представляют. Обозначим как C _k = { V _i: i ∈ τ _k}, где τ _k относится к -му аналогичному . описания, полученные на основе текстовой фильтрации.Из-за несогласованности текста и ошибочных описаний количество выбросов в этих видео может быть большим. То есть несколько V _i ∈ C _k могут отображать визуальный контент, совершенно отличный от соответствующего текстового семантического описания τ _k. Например, предположим, что один кластер C _k собирает видео, текстовое описание которых соответствует «Парфенону.В этом кластере также могут быть собраны видео, снятые из таверн под названием «Парфенон». Однако содержание этого видео не соответствует монументу «Парфенон». Чтобы повысить точность кластеризации, мы применяем ограничение геотегами. То есть члены кластера дополнительно разбиваются на геопространственные кластеры, где эта информация доступна. Видео с ошибочными или вводящими в заблуждение описаниями, которые соответствуют различным геотегам, удаляются из соответствующего кластера, улучшая его согласованность.

Для удаления выбросов визуальный контент каждого кластера разбивается на многомерные многообразия, принимающие в качестве входных данных инвариантные визуальные дескрипторы, такие как Ориентированное повернутое краткое описание (Rublee et al., 2011), как принято в (Makantasis et al., 2016). Далее применяется алгоритм кластеризации на плотной основе, такой как OPTICS (Ankerst et al., 1999), для удаления выбросов и сохранения только самых конкретных видео в каждом кластере с точки зрения описания визуального контента.

Дискриминантный анализ главных компонентов (обобщение видео d-PCA)

В этом документе для выбора ключевых кадров используется новый метод суммирования видео.Этот метод заимствован из недавней статьи (Wang et al., 2018), но применяется для распознавания рукописных цифр. Цель состоит в том, чтобы заглянуть внутрь каждого видеокластера, скажем, C _k, и сформировать репрезентативные группы (подкластеры) внутри каждого кластера так, чтобы (i) элементы в каждой группе (внутри группы) для совместного использования максимальная согласованность с точки зрения визуального сходства, в то время как (ii) элементы в группах (между группами) должны быть максимально возможными с точки зрения визуального сходства.

Обозначим как fi, j (k, l) j -й кадр i -го видео V _i ∈ C _k и допустим, что этот фрейм принадлежит l -й группе, создаваемой в кластере C _k. Обозначим далее эту группу как B ^{( k, l )}. Для каждого видеокадра извлекаются визуальные дескрипторы, чтобы лучше представить его видеоконтент.Обозначим эти дескрипторы как di, j (k, l). В нашем случае визуальный дескриптор ORB извлекается для формирования вектора di, j (k, l). Для пояснения обозначений обозначим через bi (k, l) один векторный элемент сгустка B ^{( k, l )}. Затем мы можем создать ковариационную матрицу для всех элементов группы bi (k, l) как

Cintra: = 1 | B (k, l) | ∑для всех ibi (k, l) · (bi (k, l)) T (1)
и ковариационная матрица по элементам двух сгустков
Cinter: = 1 | B (k, l) | ∑ для всех i и l ≠ mbi (k, l) · (bi (k, m)) T (2)
Затем цель состоит в том, чтобы найти вектор, скажем и , такой, что
макс [u] 2 = 1uT · Cintra · uuT · Cinter · u (3)
Уравнение (3) означает, что мы должны извлекать видеокадры, визуальное содержание которых, представленное дескриптором PRB, должно «присутствовать» (аналогично) в соответствующей группе и не присутствовать (не совпадать) в «фоновых данных». То есть в других связках.Эта математическая формулировка актуальна для дискриминантного PCA, предложенного в (Wang et al., 2018). Однако в этой статье мы должным образом изменили обозначение d-PCA, чтобы оно соответствовало случаю резюмирования видео.
Решение проблемы
Как правило, матрица C _inter имеет полный ранг, поскольку собранные видео не были захвачены в точно таких же условиях. Таким образом, его можно разложить на собственные числа как
Cinter = UinterT.Λinter · Uinter (4)
, где матрицы U _inter и Λ _inter относятся к собственным векторам и значениям ковариационной матрицы C _inter.Если мы определим
Cinter1 / 2 = Cinter = Λinter1 / 2 · Uinter (5)
и установить как новую переменную, затем решение уравнения. (3) можно получить как
u * = Cinter1 / 2 · v * (6)
В уравнении (6) u * и v * являются оптимальными векторами для u и v соответственно.
Используя лагранжев дуальность, как в (Wang et al., 2018), оптимальное решение уравнения (3) может быть задано как правый собственный вектор матрицы. Это можно доказать, поскольку уравнение (3) можно переписать как
maxu uT · Cintra · u (7a) при условии uT · Cinter · u = b (7b)
, что на самом деле является проблемой множителя Лагранжа.Решение уравнения (7) действительно для некоторой константы b > 0, которая установлена так, что u ₂ = 1. Одно из возможных решений (7b) состоит в том, чтобы установить b = 1 и нормализовать решение (7). Уравнение (7) можно переписать как задачу множителя Лангрэжа как
L (u; λ) = uT · Cintra · u + λ · (1-uT · Cinter · u) (8)
Для решения оптимизации, налагаемой уравнением (8), мы используем понятия из обобщенной задачи на собственные значения. То есть он считает, что
Цинтра · u * = λ · Cinter · u * (9a)
или эквивалентно
Цинтер-1 · Цинтра · u * = λ · u * (9b)
Уравнение (9) означает, что оптимальное решение u * является собственным вектором матрицы x.Интегрируя ограничение (7b) в (7a), мы можем получить, что
(u *) T · Cintra · u * = λ * · (u *) T · Cinter · u * = λ * (10)
Из уравнения (10) ясно, что оптимальное решение (7) задается как наибольшее собственное значение матрицы Cinter-1 · Cintra.
Извлечение ключевых кадров
После оценки оптимального вектора u *, мы можем продолжить идентификацию ключевых кадров в каждом видеокластере C _k и связке B ^{( k, l )}.В частности, оптимальный вектор u * содержит индексы фреймов fi, j (k, l), которые должны быть присвоены l -ому пучку кластера k . Таким образом, группы содержат почти одинаковые кадры с точки зрения визуального содержания, которое они представляют. Кроме того, согласованность контента в группах одного видеокластера минимальна. Наиболее представительный кадр выбирается как наиболее близкий к центроиду сгустка. То есть
m (k, l) = ∑ для всех iϵB (k, l) bi (k, l) (11a) fi *, j (k, l) = argmin для всех i, j d (di, j (k, l), m (k, l)) (11b)
, где fi *, j (k, l) — ключевой кадр (индекс i *) видео j , принадлежащего l -й группе семантического кластера k .В уравнении (11b) функция относится к расстоянию между двумя векторами признаков, один из которых содержит дескрипторы кадров di, j (k, l) и средний вектор признаков соответствующей группы m ^{( k, l )}.
В случае, если необходимо извлечь больше ключевых кадров на группу, выбираются наиболее некоррелированные между ними, как в (Doulamis et al., 2000a). Цель состоит в том, чтобы определить самые дальние кадры с точки зрения представления визуального контента и изобразить их как наиболее репрезентативные.
3D-реконструкция / моделирование на лету с использованием структуры из движения
Извлеченные видеокадры подаются в качестве входных данных в компонент структуры из движения (SfM), с помощью которого выполняется трехмерная реконструкция и моделирование. Основное отличие SfM от традиционных фотограмметрических методов заключается в том, что геометрия сцены, положение камер и ориентация решаются автоматически, без необходимости знания целей. Последние в обычных фотограмметрических методах должны быть известны заранее.Чтобы получить автоматическое решение вышеупомянутых функций, SfM использует итерационный метод, известный как процедура настройки пакета (Triggs et al., 1999). Эта процедура использует визуальные дескрипторы, полученные на вышеупомянутом этапе, и выбранные ключевые кадры из раздела Дискриминантный анализ основных компонентов (d-PCA Video Summarization), которые формируют набор перекрывающихся изображений на создаваемом пользователем контенте декораций, который мы хотим реконструировать. Извлеченные визуальные элементы должны быть инвариантными при масштабировании вращения и в целом при любом аффинном преобразовании, в то время как они должны быть устойчивыми к изменениям освещения.Таким образом, следует идентифицировать масштабированные функции.
В частности, в SfM трехмерное положение и расположение камеры, а также трехмерное расположение контрольных точек неизвестны априори. Положение камеры и геометрия сцены автоматически восстанавливаются посредством автоматической идентификации совпадающих функций в наборе из нескольких камер. Поскольку масштаб и ориентация задаются в относительных координатах, необходимо предоставить небольшое количество известных наземных контрольных точек (GCP) для преобразования относительных координат в абсолютные координаты (Westoby et al., 2012).
Первым этапом SfM является извлечение набора надежных точек на изображениях. В этой статье выделены визуальные особенности ORB (Rublee et al., 2011), поскольку они обеспечивают более высокую точность, надежность при аффинных преобразованиях и флуктуациях освещенности и одновременно выполняются лучше, чем другие традиционные визуальные дескрипторы, такие как SIFT или BRIEF. К извлеченным визуальным ключевым точкам применяется метод настройки разреженного пучка (Triggs et al., 1999) для оценки положения камеры и облака точек.Последний имеет низкую плотность, то есть создается разреженное облако точек. Для согласования используются схемы кластеризации на основе плотности, обслуживаемые на многомерных многообразиях изображений. Таким образом, движущиеся объекты, такие как люди, в сцене автоматически удаляются, а материальное фоновое содержимое фиксируется для 3D-моделирования и реконструкции. Далее используется преобразование подобия для восстановления положения камеры из соответствий ключевых точек с последующей триангуляцией, посредством которой оцениваются положения трехмерных точек и восстанавливается вся геометрия.Для увеличения плотности разреженного производного облака точек применяются алгоритмы на основе плотной структуры, такие как полуглобальный алгоритм (Hirschmüller, 2008).
Результаты экспериментов
В этом разделе анализируются проведенные эксперименты и приводятся некоторые результаты, демонстрирующие эффективность предложенной схемы. Раздел «Описание набора данных» описывает используемый набор данных, в то время как в разделе «Объективные критерии» обсуждаются объективные критерии и показатели, которые используются, а в разделе «Эксперименты» показаны экспериментальные результаты.
Описание набора данных
Используемый набор данных представляет собой коллекцию из 5 732 видео, собранных из мультимедийных репозиториев, распространяемых через Интернет и Twitter. Последний представляет собой социальную среду, которая позволяет пользователям общаться в чате с помощью коротких сообщений, а также размещать ссылки на изображения и видео. Сбор видео с распределенных мультимедийных платформ был выполнен поисковым инструментом (Ioannides et al., 2013) в рамках проекта 4D-CH-World (Doulamis et al., 2018). Из Twitter соответствующий API использовался для сбора видео, как описано в (Doulamis et al., 2016). Все видеоролики создаются пользователями, имеют очень короткую продолжительность (от нескольких секунд до нескольких минут) и обычно изображают некоторые культурные объекты, памятники или здания, представляющие интерес, поскольку они были сняты для туристического использования простыми пользователями. Таким образом, захваченный визуальный контент страдает от анализа с высоким разрешением, определенной ориентации камер, отсутствия перекрытия содержимого изображения для некоторых регионов, особенно тех, которые не так доступны простым пользователям.Кроме того, в некоторых из них содержимое камеры «мерцает» из-за движений рук пользователей.
Основная проблема этих наборов видеоданных заключается в том, что контент часто «заражен» информацией, которая не имеет отношения к сайтам, которые мы хотим реконструировать в 3D. Например, люди часто присутствуют перед памятником, чтобы проверить свое присутствие на этом месте. Этот шум данных устраняется в нашем случае двумя способами. Первый — это проецирование полученного видеоконтента на соответствующие текстовые описания, которые они им сопутствуют.Видео, заголовки или текстовые описания которых не соответствуют средней информации о содержании, удаляются. Кроме того, мы дополнительно улучшаем видеоконтент, удаляя выбросы. Это делается, как описано в разделе «Анализ видео и фильтрация на основе текста» путем (а) применения визуальных функций ORB (Ankerst et al., 1999; Rublee et al., 2011) к каждому видеокадру, (b) размещения ключевых точек на многомерное многообразие и (c) затем развертывание алгоритма кластеризации OPTICS на основе плотной кластеризации (Ji et al., 2018), чтобы удалить выбросы.
Содержание наборов данных аннотировано экспертами в предметной области. Аннотация выполняется по двум категориям; один включает все фреймы, принадлежащие классу сайта, а другой — фреймы, принадлежащие изображениям выбросов. На основе этого контента мы создаем набор достоверных данных, который используется для оценки результатов. Кроме того, эксперты в предметной области аннотируют контент с учетом потенциальных геометрических видов, которые нам необходимы для получения полной трехмерной реконструкции.Таким образом, мы можем оценить необходимое количество кадров в каждой группе кластера, чтобы продолжить оценку согласованности созданных групп.
Платформа
Python используется для извлечения дескрипторов ORB и алгоритма суммирования видео на основе d-PCA. Кроме того, набор инструментов Python для естественного языка используется для подсчета частотности слов для всех извлеченных твитов. Для 3D-реконструкции мы используем схему SfM, предоставляемую платформой реконструкции PhotoScan Agio 3D.Также использовались и другие инструменты трехмерной реконструкции, такие как макрокабина с открытым микрофоном (Verykokou et al., 2017).
Объективные критерии
Объективные критерии используются для оценки подхода к обобщению видео и создания видеокластеров и групп кластеров. Для оценки используется вышеупомянутый набор данных. Два принятых критерия — это точность, которая измеряется как
. P = | Sre || Ssu | = | Sgt∩Ssu || Ssu | (12)
, где S _re — это набор, который содержит соответствующие данные изображения, т.е.е., пересечение данных, принадлежащих основной истине, с данными, полученными с помощью предложенного алгоритма резюмирования и отзыва, определенного как
R = | Sre || Sgt | = | Sgt∩Ssu || Sgt | (13)
Precision на самом деле измеряет процент данных, которые были правильно сгруппированы по отношению к общему количеству, в то время как вспомнить процент данных, правильно сгруппированных по сравнению с наземными. То есть два критерия играют роль истинно положительных и истинно отрицательных. Объединив два критерия, мы можем получить
F 1 балл фактически компенсирует два вышеупомянутых критерия точности и отзыва.
Эксперименты
Производительность обобщения видео
Описанный выше набор достоверных данных, аннотированный экспертами в предметной области, используется в этой статье для проверки эффективности результатов обобщения видео. Производительность измеряется с использованием целевых критериев «Точность», «Отзыв» и F 1-баллов, как описано в разделе «Объективные критерии». В таблице 1 показаны средние результаты, полученные при применении алгоритма суммирования видео d-PCA.В той же таблице мы также изображаем некоторые сравнения предложенных методов с двумя другими методами резюмирования видео. Первый из сравниваемых применяет минимизацию критерия взаимной корреляции для выполнения суммирования. Таким образом, самые некоррелированные видеокадры выбираются как наиболее подходящие. Второй сравниваемый метод относится к категории методов, которые используют временное изменение траектории вектора признаков для выполнения анализа. В этом случае результаты даже ниже, чем при первом подходе.
Таблица 1 . Результаты Precision, Recall и F1 для предложенного алгоритма суммирования видео d-PCA и сравнения с другими методами.
Сопоставленные результаты показывают, что наша схема d-PCA для суммирования видео больше подходит в нашем случае, когда нам нужно вывести модели трехмерной реконструкции из коротких видео, чем другие традиционные алгоритмы суммирования видео. Это означает, что d-PCA может лучше выбирать большое количество видов объектов под разными углами и ориентациями (значение точности), одновременно выбирая все потенциальные виды, необходимые для процесса реконструкции (значения вызова).С другой стороны, другие традиционные современные алгоритмы суммирования видео лучше подходят для обнаружения кадров, которые в основном некоррелированы [например, алгоритм в Panagiotakis et al. (2009)] или представляет пиковые вариации в пространстве признаков [например, алгоритм в Torresani et al. (2008)].
Мы выбрали эти два метода суммирования видео, которые будут использоваться для сравнения с предлагаемым подходом d-PCA, поскольку они охватывают весь диапазон методов суммирования видео путем обнаружения (i) визуально несущественного контента [некоррелированный — см. (Avrithis et al., 1999)] или путем обнаружения (ii) периодических моделей движения [подход (Doulamis et al., 2000a)]. Эти два подхода представляют собой всю структуру схемы резюмирования видео. Что касается временной эффективности этих методов, работа (Doulamis et al., 2000a) может быть реализована в режиме реального времени и подходит даже для устройств бытовой электроники. Наш подход d-PCA более подходит для поиска различных видов и ориентации объектов и, следовательно, для трехмерной реконструкции. В этом случае время, необходимое для реконструкции, может быть больше, чем в реальном времени, поскольку цель состоит не в том, чтобы извлечь трейлер видеопоследовательности за короткое время, а в том, чтобы минимизировать время, необходимое для реконструкции, путем отказа от аналогичных видов объектов.
Эффективность 3D-реконструкции
Мы приводим экспериментальные результаты, чтобы показать эффективность трехмерной реконструкции, когда был принят предложенный алгоритм суммирования видео. Контент данных в основном относится к памятникам культурного наследия, в которых доступно большое количество распределенного мультимедийного контента. В частности, на рисунке 2A мы изображаем точность реконструкции с использованием схемы SfM, когда 100 изображений были выбраны из пула видео, содержание которых иллюстрирует визуальную информацию из Памятника открытиям (Padrão dos Descobrimentos) в Лиссабоне, Португалия. .Этот памятник был выбран потому, что он содержит много геометрических деталей, таких как строение людей (моряков) на лодке. Обнаруженные при реконструкции пустоты связаны с тем, что доступное содержимое изображения не содержит адекватной информации для правильной реконструкции памятника. На рисунках 2B – D представлена трехмерная реконструкция, когда выбрано меньшее количество кадров изображения, в то время как мы одновременно рассматриваем оставшиеся данные изображения как выбросы. Перегородка сделана случайным образом, так что некоторые характерные изображения памятника могут быть утеряны.Это основная причина того, что точность реконструкции памятника значительно ухудшается, так как количество кадров изображения, используемых в качестве вставок, уменьшается. В частности, когда количество вставок составляет 60% от первоначального, производительность 3D-реконструкции настолько плоха, что памятник даже не узнаваем. Основные результаты такого резкого ухудшения точности 3D-реконструкции связаны с расположением Памятников Открытиям. Его расположение на берегу моря не позволяет осуществлять полный сферический мониторинг контента для всех углов и ориентаций, а производительность SfM не может гарантировать достаточную точность реконструкции.
Рисунок 2 . Влияние количества выбросов на производительность реконструкции с использованием алгоритма SfM. (A) 100 выбросов, 0 выбросов. (B) 90 выбросов, 10 выбросов. (C) 70 выбросов, 30 выбросов. (D) 60 выбросов, 40 выбросов.
Здесь необходимо подчеркнуть, что лучшая реконструкция, достигнутая на Рисунке 2A, использует только небольшое ограниченное количество кадров изображения, чем количество, обычно используемое для SfM. Другими словами, это означает, что, хотя фактически используется небольшое количество кадров изображения, результаты реконструкции имеют относительно достаточное качество.Другой интересный момент заключается в том, что выбранные изображения, подаваемые в качестве входных данных в SfM, не подходят для восстановления всей геометрии. Вместо этого они были извлечены с использованием предложенного алгоритма суммирования видео d-PCA. Это понятие доказывает значимость нашей схемы. Используя только очень небольшой набор данных изображений, снятых по совершенно другим причинам, чем у нас, достигается достаточная трехмерная реконструкция на лету интересующих участков.
Подобные результаты наблюдаются и для другого выдающегося памятника — Эйфелевой башни в Париже, Франция.Результаты на рисунке 3 начинаются с извлечения 100 кадров изображения из пула коротких видеороликов, на которых изображен памятник Эйфелевой башне. Снова отметим, что достаточная реконструкция достигается при выборе небольшого и неструктурированного количества кадров. Если количество кадров уменьшается, а выбросы одновременно увеличиваются, точность также ухудшается, но в этом случае сохраняется достаточный уровень детализации. Это связано с положением номера, которое позволяет снимать видео со всех возможных углов и ориентаций.Это не относится к трехмерной реконструкции рисунка 2.
Рисунок 3 . Влияние количества выбросов на производительность реконструкции с использованием алгоритма SfM. (A) 100 выбросов, 0 выбросов. (B) 90 выбросов, 10 выбросов. (C) 70 выбросов, 30 выбросов. (D) 60 выбросов, 40 выбросов.
В результате, в нашем подходе около 100 изображений считаются достаточными для удовлетворительной реконструкции памятника.Однако эти изображения были выбраны путем удаления множества выбросов и сохранения только наиболее репрезентативных данных, которые автоматически извлекаются нашими алгоритмами.
Таблица 2 показывает время выполнения для методов трехмерной реконструкции в зависимости от количества изображений, подаваемых в качестве входных данных в SfM. Понятно, что по мере увеличения количества изображений соответствующее требуемое время также увеличивается, но также улучшается точность восстановления. Таким образом, существует компромисс между запрошенным временем и точностью 3D.Это показывает значение нашей схемы. Цель состоит в том, чтобы выбрать небольшое количество кадров из коротких видеороликов, которые будут максимально отражать виды памятника с разной ориентацией. Увеличение количества кадров приведет к увеличению затрат, в то время как то, что мы можем достичь в точности реконструкции, становится все более насыщенным, несмотря на увеличение количества используемых кадров. Таким образом, если нам нужно достичь высокой детализации 3D-реконструкции, мы должны учитывать больше кадров, представляющих различные виды объектов.Напротив, если есть ограничение по времени, например, из-за возможностей наших устройств (например, мобильных устройств), следует использовать меньшее, но репрезентативное количество кадров, чтобы ускорить процесс, сохраняя при этом точность восстановления как можно более высокой. Мы должны подчеркнуть, что SfM является полиномиальным комплексным алгоритмом и, таким образом, с увеличением количества кадров, используемых в качестве входных данных, время экспоненциально увеличивается.
Таблица 2 . Время выполнения 3D-реконструкции в зависимости от количества поданных изображений.
Влияние предлагаемой схемы на культурное наследие
Подавляющее большинство материальных активов культурного наследия расположено в регионах, где полная защита невозможна из-за финансовых, экологических, политических, религиозных или других местных факторов. Большинство стран земного шара являются бедными, стремясь к увеличению доходов и качества жизни своих граждан, оставляя, таким образом, защиту культурного наследия вторым вариантом. Кроме того, региональная бедность часто сопровождается ухудшением состояния почвы, воды и воздуха.Эти загрязнители окажут огромное влияние на материалы объектов, разрушая их структуру и тем самым подвергая опасности культурное наследие. С другой стороны, локальные конфликты, войны, грабежи и другие споры часто приводят к частичному или полному разрушению культурных объектов с большим влиянием культуры и местной цивилизации.
Археологам, ученым и инженерам в области культурного наследия необходимы трехмерные геометрические модели объектов культурного наследия для получения их документации.Однако финансирование процедур 3D-съемки для всего множества памятников культурного наследия невозможно, особенно для бедных или нестабильных стран. Этот пробел покрывается предлагаемой схемой, которая использует простые видеокадры, в основном снятые с туристических целей или простых визитов, для получения трехмерных геометрических моделей объектов. Последние достижения в области аппаратных и программных технологий делают устройства для видеозахвата недорогими, и поэтому простые видеозаписи доступны для всех, в любое время и в любом месте.Таким образом, может быть достигнута обширная 3D-документация и защита.
С другой стороны, производные 3D-модели могут быть полезны для приложений дополненной реальности (AR), запускающих новую серию приложений, таких как игры для продвижения объектов культурного наследия, наложение естественного на виртуальные объекты для более точного документирования и связи некоторых культурные ценности с другими.
Выводы
Сегодняшнее резкое снижение стоимости сбора мультимедийных данных стимулировало значительное расширение мультимедийных данных, которые хранятся и обрабатываются в распределенных и гетерогенных репозиториях.Это приводит к огромному количеству мультимедийных данных, которые можно использовать для запуска нескольких приложений и запуска новых мультимедийных сетевых служб.
Одно из ключевых преимуществ этого огромного объема мультимедийной информации заключается в том, что его можно использовать для трехмерной реконструкции интересующих объектов, памятников, мест или других регионов без дополнительных затрат на обработку или захват мультимедийного контента с высокой степенью точности. В большинстве вышеупомянутых мультимедийных репозиториев наличие коротких видеороликов, в основном записываемых для личного использования, составляет значительную часть мультимедийной информации, которую можно использовать для обработки 3D.Чтобы идентифицировать ключевые кадры, изначально видео группируются вместе в соответствии с их текстовыми описаниями, полученными из аннотации подписи. Затем предлагается алгоритм удаления выбросов, чтобы сделать пул видео более однородным. Ядром предложенной схемы является реализация новой схемы резюмирования видео, основанной на дискриминантном анализе главных компонентов (d-PCA).
Эксперименты, проведенные на большом наборе данных о культурных объектах, показывают, что предложенный алгоритм (а) может 3D-реконструировать сайты или объекты, представляющие интерес, даже если данные были получены из неструктурированного визуального контента, (б) предложенная схема обобщения может точно локализовать данные, представляющие интерес, чем другие подходы.Результаты показывают, что даже небольшого количества кадров достаточно для восстановления интересующих объектов.
В будущем мы намерены расширить эту работу за счет встраивания временной составляющей в фазу реконструкции; то есть, как памятник развивается во времени и по сезонам. Это приведет к масштабной 4-мерной реконструкции f (трехмерная геометрия плюс время) (Kyriakaki et al., 2014). Это запустит серию новых приложений как для специалистов по культуре, так и для простых пользователей.Например, последний может поделиться уникальными 3D-впечатлениями о том, как памятник меняется в разные сезоны под снегом, дождем или жаркими условиями. Первые могут иметь некоторые небольшие геометрические изменения в памятниках, которые могут помочь им в документации и анализе. Кроме того, масштабная трехмерная реконструкция может улучшить ряд приложений в области дополненной реальности (AR) и виртуальной реальности (VR), наложив алгоритм рассказывания историй с уникальными трехмерными объектами.
4D моделирование может быть очень полезным для освещения эпохи нематериального культурного наследия и особенно оцифровки танцев.Танец можно рассматривать как динамическую модель, эволюционировавшую во времени, и поэтому четырехмерная реконструкция может быть гораздо более сложной и требовательной (Aristidou et al., 2014, 2016). Для такой оцифровки необходимо было применять специализированные программные инструменты, такие как VICON (Rallis et al., 2017, 2018), в то время как его неструктурированное моделирование из пользовательского контента действительно является очень сложной задачей.
Авторские взносы
Автор подтверждает, что является единственным соавтором этой работы, и одобрил ее к публикации.
Финансирование

Работа поддержана проектом h3020 TERPSICHORE «Преобразование нематериального фольклорного исполнительского искусства в осязаемые хореографические цифровые объекты», финансируемого Европейским союзом, в рамках грантового соглашения 6.

Заявление о конфликте интересов

Автор заявляет, что исследование проводилось в отсутствие каких-либо коммерческих или финансовых отношений, которые могут быть истолкованы как потенциальный конфликт интересов.

Список литературы

Альсадик Б., Герке М., Фоссельман Г., Дахам А. и Ясим Л. (2014). Минимальные сети камер для моделирования объектов культурного наследия на основе трехмерных изображений. Датчики 14, 5785–5804. DOI: 10.3390 / s140405785

PubMed Аннотация | CrossRef Полный текст | Google Scholar

Анкерст, М., Бройниг, М. М., Кригель, Х. П., и Сандер, Дж. (1999). ОПТИКА: точки упорядочивания для определения структуры кластеризации. Запись Sigmod ACM 28, 49–60, DOI: 10,1145 / 304181.304187

CrossRef Полный текст | Google Scholar

Аристиду А., Ставракис Э., Хараламбус П., Хрисанту Ю. и Химона С. Л. (2016). Оценка народного танца с использованием анализа движений лабана. J. Comput. Культ. Наследие 8:20. DOI: 10.1145 / 2755566

CrossRef Полный текст | Google Scholar

Аристиду, А., Ставракис, Э., Хрисанту, Ю. (2014). Анализ движения для оценки народного танца, в GCH , ред. Д. Феллнер и Р. Скопиньо (Дармштадт), 55–64.

Google Scholar

Авритис, Ю. С., Дуламис, А. Д., Дуламис, Н. Д., и Коллиас, С. Д. (1999). Стохастическая структура для оптимального извлечения ключевых кадров из баз данных видео MPEG. Comput. Видение изображения понять. 75, 3–24, DOI: 10.1006 / cviu.1999.0761

CrossRef Полный текст | Google Scholar

Бараццетти, Л., Скайони М., Ремондино Ф. (2010). Ориентация и 3D-моделирование по наземным изображениям без маркеров: сочетание точности и автоматизации. Фотограмметр. Запись 25, 356–381. DOI: 10.1111 / j.1477-9730.2010.00599.x

CrossRef Полный текст | Google Scholar

Боллес, Р. К., Бейкер, Х. Х. и Маримон, Д. Х. (1987). Анализ изображений в эпиполярной плоскости: подход к определению структуры по движению. Внутр. J. Comput. Vis. 1, 7–55. DOI: 10.1007 / BF00128525

CrossRef Полный текст | Google Scholar

Бруно, Ф., Бруно, С., Де Сенси, Г., Лучи, М. Л., Манкузо, С., и Муццупаппа, М. (2010). От 3D-реконструкции до виртуальной реальности: полная методология цифровой археологической выставки. J. Cult. Наследие 11, 42–49. DOI: 10.1016 / j.culher.2009.02.006

CrossRef Полный текст | Google Scholar

Чернекова З., Питас И. и Никоу К. (2006). Обнаружение среза / затухания кадра на основе теории информации и обобщение видео. IEEE Transact. Circ. Syst. Video Technol. 16, 82–91.DOI: 10.1109 / TCSVT.2005.856896

CrossRef Полный текст | Google Scholar

Дорнингер П. и Нотеггер К. (2007). «Трехмерная сегментация неструктурированных облаков точек для моделирования зданий», Proc. фотограмметрического анализа изображений (PIA) , 191–196

Google Scholar

Дуламис, А., Дуламис, Н., Протопападакис, Э., Вулодимос, А., и Иоаннидес, М. (2018). «4D моделирование в культурном наследии» в Advances in Digital Cultural Heritage .(Чам: Спрингер), 174–196.

Google Scholar

Doulamis, A., Ioannides, M., Doulamis, N., Hadjiprocopis, A., Fritsch, D., Balet, O., et al. (2013). 4D реконструкция прошлого. Proc. SPIE 8795: 87950J. DOI: 10.1117 / 12.2029010

CrossRef Полный текст | Google Scholar

Doulamis, A.D., Doulamis, N., and Kollas, S. (2000b). Непоследовательное представление видеоконтента с использованием временных вариаций векторов признаков. IEEE Transact. Consumer Electron. 46, 758–768. DOI: 10.1109 / 30.883444

CrossRef Полный текст | Google Scholar

Дуламис, А. Д., Дуламис, Н. Д., и Коллиас, С. Д. (2000a). Нечеткое представление видеоконтента для обобщения видео и поиска на основе содержимого. Сигнальный процесс. 80, 1049–1067. DOI: 10.1016 / S0165-1684 (00) 00019-0

CrossRef Полный текст | Google Scholar

Дуламис, Н., Якуметтис, К., Миаулис, Г., и Протопападакис, Э. (2013). «Методология индуктивного обучения-спектральной кластеризации с ограничениями для персонализированной трехмерной навигации», в Международном симпозиуме по визуальным вычислениям (Берлин, Гейдельберг: Springer).

Google Scholar

Дуламис, Н. Д., Дуламис, А. Д., Авритис, Ю. С., Нталианис, К. С., и Коллиас, С. Д. (2000). Эффективное обобщение стереоскопических видеопоследовательностей. IEEE Transact. Circ. Syst. Video Technol. 10, 501–517. DOI: 10.1109 / 76.844996

CrossRef Полный текст | Google Scholar

Дуламис, Н. Д., Дуламис, А. Д., Коккинос, П., и Варваригос, Е. (2016). Обнаружение событий в микроблогах twitter. IEEE Trans. Кибернет. 46, 2810–2824, DOI: 10.1109 / TCYB.2015.2489841

PubMed Аннотация | CrossRef Полный текст | Google Scholar

Фрич Д., Кляйн М. (2018). Сохранение зданий в 3D — реконструкция прошлого. Мультимедийные инструменты Прил. 77, 9153–9170. DOI: 10.1007 / s11042-017-4654-5

CrossRef Полный текст | Google Scholar

Гаргалло П. и Штурм П. (2005). Байесовское 3D-моделирование из изображений с использованием нескольких карт глубины. Proc. IEEE Comput. Soc.Конференция. Comput. Vis. Распознавание образов. 2, 885–891. DOI: 10.1109 / CVPR.2005.84

CrossRef Полный текст | Google Scholar

Георгусис С., Стентумис К., Дуламис Н. и Вулодимос А. (2016). «Гибридный алгоритм для плотных стереозвучаний в сложных сценах внутри помещений», в IEEE International Conference on Imaging Systems and Techniques, 460-465 , Chania.

Google Scholar

Го, Л., Чен, X., Лю, Б., и Лю, Т. (2014). Реконструкция 3D-объекта на основе объединения изображений глубины сенсором Kinect. J. Appl. Оптика 35, 811–816.

Google Scholar

Халкос Д., Дуламис Н. и Дуламис А. (2009). Безопасная среда, использующая управляемые и автоматизированные алгоритмы для поиска видео в реальном времени. Мультимедийные инструменты Прил. 42, 343–375. DOI: 10.1007 / s11042-008-0234-z

CrossRef Полный текст | Google Scholar

Хуанг, Х., Каньярт, К., Бойер, Э., Илич, С. (2016). Байесовский подход к многовидевому 4D-моделированию. Внутр.J. Comput. Vis. 116, 115–135. DOI: 10.1007 / s11263-015-0832-y

CrossRef Полный текст | Google Scholar

Ioannides, M., Hadjiprocopis, A., Doulamis, N., Doulamis, A.E., Protopapadakis, et al. (2013). Онлайн-реконструкция 4D с использованием нескольких изображений. ISPRS Ann. Photogr. Remote Sens. Saptial Inform. Sci. 1, 169–174. DOI: 10.5194 / isprsannals-II-5-W1-169-2013

CrossRef Полный текст | Google Scholar

Иоаннидис, К., Поциу, К., Соиле, С., Верикоку, С., Мурафетис, Г., Дуламис, Н. (2016). «Технические аспекты создания многомерной системы информации о земле», в Международном архиве фотограмметрии, дистанционного зондирования и пространственной информации (Пафос), 41.

Google Scholar

Иоаннидис К., Псалтис К. и Поциу К. (2009). На пути к стратегии управления неформальными зданиями в пригородах с помощью автоматического обнаружения изменений. Comput. Environ. Городская сист. 33, 64–74.DOI: 10.1016 / j.compenvurbsys.2008.09.010

CrossRef Полный текст | Google Scholar

Цзи, З., Чжан, Ю., Панг, Ю., и Ли, X. (2018). Резюмирование нескольких видео на основе доминирующего гиперграфа. Сигнальный процесс. 148, 114–123. DOI: 10.1016 / j.sigpro.2018.01.028

CrossRef Полный текст | Google Scholar

Ким, Х., Юн, И., Ким, Т., и Пайк, Дж. (2016). «Обобщение видео с использованием несходства функций», Международная конференция по электронике, информации и коммуникациям, ICEIC (Дананг).

Google Scholar

Ким, В. Х., Ким, Х., Пак, Дж. Х. и Чон, С. Ю. (2014). Схема блокировки по временному шаблону для защиты мультимедийного содержимого на устройстве, ориентированном на человека. Sci. Мир J. 2014: 796515. DOI: 10.1155 / 2014/796515

PubMed Аннотация | CrossRef Полный текст | Google Scholar

Ким, Ю. М., Теобальт, К., Дибель, Дж., Косецка, Дж., Мискусик, Б., и Трун, С. (2009). «Слияние мультиракурсного изображения и датчика ToF для плотной трехмерной реконструкции», IEEE 12-я международная конференция по семинарам по компьютерному зрению, ICCV Workshops (Киото), 1542–1546.

Google Scholar

Космопулос, Д. И., Дуламис, А., Макрис, А., Дуламис, Н., Хатзис, С., и Миддлтон, С. Е. (2009). Создание персонализированного видео на основе зрения. Сигнальный процесс. Image Commun. 24, 158–176. DOI: 10.1016 / j.image.2008.12.010

CrossRef Полный текст | Google Scholar

Куанар, С. К., Ранга, К. Б., и Чоудхури, А. С. (2015). Обобщение многовидового видео с использованием кластеризации леса оптимального пути с двусторонним сопоставлением с ограничениями. IEEE Transact. Мультимедиа 17, 1166–1173. DOI: 10.1109 / TMM.2015.2443558

CrossRef Полный текст | Google Scholar

Кириакаки Г., Дуламис А., Дуламис Н., Иоаннидес М., Макантасис К., Протопападакис Э. и др. (2014). 4D реконструкция материальных объектов культурного наследия по изображениям, полученным из Интернета. Внутр. J. Heritage Dig. Эра 3, 431–451. DOI: 10.1260 / 2047-4970.3.2.431

CrossRef Полный текст | Google Scholar

Лаггис, А., Дуламис, Н., Протопападакис, Э., и Георгопулос, А. (2017). Недорогая безмаркерная система слежения для интерпретации траектории. Внутр. Arch. Фотограмметрия Дистанционное зондирование. Пространственная информация. Sci. 42, 413–418. DOI: 10.5194 / isprs-archives-XLII-2-W3-413-2017

CrossRef Полный текст | Google Scholar

Ли Ю., Чжан З., Пэн Ю., Инь Х. и Сюй К. (2018). Сопоставление учетных записей пользователей на основе пользовательского контента в социальных сетях. Future Generat. Comput. Syst. 83, 104–115. DOI: 10.1016 / j.future.2018.01.041

CrossRef Полный текст | Google Scholar

Ли З., Шустер Г. М. и Кацаггелос А. К. (2005). Оптимальное резюмирование видео MINMAX. IEEE Transact. Circ. Syst. Video Technol. 15, 1245–1256. DOI: 10.1109 / TCSVT.2005.854230

CrossRef Полный текст | Google Scholar

Мадемлис И., Тефас А., Николаидис Н. и Питас И. (2016). Мультимодальное стереоскопическое реферирование фильма в соответствии с повествовательными характеристиками. IEEE Transact. Процесс изображения. 25, 5828–5840. DOI: 10.1109 / T.I.P.2016.2615289

PubMed Аннотация | CrossRef Полный текст | Google Scholar

Макантасис, К., Дуламис, А., Дуламис, Н., и Иоаннидес, М. (2016). Поиск и кластеризация изображений в естественных условиях для трехмерной реконструкции памятников культурного наследия. Мультимедийные инструменты Прил. 75, 3593–3629. DOI: 10.1007 / s11042-014-2191-z

CrossRef Полный текст | Google Scholar

Мэн, Дж., Ван, С., Ван, Х., Юань, Дж., И Тан, Ю. П. (2018). Обобщение видео с помощью многовидового репрезентативного выбора. IEEE Transact. Процесс изображения. 27, 2134–2145. DOI: 10.1109 / TIP.2017.2789332

PubMed Аннотация | CrossRef Полный текст | Google Scholar

Деньги, А. Г., Агиус, Х. (2008). Обобщение видео: концептуальная основа и обзор современного состояния. J. Visual Commun. Представление изображения 19, 121–143. DOI: 10.1016 / j.jvcir.2007.04.002

CrossRef Полный текст | Google Scholar

Мундур, П., Рао Ю. и Йеша Ю. (2006). Обобщение видео по ключевым кадрам с использованием кластеризации Делоне. Внутр. J. Dig. Библиотеки 6, 219–232. DOI: 10.1007 / s00799-005-0129-9

CrossRef Полный текст | Google Scholar

Ngo, W. C., Ma, F. Y., и Zhang, J. H (2005). Обобщение видео и обнаружение сцены с помощью графического моделирования. IEEE Transact. Circ. Syst. Video Technol. 15, 296–304. DOI: 10.1109 / TCSVT.2004.841694

CrossRef Полный текст | Google Scholar

Нгуен, К.В., Изади, С., Ловелл, Д. (2012). «Моделирование шума сенсора kinect для улучшенной 3D-реконструкции и отслеживания», Труды — 2-я совместная конференция 3DIM / 3DPVT: 3D-изображения, моделирование, обработка, визуализация и передача, 3DIMPVT 2012 (Цюрих), 524–530.

Google Scholar

Нталианис, К., Дуламис, Н. (2016). Автоматическая схема обобщения человеческой жизни, дополняющая события, основанная на методе социальных вычислений поверх контента социальных сетей. Мультимедийные инструменты Прил. 75, 15123–15149. DOI: 10.1007 / s11042-015-2454-3

CrossRef Полный текст | Google Scholar

Панайотакис К., Дуламис А. и Циритас Г. (2009). Выбор эквивалентных ключевых кадров на основе принципов iso-content. IEEE Transact. Circ. Syst. Video Technol. 19, 447–451. DOI: 10.1109 / TCSVT.2009.2013517

CrossRef Полный текст | Google Scholar

Панайотакис К., Гриниас И. и Циритас Г. (2007). «Обобщение видео MINMAX в соответствии с принципом равенства», IEEE 9-й международный семинар по обработке мультимедийных сигналов, MMSP (Ханья), 272–275.

Google Scholar

Раллис И., Дуламис Н., Дуламис А., Вулодимос А. и Вескукис В. (2018). Пространственно-временное обобщение танцевальной хореографии. Comput. График. 73, 88–101. DOI: 10.1016 / j.cag.2018.04.003

CrossRef Полный текст | Google Scholar

Раллис И., Георгулас И., Дуламис Н., Вулодимос А. и Терзопулос П. (2017). «Извлечение ключевых поз из трехмерных данных движения человека для обобщения хореографии», 9-я Международная конференция IEEE по виртуальным мирам и играм для серьезных приложений (VS-Games) (Афины), 94–101.

Google Scholar

Ремондино, Ф., и Клайв, Ф. (2005). «Методы калибровки цифровых фотоаппаратов: соображения и сравнения» в Международном архиве фотограмметрии, дистанционного зондирования и пространственной информации , том . 36, изд. Международное общество фотограмметрии и дистанционного зондирования (Heipke: Международное общество фотограмметрии и дистанционного зондирования), 266–272.

Google Scholar

Ремондино, Ф., и Эль-Хаким, С. (2006). Трехмерное моделирование на основе изображений: обзор. Фотограмметрическая Рек. 21, 269–291. DOI: 10.1111 / j.1477-9730.2006.00383.x

CrossRef Полный текст | Google Scholar

Ремондино, Ф., и Стилианидис, Э. (2016). 3D-запись, документирование и управление культурным наследием . Издательство Whittles.

Google Scholar

Ротгангер Ф., Лазебник С., Шмид К. и Понсе Дж. (2006). Моделирование и распознавание 3D-объектов с использованием локальных аффинно-инвариантных дескрипторов изображений и пространственных ограничений с несколькими представлениями. Внутр. J. Comput. Vis. 66, 231–259. DOI: 10.1007 / s11263-005-3674-1

CrossRef Полный текст | Google Scholar

Rublee, E., Rabaud, V., Konolige, K., and Bradski, G. (2011). «ORB: эффективная альтернатива SIFT или SURF», Международная конференция IEEE по компьютерному зрению, ICCV (Барселона), 2564–2571.

Google Scholar

Рутковски, Т. М., и Мандич, Д. П. (2007). «Моделирование коммуникационной атмосферы: ориентированный на человека мультимедийный подход для оценки коммуникативных ситуаций», в Lecture Notes in Computer Science (включая подсерии Lecture Notes по искусственному интеллекту и Lecture Notes по биоинформатике), 4451 LNAI , 155–169.

Google Scholar

Сану Б. (2015). «Факты и цифры в области ИКТ», Отдел данных и статистики по ИКТ, Бюро развития электросвязи, Международный союз электросвязи (МСЭ), Place des Nations. Швейцария.

Google Scholar

Schnabel, R., Wahl, R., and Klein, R. (2007). Эффективный RANSAC для определения формы облака точек. Comput. График. Форум 26, 214–226. DOI: 10.1111 / j.1467-8659.2007.01016.x

CrossRef Полный текст | Google Scholar

Севильяно, X., Пиатрик, Т., Чандрамули, К., Чжан, К., и Искьердо, Э. (2012). Индексирование больших онлайн-репозиториев мультимедиа с использованием семантического расширения и визуального анализа. Мультимедиа IEEE 19, 53–61. DOI: 10.1109 / MMUL.2012.28

CrossRef Полный текст | Google Scholar

Смит, М., Сонготт, К., Хенне, Б., и фон Фойгт, Г. (2012). «Проблемы конфиденциальности больших данных в общедоступных социальных сетях», , 6-я Международная конференция IEEE по технологиям цифровых экосистем (DEST) (Кампионе д’Италия), 1-6.

Google Scholar

Соурсос, С., Дуламис, Н. (2012). «Подключенное телевидение и не только», IEEE Consumer Communications and Networking Conference, CCNC (Лас-Вегас, Невада), 582–586.

Google Scholar

Торресани Л., Герцманн А. и Бреглер К. (2008). Нежесткая структура на основе движения: оценка формы и движения с иерархической априорной вероятностью. IEEE Transact. Pattern Anal. Мах. Intell. 30, 878–892. DOI: 10.1109 / TPAMI.2007.70752

PubMed Аннотация | CrossRef Полный текст | Google Scholar

Триггс, Б., Маклаучлан, П. Ф., Хартли, Р. И., и Фитцгиббон, А. В. (1999). «Регулировка пакетов — современный синтез», на Международном семинаре по алгоритмам зрения. Берлин, Гейдельберг: Шпрингер. 298–372.

Google Scholar

Верикоку, С., Иоаннидис, К., Афанасиу, Г., Дуламис, Н., и Амдитис, А. (2017). Трехмерная реконструкция сцен бедствий для городских поисково-спасательных служб. Мультимедийные инструменты Прил. 77: 9691. DOI: 10.1007 / s11042-017-5450-y

CrossRef Полный текст | Google Scholar

Вишневская, Е.В., Климова Т. Б., Богомазов И. В., Думачева Е. В., Яковенко О. В. (2015). Важность мультимедийного и интерактивного контента для повышения туристической привлекательности территории. Medit. J. Soc. Sci. 6, 561–567. DOI: 10.5901 / mjss.2015.v6n4s1p561

CrossRef Полный текст | Google Scholar

Ван Г., Чен Дж. И Гианнакис Г. Б. (2018). «DPCA: уменьшение размерности для дискриминационной аналитики множества крупномасштабных наборов данных», в IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Calgary .

Google Scholar

Ван С., Дей С. (2013). Адаптивные мобильные облачные вычисления для создания многофункциональных мобильных мультимедийных приложений. IEEE Trans Multimedia 15, 870–883. DOI: 10.1109 / TMM.2013.2240674

CrossRef Полный текст | Google Scholar

Вестоби, М. Дж., Брасингтон, Дж., Глассер, Н. Ф., Хэмбри, М. Дж., И Рейнольдс, Дж. М. (2012). Фотограмметрия структуры из движения: недорогой и эффективный инструмент для приложений геолого-геофизических исследований. Геоморфология 179, 300–314.DOI: 10.1016 / j.geomorph.2012.08.021

CrossRef Полный текст | Google Scholar

Ся Д., Ян Ф. и Ли К. (2013). Быстрое 3D моделирование из изображений. Optik 124, 4621–4626. DOI: 10.1016 / j.ijleo.2013.01.090

CrossRef Полный текст | Google Scholar

Ястикли, Н. (2007). Документирование культурного наследия с помощью цифровой фотограмметрии и лазерного сканирования. J. Cult. Наследие 8, 423–427. DOI: 10.1016 / j.culher.2007.06.003

CrossRef Полный текст | Google Scholar

Якуметтис, К., Дуламис, Н., Миаулис, Г., и Газанфарпур, Д. (2014). Активное изучение предпочтений пользователя, оценка персонализированной трехмерной навигации сцен с географической привязкой. GeoInformatica 18, 27–62. DOI: 10.1007 / s10707-013-0176-0

CrossRef Полный текст | Google Scholar

Чжан Л., Чен Х. (2014). «Автоматическое трехмерное моделирование на основе топологии из нескольких изображений», 6-я Международная конференция по беспроводной связи и обработке сигналов, WCSP (Хэфэй).

Google Scholar

Реконструкция 3D-сцены и распознавание объектов

Реконструкция 3D-сцены и распознавание объектов Контакты: Майкл Рид
Роботизированное лазерное сканирование детали.
Создание моделей сцен было одной из центральных целей в компьютерное зрение. Обычно это делается по частям определение различных частей сцены и из этих частей построение представления целого.В отличие от того, что мы здесь представлен метод, который приводит к созданию модели всю сцену, которая может быть как одним, так и несколькими объектами. Этот способ включает в себя построение твердотельных моделей путем сканирования сцены с помощью лазера дальномер. Отличные модели создаются из каждого из нескольких представлений, и пересечение этих моделей образует твердое представление сцена, из которой берется модель САПР.
На этапе сканирования лазерный луч проходит по объекту, который необходимо imaged, генерируя массив значений глубины.Размер массива определяется количеством значений глубины в направлениях X и Y и динамический диапазон датчика (т. е. количество бит оцифровки). Сканирование ни в коем случае не идеальный процесс. Лазерные дальномеры имеют шум, который зависит от материала поверхности, цвета и геометрия. Кроме того, шум не имеет нормального распределения и составляет поэтому удалить сложно.
Для получения точных оценок данные должны быть сглажены путем применения фильтровать или использовать метод оценки.Мы обнаружили, что это просто предварительная обработка с помощью медианного фильтра с последующей адаптивной планарной подгонкой достаточно хорошо работает для многогранных объектов или объектов, где кривизна не находится в плоскости X-Y тепловизора.
Собранных данных достаточно, но они содержат мало информации о сложность и топология сканируемого объекта. Чтобы построить высокоуровневой модели необходимо сгруппировать данные соседних точек в области одинаковой поверхности. Этот процесс сегментации включает маркировку те части изображения, которые лежат на общем геометрическом объекте.Мы нашли комбинацию роста области и анализа нормалей к поверхности облегчает быструю сегментацию, но при этом позволяет настраивать параметры сегментации. Эти параметры включают минимум размер каждого сегмента, максимальное отклонение нормалей поверхности между соседние сегменты, максимальная погрешность подгонки значения глубины к фрагменту поверхности, максимальная погрешность подгонки участка всей поверхности и выпуклость поверхности дорожка.
После того, как неполная модель была построена для каждого из изображений диапазона, представления должны быть объединены каким-либо образом, чтобы получить более точный представление сцены.Желаемые характеристики для представления: чтобы он был эффективным при моделировании сегментированных данных каждого представления и иметь возможность быстро объединить разные представления в один, точное представление данных. Таким представлением является Дерево разделения двоичного пространства, или BSPT (см. Х. Фукс, З. Кедем и Б. Нейлор, «О генерации видимой поверхности деревом априори» Структуры », в компьютерной графике, 14 (3), июнь 1990 г.). BSPT имеет уникальные преимущества в качестве промежуточного представления для различных Просмотры.Его древовидная структура позволяет использовать очень эффективные алгоритмы. разработан, он компактен и надежен в числовом отношении. Способность быстрое объединение трехмерных данных, представленных в виде BSPT, лежит в основе наших Предлагаемая работа. Мы сможем сделать несколько видов объекта. с помощью нашего лазерного сканера сегментируйте данные на плоские области и это построит BSPT для каждого представления. Каждое из этих представлений представляет декомпозиции трехмерного пространства, и, быстро объединив деревья, мы можем создать новое составное дерево, представляющее весь объект, который будет отсканировано.
В нашей экспериментальной системе лазерный дальномер серво-робота управляется роботом Puma 560 (см. изображение выше). В дальномер сканирует лазерный луч по дуге, так что одно сканирование линия восстанавливается. Puma 560 перемещает сканирующую головку перпендикулярно к плоскости сканирования, что позволяет получать двумерный массив значения глубины или диапазон изображения сканируемой детали. В разрешение лазера регулируется, как и перевод рука робота, позволяющая получать от очень грубых до очень точных данных приобретенный.
Рис. 1. Необработанное изображение лазерного диапазона и соответствующее сегментированное изображение.
Рис. 2. Моделирование модели и фактический объем перекрытия, рассчитанный по ее граням.
Лазер получает изображение детали путем сканирования одной стороны. А алгоритм сегментации используется для группировки данных и определения полигональные участки поверхности. Необработанные отсканированные данные и сегментированное изображение для одного вида показаны на рисунке 1. Многоугольные области поверхности используется для построения BSPT-представления лиц, видимых сканером.Затем запускается алгоритм видимости, чтобы определить, какие регионы закрыты этими лицами. На рисунке 2 мы показываем изображение диапазона, a смоделированная модель лиц, разработанная на основе этого изображения, и вывод алгоритма видимости на этой моделируемой модели. Окклюзионные области можно идентифицировать и использовать для планирования следующего сканирования. Напомним, что Показанный объем — это область, которую сканер не может отобразить из-за окклюзия. На этом этапе алгоритм планирования датчика вычислит новую область сканируемого объекта, чтобы сканер исследовал как можно больше окклюзированной области.Тогда процесс будет повторяется для нового вида. Два других смоделированных вида, выбранных вручную, показаны на рисунках 3 и 4. Последний шаг — выполнить каждый из BSPT и объединить их вместе, образуя полную твердую модель, такую как Модель объекта представлена на рисунке 5.
Рис. 3. Необработанное изображение лазерного диапазона, моделирование и сгенерированный объем закупоривания со второго вида.
Рис. 4. Необработанное изображение лазерного диапазона, моделирование и сгенерированный объем перекрытия с третьего ракурса.
Рис. 5. Имитация модели объекта, созданной пересечением перекрывающих объемов.
Вернуться в домашняя страница лаборатории робототехники
Стандарты реконструкции / Руководство по культурным ландшафтам
1. Реконструкция будет использоваться для изображения исчезнувших или не уцелевших частей собственности, когда доступны документальные и вещественные доказательства, позволяющие произвести точную реконструкцию с минимальными предположениями, и такая реконструкция важна для общественного понимания собственности.
2. Реконструкции ландшафта, здания, строения или объекта на его историческом месте будет предшествовать тщательное археологическое исследование для выявления и оценки тех особенностей и артефактов, которые необходимы для точной реконструкции. Если такие ресурсы должны быть нарушены, будут приняты меры по смягчению последствий.
3. Реконструкция будет включать меры по сохранению любых оставшихся исторических материалов, особенностей и пространственных отношений.

4. Реконструкция будет основана на точном воспроизведении исторических особенностей и элементов, подтвержденных документальными или вещественными доказательствами, а не на предположительном дизайне или наличии отличных черт от других исторических объектов. Реконструированная собственность воссоздает внешний вид не уцелевшей исторической собственности с точки зрения материалов, дизайна, цвета и текстуры.
5.Реконструкция будет четко определена как современное воссоздание.

6. Проекты, которые никогда не реализовывались исторически, не будут разрабатываться.
Когда дизайн, архитектурное или историческое значение собственности в течение определенного периода времени перевешивает потенциальную потерю сохранившихся материалов, функций, пространств и отделки, характерных для других исторических периодов; при наличии существенных физических и документальных свидетельств работы; а когда современные изменения и дополнения не планируются, Реставрация может рассматриваться как лечение.Перед началом работ следует выбрать и обосновать определенный период времени, то есть период восстановления, и разработать план документации для восстановления.
«Многовидовые подходы к отслеживанию, трехмерной реконструкции и классу объектов» Саад Хан
Ключевые слова
Компьютерное зрение, визуальное слежение, 3D-реконструкция, обнаружение объектов
Аннотация
Многокамерные системы становятся повсеместными и находят применение в самых разных областях, включая наблюдение, иммерсивную визуализацию, спортивные развлечения и спецэффекты для кино.С точки зрения компьютерного зрения сложная задача состоит в том, как наиболее эффективно объединить информацию из нескольких представлений при отсутствии подробной информации о калибровке и минимальном вмешательстве человека. Этот тезис представляет новый подход к объединению информации о вероятности переднего плана из нескольких видов в эталонный вид без явной обработки в трехмерном пространстве, тем самым устраняя необходимость полной калибровки. В нашем подходе используется гомографическое ограничение занятости (HOC), которое гласит, что если пиксель переднего плана имеет точку проникновения, которая занята объектом переднего плана, то пиксель деформируется в области переднего плана в каждом виде в соответствии с гомографиями, индуцированными опорной плоскостью, по сути, с использованием камеры в качестве датчиков присутствия.Используя HOC, мы можем устранять окклюзии и надежно определять локализацию людей в сцене на плоскости земли. Чтобы найти треки, мы получаем наземные локализации над окном кадров и складываем их, создавая пространственно-временной объем. Регионы, принадлежащие одному и тому же человеку, образуют непрерывные пространственно-временные треки, которые группируются с использованием подхода сегментации с отсечкой графа. Во-вторых, мы демонстрируем, что HOC эквивалентен выполнению визуального пересечения корпуса в плоскости изображения, что приводит к получению поперечного сечения объекта.Процесс распространяется на несколько плоскостей, параллельных базовой плоскости, в рамках гомологии плоскость-плоскость. Срезы из нескольких плоскостей накапливаются, и трехмерная структура объекта сегментируется. В отличие от других подходов, основанных на визуальной оболочке, в которых используются 3D-конструкции, такие как визуальные конусы, воксели или полигональные сетки, требующие калиброванных видов, наш подход основан исключительно на изображениях и использует только 2D-конструкции, то есть плоские гомографии между видами. Эта функция также способствует аппаратному ускорению графики.Текущая реализация нашего подхода на графическом процессоре способна объединить 60 просмотров (480×720 пикселей) со скоростью 50 срезов в секунду. Затем мы представляем расширение этого подхода для восстановления нежестких шарнирных объектов из монокулярных видеопоследовательностей. Основная предпосылка заключается в том, что из-за движения объекта занятость сцены размывается с незанятостью аналогично размытым изображениям движения. Используя наш HOC и новую конструкцию: точку временной занятости (TOP), мы можем объединить несколько видов нежестких объектов, полученных из видеопоследовательности монокуляра.Результатом является набор размытых изображений занятости сцены в соответствующих представлениях, где значения в каждом пикселе соответствуют доле общей продолжительности времени, в течение которой пиксель наблюдал за занятым местом сцены. Затем мы используем подход устранения размытия движения, чтобы размыть изображения присутствия и получить трехмерную структуру нежесткого объекта. В заключительной части этой диссертации мы представляем метод определения класса объекта, использующий трехмерные модели твердых объектов, построенных с использованием вышеупомянутого подхода трехмерной реконструкции.Вместо использования сложного механизма для связывания нескольких двухмерных обучающих представлений наш подход устанавливает пространственные связи между этими представлениями, отображая их непосредственно на поверхность трехмерной модели. Чтобы обобщить модель для обнаружения классов объектов, также рассматриваются особенности из дополнительных представлений (полученных из поиска изображений Google). Для тестового 2D-изображения соответствия между 3D-моделью объекта и тестовым представлением идентифицируются путем сопоставления обнаруженных функций. Основываясь на трехмерном расположении соответствующих элементов, можно сделать несколько гипотез о плоскостях обзора.Затем объект с наивысшей степенью достоверности используется для обнаружения объекта с помощью сопоставления местоположения признаков. Эффективность предлагаемого метода была оценена с использованием набора данных PASCAL VOC, и продемонстрированы многообещающие результаты.
Банкноты
Если это ваша диссертация или диссертация, и вы хотите узнать, как получить к ней доступ или получить дополнительную информацию о статистике читательской аудитории, свяжитесь с нами по адресу [email protected]
Степень
Доктор философских наук (Ph.D.)
Колледж
Колледж инженерии и информатики
Отдел
Электротехника и информатика
Дипломная программа
Компьютерные науки
URL
http://purl.