Библиотека
Метод прогнозирования индикаторов рынка недвижимости путём двумерного разложения дискретной пространственно-параметрической модели с использованием нейросетей (Евстафьев А. И. Начальник отдела консалтинга ООО “Южная Юридическая Консалтинговая Компания”, САРН Гордиенко В. А. Начальник IT отдела ООО “Компания ВИЛЛАН”)
Цель: прогнозирование индикаторов рынка недвижимости
Задачи метода обусловлены необходимостью его использования, а именно:
а) разработка инструментария прогнозирования, способного анализировать слабо изученные явления и процессы с неформализованными зависимостями;
б) подстройка метода под практическое применение в условиях отсутствия длинных статистических рядов наблюдений;
в) выявление скрытых системных закономерностей между рассматриваемыми показателями и как следствие возможность применения инструментария для прогнозирования широко круга индикаторов рынка.
Сущность представленного метода состоит в двумерном разложении Дискретной пространственно-параметрической модели с последующим нейросетевым анализом.
Понятийный аппарат:
Измерение - ось в гиперпространстве, задающая конкретный адрес каждой ячейке (как в excel); Пример измерений для вторичного рынка жилья Краснодара: Кол-во комнат в квартире (Размер), Топонимический район (Местоположение), Материал наружных стен дома (Качество).
Дискретная пространственно-параметрическая модель (ДППМ) рынка недвижимости (Таблица Стерника) – упорядоченный набор индикаторов состояния рынка по всем его сегментам, полученный в результате параллельного сечения рассматриваемой выборки объектов недвижимости по следующим измерениям: Размер, Местоположение, Качество, Срок сдачи объекта и (реже) другие.
Ячейка - мельчайшая неделимая единица информации о конкретном сегменте в локальном рынке недвижимости (информация об объектах недвижимости с определенным Местоположением, Размером, Качеством и т.д.).
Параметр – индикатор рынка недвижимости; конкретная статистическая величина, агрегирующая данные по выборке, вошедшей в ячейку. Пример параметров: средняя, максимальная, минимальная цена предложения, кол-во объектов в выборке, темп прироста цен и т.д. Набор параметров - содержимое ячейки.
Слой ячеек - набор ячеек из куба ДППМ, соответствующий определенному значению по одному из измерений. В аналогии с кубиком Рубика такой набор ячеек будет соответствовать слою маленьких кубиков, находящихся в одной плоскости.
Алгоритм создания инструментария выглядит следующим образом:
1. Статистическая обработка массива данных
1.1. Построение ДППМ с максимально обширным объемом параметров в ячейках отдельно для каждого временного отрезка в предыстории
1.2. Двумерное разложение ДППМ
1.3. Подготовка и нормализация данных
2. Интеллектуальная обработка данных
2.1. Обучение множества нейронных сетей по всей предыстории
2.2. Оценка качества обучения и выбор наиболее удачных сетей при помощи корреляционного анализа
3. Регрессионное моделирование
3.1. Формирование единого набора прогнозов, полученных из всех отобранных сетей, и фактических значений роста цен по предыстории
3.2. Построение регрессионного уравнения, увязывающего прогнозы сетей с фактом
Алгоритм применения инструментария:
1. Статистическая обработка массива данных
1.1. Построение ДППМ для текущего временного отрезка
1.2. Двумерное разложение ДППМ
2. Интеллектуальная обработка данных
2.1. Получение прогноза индикаторов рынка по новым данным из уже обученных сетей
3. Регрессионное моделирование
3.1. Получение максимально достоверного прогноза при помощи ранее полученного регрессионного уравнения
При двумерном разложении гиперкуба получаем сложную таблицу, у которой одно измерение откладывается по одной оси, а все остальные по другой. Пример: для ДППМ Стерника это, как правило, таблица, в которой размер объекта откладывается по вертикали и местоположение и качество объекта по горизонтали.
Для реализации метода прогнозирования индикаторов рынка необходимо создать несколько таблиц (по количеству измерений в ДППМ): в нашем случае три таблицы, у каждой из которых измерение, откладываемое по вертикали будет разным. При этом значение параметров (конкретных статистик) в ячейках, имеющих один и тот же адрес, не изменится - ЭТО ВАЖНО.
Краткий экскурс в теорию интеллектуальных информационных систем
Искусственные нейронные сети (ИНС) — математические модели, построенные по принципу организации и функционирования биологических нейронных сетей — сетей нервных клеток живого организма.
Основной элемент НС – формальный нейрон, реализующий операцию нелинейного преобразования суммы произведений входных сигналов на весовые коэффициенты. НС - совокупность нейроподобных элементов, определенным образом соединенных друг с другом и внешней средой с помощью связей, определяемых весовыми коэффициентами.
Важное свойство НС - способность к обучению. Процесс обучения НС рассматривается как настройка ее топологии и весов связей для эффективного выполнения конкретной задачи. НС обучается так, чтобы для некоторого множества входов давать желаемое множество выходов. Обучение ведется путем последовательной генерации по определенной процедуре входных векторов с одновременной подстройкой весов. В ходе обучения веса НС постепенно становятся такими, чтобы каждый входной вектор вырабатывал выходной вектор.
Цель обучения – минимизация ошибки в формировании выходов из заданных входов в нейронную сеть.
Нейронные сети достаточно эффективно используются в задачах, сопряженных с классификацией рынка недвижимости, но весьма ограниченно применяются в задачах численного прогноза. Основная причина неудач: невозможность строить обучение сетей на рядах динамики (трендах) ввиду значительной инертности рынка недвижимости. В отличие от фондового рынка зафиксировать изменение того или иного индикатора рынка, свободного от статистической погрешности, возможно только на достаточно длительных промежутках времени (не менее месяца). В результате исследователь просто не имеет возможности набрать необходимое для эффективного обучения сети количество обучающих примеров, а именно: набор достоверных и единообразных индикаторов рынка из хотя бы 50-100 временных интервалов.
Полученные три варианта транспонирования одной и той же ДППМ используются в обучении трех нейронных сетей (каждая ДППМ через свою персональную сеть). Входами в сеть будут значения параметров всех ячеек вошедших в один слой. Выходами - любой целевой параметр, значение которого известно по предыстории, но не известно в будущем. Тогда число входов равняется количеству ячеек, вошедших в один слой, помноженному на количество параметров, а число выходов равно просто количеству ячеек в слое. Получим три сети, обученные на одинаковом наборе исходных данных, но при разном способе ввода этих данных (ввод данных осуществляется группами ячеек с одинаковыми либо размерами квартиры, либо местоположением, либо качеством).
Очевидно, сети не будут выдавать одинаковые прогнозы по конкретным ячейкам. Используя инструментарий регрессионного моделирования по предыстории смотрим качество прогноза, который дает каждая сеть по отдельности и во взаимосвязи друг с другом, на основании сравнения ее выходов с реальными значениями рассматриваемого явления (в примере на слайде это рост цен). Таким образом представленный метод прогнозирования индикаторов рынка недвижимости предполагает прогнозирование, при котором нейронная сеть является промежуточным этапом анализа.
РЕЗУЛЬТАТЫ
Коэффициент детерминации (R2) регрессионной модели (зависимая переменная - фактический рост цен на вторичке в следующем после наблюдаемого месяце; три фактора - прогнозные значения роста цен из каждой нейронной сети) построенной на тестовой выборке, не участвовавшей в обучении сетей (сети обучены на временном отрезке с января по сентябрь 2008 года), для ячеек, соответствующих Всему рынку города (Все районы, Все размеры, Все классы) равен 0,764 (см. табл. 3-4). Другими словами: при вероятность наступления прогноза 95% (см. Значимость изменения F в табл. 3), ошибка прогноза составляет 23,6%.
Если просто аппроксимировать предысторию подходящей однофакторной кривой, то R2 для зависимой переменной Рост цен намного хуже (всего 0,13). Как видно на графике разнонаправленные тенденции изменения индикаторов рынка на различных временных интервалах отрицательно сказываются на качестве аппроксимирующей кривой: общая тенденция, вроде бы, прослеживается, но прогнозирование точных значений невозможно. Данный недостаток аппроксимации трендов особенно отчетливо проявляется в периоды излома тенденций, когда перманентный рост (или падение) цен сменяется неслучайными (обусловленными системной взаимосвязью различных рыночных факторов) колебательными изменениями то в одну, то в другую сторону. И уж тем более плох метод аппроксимации в прогнозировании наступления этих изломов тенденций.
Как видно на слайде, метод, основанный на нейросетевом анализе ДППМ, дает намного более точный прогноз. И что самое главное: данный метод угадывает направление изменения индикатора рынка (в нашем случае – цены) на временном интервале, отличающемся нестабильностью поведения наблюдаемого индикатора.
Уникальность метода:
— Представленный метод выявляет одновременно зависимости:
индикаторов рынка внутри ячеек ДППМ;
индикаторов рынка внутри ДППМ;
ячеек внутри ДППМ
— Применение нейронных сетей в данном методе смягчает требования к составу и качеству исходных данных: не требуется набор данных за продолжительный промежуток времени (достаточно за 6-9 месяцев), допускаются пропуски и искажения в данных. В условиях существенной информационной закрытости рынка недвижимости указанное преимущество нейросетевого анализа являются неоспоримым
Выводы: метод применения нейронных сетей в прогнозировании индикаторов рынка недвижимости путём двумерного разложения дискретной пространственно-параметрической модели эффективно решает поставленные задачи и может стать концептуальной платформой ряда направлений исследования рынка недвижимости:
— Прогнозирование неценовых индикаторов рынка недвижимости, таких как конъюнктура спроса и предложения, обороты и емкость рынка, ликвидность объектов и т.д.
— Разработка методики вычисления пропущенных и исправления недостоверных значений параметров в ячейках ДППМ (интеллектуальная нормализация данных); вычисление вероятных значений параметров в Пустых ячейках (в локациях и/или сегментах, где нет объектов недвижимости).
— Комбинирование и интеграция получаемых данным методом результатов корреляционно-регрессионного анализа в семейство традиционных методов регрессионного анализа рынка недвижимости (с ростом новых непересекающихся факторов регрессионной модели растет качество модели - R2).
— Разработка методики сценарного прогнозирования связанных значений одной части набора индикаторов рынка в определенной ячейке ДППМ (входов сети) для заданного значения другой части набора индикаторов рынка (выходов сети).