Geek Planet | Метод расчета места проживания на рабочем месте на основе взвешенного DBSCAN

алгоритм

Основные моменты этой статьи

С непрерывным развитием и популяризацией смартфонов и информационных и коммуникационных технологий крупномасштабное хранение данных о траекториях стало более распространенным и стало важным источником для анализа моделей поведения пользователей.Работа и место жительства являются важными проявлениями моделей поведения пользователей, которые могут использоваться для оказания помощи Строительство «умных» городов, например, оптимизация маршрутов, промышленная планировка, анализ потоков населения и т. д., может уменьшить заторы на дорогах и повысить удобство и удовлетворенность жизнью горожан. Однако в существующих методиках расчета места работы и проживания имеются разной степени сложности, в данной статье предлагается усовершенствованная схема.

01

существующие методы

В настоящее время существует два основных метода определения места жительства на рабочем месте: один на основе правил, а другой на основе моделей;

Метод, основанный на правилах, заключается в построении логики через бизнес-опыт и выборе места работы и проживания в соответствии с заданными статистическими показателями.

Например, данные по автомобилям будут подсчитывать частоту, продолжительность и другие показатели на основе ежедневной начальной и конечной точек пользователя, а также выбирать место работы и жительства с наивысшим рейтингом;

Данные на основе базовой станции будут подсчитывать время, в течение которого пользователи подключаются к каждой базовой станции, и выбирать в качестве рабочего места ту, у которой самое продолжительное время подключения в рабочее время и наибольшее количество подключений в рабочие дни/будние дни в месяц;

Метод на основе модели заключается в том, чтобы определить местонахождение рабочего места с помощью кластеризации + модели с учителем, удалить точки шума с помощью кластеризации, затем сгенерировать функции с помощью правил, вручную пометить местонахождение рабочего места и, наконец, использовать модель с учителем для прогнозирования места работы. и где жить.

02

Ограничения существующих методов

Метод, основанный на правилах, относительно ограничен, в разных отраслях существуют свои правила и данные определенной структуры, которая недостаточно универсальна, исчерпать все правила сложно, а адаптивность к нештатным ситуациям недостаточно хороша, сложна и недостаточно точно;

Метод на основе моделей требует ручной аннотации, что является дорогостоящим, а весь процесс расчета сложен, точность сильно зависит от репрезентативности признаков и широты охвата выборки;

Место работы и место жительства, рассчитываемые по существующей методике, часто не соответствуют бизнес-логике, например, обычное рабочее место должно быть в основном распределено в офисных зданиях, индустриальных парках и т. д. и небольшая часть в других типах POI, таких как как рестораны и торговые центры; нормальный Большинство мест проживания должно быть распределено по таким POI, как жилые кварталы, виллы, апартаменты и т. сильно зависит от источника данных, и это не может быть гарантировано, что приводит к возможности появления большого количества рабочих мест в сообществе, большого количества жилых помещений в офисных зданиях или торговых центрах и т. д., что приводит к недоступности бизнес.

В этой статье предлагается более общий метод расчета, который снижает сложность всего процесса и повышает точность; разрабатывается метод расчета, который ближе к бизнесу и повышает удобство использования на рабочем месте.

03

Введение в базовые знания

1. Введение в кластеризацию DBSCAN:

Сначала установите порог a, для каждой точки в наборе образцов нарисуйте круг с этой точкой в ​​качестве центра и a в качестве радиуса, а количество точек, включенных в круг, запишите как b (включая центр круга). ;

Затем установите порог C. Если b>=c, центр круга называется основным объектом;

Если основной объект A содержится в круге другого основного объекта B, а основной объект B содержится в круге другого основного объекта C, то говорят, что от A до C достижима плотность;

Если плотность основного объекта X до основного объекта Y достижима, а плотность основного объекта Z также достижима, то Y и Z плотно связаны, и нахождение наибольшего набора выборок с связанной плотностью представляет собой кластер кластеров, как показано на следующем рисунке:

图片

Его преимущества:

Он может кластеризовать плотные наборы данных любой формы и подходит для данных о географическом местоположении, в то время как алгоритмы кластеризации, такие как K-средние, обычно подходят только для выпуклых наборов данных;

Он может находить выбросы во время кластеризации и не чувствителен к выбросам в наборе данных;

Результаты кластеризации не предвзяты.Напротив, для алгоритмов кластеризации, таких как K-Means, начальное значение оказывает большое влияние на результаты кластеризации.

2. Средневзвешенное геометрическое:

图片

3. Найдите центральную точку широты и долготы

Lat_i = lat_i * pi/180, i = 1,2,…,n

Lon_i = lon_i * pi/180, i = 1,2,…,n

xi = cos(Lat_i) * cos(Lon_i), i = 1,2,…,n

yi = cos(Lat_i) * sin(Lon_i) , i= 1,2,…,n

zi = sin (Lat_i), i = 1,2, ..., n

x = (x1 + x2 + ... + xn) / n

y = (y1 + y2 + ... + yn) / n

z = (z1 + z2 + ... + zn) / n

Lon = atan2(y, x)

Hyp = sqrt(x * x + y * y)

Lat = atan2(z, hyp)

lon_center = Lon * 180/pi

lat_center = Lat * 180/pi

04

конкретный метод

1. Предварительно обработайте данные о траектории пользователя за последние X месяцев и очистите аномальные данные и данные о праздниках (длинных и больших праздниках, но не выходных);

2. Разделите рабочее время и время отдыха;

3. Сканирование данных poi и очистка данных poi;

4. Определить, попадают ли данные о траектории пользователя в определенный тип POI:

Если есть граница пои, используйте для оценки непосредственно границу пои;

Если границ poi нет, используйте геохэш8, где расположены широта и долгота точки poi, и окружающий геохеш8 для оценки (девять сеток);

Станция метро принимает точку широты и долготы каждого выхода в качестве центральной точки и генерирует квадрат со стороной 100 м, то есть долготу и широту точки пои плюс или минус 0,0005 для оценки;

图片

5. Присвойте разный вес баллам, попадающим в разные категории пои, в зависимости от того, следует ли подсчитывать место работы или место жительства;

Например, при подсчете рабочего места, если точка приходится на офисное здание, присваивайте больший вес;

6. Для точек траектории, приходящихся на разные периоды времени, также присваиваются разные веса;

Например, при расчете рабочего места рабочему времени будет придан относительно большой вес;

7. В соответствии с весами, указанными в пунктах 5 и 6, выполняется взвешенная кластеризация DBSCAN по данным отслеживания времени работы и времени пребывания каждого пользователя, и настраиваются параметры;

8. Подсчитайте количество рабочих/перерывных точек и рабочих/перерывных дней в каждом кластере,

Рассчитайте общее количество точек времени работы/перерыва для каждого пользователя,

Рассчитать количество точек времени работы/отдыха в каждом кластере пользователя, долю от общего количества точек времени работы/отдыха пользователя,

Рассчитать количество дней работы/перерыва в каждом кластере пользователя, долю от общего количества дней работы/перерыва пользователя,

Рассчитайте средневзвешенное геометрическое отношения общего количества баллов и отношения общего количества дней, чтобы получить балл каждого кластера Кластер с первым баллом рабочего времени является местом работы, а кластер с первый балл времени отдыха – место жительства;

Пример: первый пример — это окончательный выбранный класс B, второй пример — это класс C.

图片

9. Рассчитать географический центр кластера места работы и кластера места жительства по формуле и получить окончательное местоположение места работы и проживания;

10. В соответствии с активными днями и баллами в кластере места работы и проживания дайте соответствующую степень достоверности места работы и проживания.Чем больше активных дней, тем выше степень достоверности, и чем больше баллов, тем выше степень достоверности;

11. Даже при использовании вышеуказанного метода взвешенной кластеризации нельзя гарантировать полное соответствие результатов бизнес-логике, поэтому типы различных POI в пределах определенного диапазона рабочего места/места проживания и удаленности от места работы/ Жилое место предоставляется для облегчения. Деловая сторона экранирует рабочее место/жилое помещение в зависимости от расстояния.

图片