Основные моменты этой статьи
С непрерывным развитием и популяризацией смартфонов и информационных и коммуникационных технологий крупномасштабное хранение данных о траекториях стало более распространенным и стало важным источником для анализа моделей поведения пользователей.Работа и место жительства являются важными проявлениями моделей поведения пользователей, которые могут использоваться для оказания помощи Строительство «умных» городов, например, оптимизация маршрутов, промышленная планировка, анализ потоков населения и т. д., может уменьшить заторы на дорогах и повысить удобство и удовлетворенность жизнью горожан. Однако в существующих методиках расчета места работы и проживания имеются разной степени сложности, в данной статье предлагается усовершенствованная схема.
01
существующие методы
В настоящее время существует два основных метода определения места жительства на рабочем месте: один на основе правил, а другой на основе моделей;
Метод, основанный на правилах, заключается в построении логики через бизнес-опыт и выборе места работы и проживания в соответствии с заданными статистическими показателями.
Например, данные по автомобилям будут подсчитывать частоту, продолжительность и другие показатели на основе ежедневной начальной и конечной точек пользователя, а также выбирать место работы и жительства с наивысшим рейтингом;
Данные на основе базовой станции будут подсчитывать время, в течение которого пользователи подключаются к каждой базовой станции, и выбирать в качестве рабочего места ту, у которой самое продолжительное время подключения в рабочее время и наибольшее количество подключений в рабочие дни/будние дни в месяц;
Метод на основе модели заключается в том, чтобы определить местонахождение рабочего места с помощью кластеризации + модели с учителем, удалить точки шума с помощью кластеризации, затем сгенерировать функции с помощью правил, вручную пометить местонахождение рабочего места и, наконец, использовать модель с учителем для прогнозирования места работы. и где жить.
02
Ограничения существующих методов
Метод, основанный на правилах, относительно ограничен, в разных отраслях существуют свои правила и данные определенной структуры, которая недостаточно универсальна, исчерпать все правила сложно, а адаптивность к нештатным ситуациям недостаточно хороша, сложна и недостаточно точно;
Метод на основе моделей требует ручной аннотации, что является дорогостоящим, а весь процесс расчета сложен, точность сильно зависит от репрезентативности признаков и широты охвата выборки;
Место работы и место жительства, рассчитываемые по существующей методике, часто не соответствуют бизнес-логике, например, обычное рабочее место должно быть в основном распределено в офисных зданиях, индустриальных парках и т. д. и небольшая часть в других типах POI, таких как как рестораны и торговые центры; нормальный Большинство мест проживания должно быть распределено по таким POI, как жилые кварталы, виллы, апартаменты и т. сильно зависит от источника данных, и это не может быть гарантировано, что приводит к возможности появления большого количества рабочих мест в сообществе, большого количества жилых помещений в офисных зданиях или торговых центрах и т. д., что приводит к недоступности бизнес.
В этой статье предлагается более общий метод расчета, который снижает сложность всего процесса и повышает точность; разрабатывается метод расчета, который ближе к бизнесу и повышает удобство использования на рабочем месте.
03
Введение в базовые знания
1. Введение в кластеризацию DBSCAN:
Сначала установите порог a, для каждой точки в наборе образцов нарисуйте круг с этой точкой в качестве центра и a в качестве радиуса, а количество точек, включенных в круг, запишите как b (включая центр круга). ;
Затем установите порог C. Если b>=c, центр круга называется основным объектом;
Если основной объект A содержится в круге другого основного объекта B, а основной объект B содержится в круге другого основного объекта C, то говорят, что от A до C достижима плотность;
Если плотность основного объекта X до основного объекта Y достижима, а плотность основного объекта Z также достижима, то Y и Z плотно связаны, и нахождение наибольшего набора выборок с связанной плотностью представляет собой кластер кластеров, как показано на следующем рисунке:
Его преимущества:
Он может кластеризовать плотные наборы данных любой формы и подходит для данных о географическом местоположении, в то время как алгоритмы кластеризации, такие как K-средние, обычно подходят только для выпуклых наборов данных;
Он может находить выбросы во время кластеризации и не чувствителен к выбросам в наборе данных;
Результаты кластеризации не предвзяты.Напротив, для алгоритмов кластеризации, таких как K-Means, начальное значение оказывает большое влияние на результаты кластеризации.
2. Средневзвешенное геометрическое:
3. Найдите центральную точку широты и долготы
Lat_i = lat_i * pi/180, i = 1,2,…,n
Lon_i = lon_i * pi/180, i = 1,2,…,n
xi = cos(Lat_i) * cos(Lon_i), i = 1,2,…,n
yi = cos(Lat_i) * sin(Lon_i) , i= 1,2,…,n
zi = sin (Lat_i), i = 1,2, ..., n
x = (x1 + x2 + ... + xn) / n
y = (y1 + y2 + ... + yn) / n
z = (z1 + z2 + ... + zn) / n
Lon = atan2(y, x)
Hyp = sqrt(x * x + y * y)
Lat = atan2(z, hyp)
lon_center = Lon * 180/pi
lat_center = Lat * 180/pi
04
конкретный метод
1. Предварительно обработайте данные о траектории пользователя за последние X месяцев и очистите аномальные данные и данные о праздниках (длинных и больших праздниках, но не выходных);
2. Разделите рабочее время и время отдыха;
3. Сканирование данных poi и очистка данных poi;
4. Определить, попадают ли данные о траектории пользователя в определенный тип POI:
Если есть граница пои, используйте для оценки непосредственно границу пои;
Если границ poi нет, используйте геохэш8, где расположены широта и долгота точки poi, и окружающий геохеш8 для оценки (девять сеток);
Станция метро принимает точку широты и долготы каждого выхода в качестве центральной точки и генерирует квадрат со стороной 100 м, то есть долготу и широту точки пои плюс или минус 0,0005 для оценки;
5. Присвойте разный вес баллам, попадающим в разные категории пои, в зависимости от того, следует ли подсчитывать место работы или место жительства;
Например, при подсчете рабочего места, если точка приходится на офисное здание, присваивайте больший вес;
6. Для точек траектории, приходящихся на разные периоды времени, также присваиваются разные веса;
Например, при расчете рабочего места рабочему времени будет придан относительно большой вес;
7. В соответствии с весами, указанными в пунктах 5 и 6, выполняется взвешенная кластеризация DBSCAN по данным отслеживания времени работы и времени пребывания каждого пользователя, и настраиваются параметры;
8. Подсчитайте количество рабочих/перерывных точек и рабочих/перерывных дней в каждом кластере,
Рассчитайте общее количество точек времени работы/перерыва для каждого пользователя,
Рассчитать количество точек времени работы/отдыха в каждом кластере пользователя, долю от общего количества точек времени работы/отдыха пользователя,
Рассчитать количество дней работы/перерыва в каждом кластере пользователя, долю от общего количества дней работы/перерыва пользователя,
Рассчитайте средневзвешенное геометрическое отношения общего количества баллов и отношения общего количества дней, чтобы получить балл каждого кластера Кластер с первым баллом рабочего времени является местом работы, а кластер с первый балл времени отдыха – место жительства;
Пример: первый пример — это окончательный выбранный класс B, второй пример — это класс C.
9. Рассчитать географический центр кластера места работы и кластера места жительства по формуле и получить окончательное местоположение места работы и проживания;
10. В соответствии с активными днями и баллами в кластере места работы и проживания дайте соответствующую степень достоверности места работы и проживания.Чем больше активных дней, тем выше степень достоверности, и чем больше баллов, тем выше степень достоверности;
11. Даже при использовании вышеуказанного метода взвешенной кластеризации нельзя гарантировать полное соответствие результатов бизнес-логике, поэтому типы различных POI в пределах определенного диапазона рабочего места/места проживания и удаленности от места работы/ Жилое место предоставляется для облегчения. Деловая сторона экранирует рабочее место/жилое помещение в зависимости от расстояния.