Оригинальная ссылка:tecdat.cn/?p=23392
Первоисточник:Публичный аккаунт Tuoduan Data Tribe
Автор: Минхонг Сюй
Фармацевтическая компания ежегодно тратит много денег на оплату счетов за электроэнергию.В связи с бизнес-реформой энергетической компании, фармацевтическая компания может предварительно закупить определенное количество электроэнергии у энергетической компании в начале года или месяца. киловатт-час электроэнергии стоит больше, чем раньше, и если вы на самом деле не потребляете так много, вам не будут возмещены излишки счета за электроэнергию, поэтому компания намерена прогнозировать потребление электроэнергии в будущем, чтобы сэкономить деньги.
решение
цель миссии
В соответствии с требованиями фармацевтических компаний используйте анализ нескольких источников данных для точного прогнозирования энергопотребления.
Подготовка источника данных
Чтобы прогнозировать потребление электроэнергии, основное использование электроэнергии делится на потребление производственного цеха, потребление электроэнергии кондиционером и прочее потребление, а другое потребление считается постоянным и добавляется в конце.
обработка данных
В полученных фактических данных потребляемая мощность некоторых счетчиков и выработка некоторых цехов на многие даты не фиксировались, поэтому для заполнения пробелов в середине использовалась лагранжева интерполяция.
преобразование признаков
Преобразуйте функции, которые не могут быть обработаны, в чистые функции, которые могут быть легко обработаны алгоритмом. Примеры следующие:
атрибут времени. Что касается самого атрибута времени, то он не имеет для модели никакого значения, и необходимо преобразовать дату в псевдопеременные дня, года, месяца, дня и недели.
Силовые свойства. Поскольку собираются данные показателей одного счетчика, для участия в построении модели объединяются данные того же типа, что и общее энергопотребление мастерских и кондиционеров.
Доходное свойство. Потому что в мастерской производят несколько видов лекарств, и вес каждой коробки разных лекарств разный. Энергопотребление некоторых процессов связано только с весом, а энергопотребление некоторых процессов связано с количеством ящиков, поэтому мы должны использовать оба метода измерения.
структура
Разделите тренировочный набор и тестовый набор
Учитывая, что окончательная модель будет предсказывать энергопотребление определенного периода времени в будущем, для более реалистичной проверки эффекта модели обучающая выборка и тестовая выборка разделены по времени. Конкретный метод заключается в следующем: используйте программное обеспечение для случайного разделения 80% данных в качестве обучающего набора, а оставшиеся 20% - в качестве тестового набора.
моделирование
Одномерная линейная регрессия ,При рассмотрении энергопотребления некоторых процессов легко обнаружить, что существует линейная зависимость между энергопотреблением машины и выходом.В настоящее время для подбора используется одна модель линейной регрессии. (у=кх+б)
Унарная нелинейная регрессия,На заводе, чтобы поддерживать постоянную температуру в производственном цеху, для регулировки температуры используют воздушное отопление и кондиционирование воздуха. Воздушное отопление потребляет пар, только кондиционер потребляет электроэнергию. Когда температура в помещении выше определенного значения, кондиционер включается; чем выше температура в помещении, тем больше мощность кондиционера, поэтому потребляемая мощность кондиционера и температура являются одномерными. нелинейная связь. (у=е(х))
Множественная линейная регрессия,Некоторые производственные процессы связаны не только с весом продукта, но и с количеством коробок продукта, в этом случае для подбора используется бинарная линейная модель. (г=к1х+к2у+б)
Оптимизация модели
1. Оптимизация перед выходом в онлайн: извлечение признаков, выборка образцов, настройка параметров.
2. Итерация после запуска, улучшение модели на основе фактического A/B-тестирования и предложений от деловых людей.
Результаты проекта
В этом случае используются три модели для расчета трех составляющих потребляемой мощности.
Используя одномерную нелинейную регрессию для расчета потребляемой мощности кондиционера, график визуализации выглядит следующим образом, где температура здесь — максимальная дневная температура (отношение опущено):
Используя одну линейную регрессию, рассчитайте потребляемую мощность и
График взаимосвязи выходных данных выглядит следующим образом (зависимость опущена):
Это соотношение между потребляемой мощностью и выходной мощностью трех машин.Можно видеть, что когда выходная мощность равна 0, машина также потребляет определенное количество энергии, когда она находится в режиме ожидания.
Используя модель бинарной линейной регрессии, рассчитайте взаимосвязь между весом последней машины и продукта и количеством коробок:
Сверху — вид в разрезе, снизу — точечная диаграмма
Видно, что несколько моделей энергопотребления могут в основном лучше соответствовать реальной ситуации с уровнем достоверности более 95%. Эта модель имеет две основные цели. Одна из них - прогнозирование. Такие факторы, как модель и планируемая мощность, могут использоваться для прогнозирования будущего энергопотребления, чтобы обеспечить точные закупки электроэнергии. Во-вторых, обнаружение аномалий.Если в один день наблюдается большое отклонение между прогнозируемым значением и фактическим энергопотреблением, это означает, что машина, вероятно, неисправна и нуждается в своевременном ремонте.
Модель прогноза — это только результат, рассчитанный алгоритмом, в реальной жизни такое значение прогноза можно использовать только в качестве эталона, в реальной жизни есть больше факторов, влияющих на результат, которые необходимо рассматривать со многих сторон.
Об авторе
Минхонг СюйИсследовательская лаборатория Туодуань (TRL)Исследователь. Как магистр статистического факультета школы 985, он полностью понимает важность анализа данных в современном производстве, эксплуатации и обслуживании. В эпоху больших данных технический костяк высокотехнологичных предприятий становится все моложе и моложе, а статус аналитиков данных становится все более важным. Эта статья опирается на недавнюю работу автора в «Анализ данных и майнинг на языке R должны знать«Подготовка к уроку.
Самые популярные идеи
1.Прогнозирование временных рядов с использованием lstm и pytorch в python