Эконометрика и статистика с нуля в Python 3.8
Понимание источников глобального потепления с помощью базы данных Wooldridge, статистической библиотеки не требуется, или как выполнять линейную регрессию и матричные вычисления в Python 3.8
предположение
Тестирование совместимости с Python 3.8, выполненное в средах MacOS 11.3 и Linux Ubuntu Server 20.04 LTS.
Используемые библиотеки: Numpy, Pandas, Bokeh, SciPy.
Чтобы программа могла выполняться с минимальным вмешательством человека и оптимизировать ее развертывание на сервере, была реализована автономность обновлений, загрузки данных и обработки исключений, особенно в классе server_SMTP.
Исходный код сначала проверит наличие библиотек, необходимых для его выполнения, а затем загрузит их без библиотек, чтобы автоматически обновить программную конфигурацию среды выполнения. В этом же режиме копия базы данных будет загружена с сайта louisbrulenaudet.com во избежание конфликтов, связанных с прописыванием путей доступа на разных машинах, прохождением точки перегиба проверки на SSL-сертификате.
Описательный анализ переменных
Чтобы упростить чтение исходного кода, мы создали функцию для централизации подблоков инструкций, позволяющую выполнять различные вычисления для разброса и положения.
Первое возможное объяснение заключается в том, что среднее значение почти систематически выше медианы каждого ряда, как в случае с общими выбросами CO2 в мире, или объясняемой переменной: средней температуры (распределение в основном асимметрично вправо) . Второе наблюдение заключается в том, что уровень выбросов CO2 при производстве и сжигании цемента значительно ниже, чем при производстве природного газа, нефти или угля. В частности, выбросы CO2 последних двух факторов являются самыми большими из известных в нашей базе данных. С практической точки зрения, чтобы улучшить взаимодействие с пользователем, все представления доступны в Интернете с помощью интерактивной графики в HTML/JavaScript. Поэтому щелкните здесь, чтобы увидеть основные моменты пояснительных и объясненных переменных с течением времени (страница с вертикальной прокруткой). Графический дисплей подтверждает нашу интуицию, и мы наблюдаем, что все объясняющие и объясняемые переменные со временем увеличиваются, за исключением выбросов CO2 при сжигании и выбросов CO2 при производстве цемента. Мы наблюдаем квазилинейный рост потребления первичной энергии, в то время как увеличение общих выбросов СО2 несколько неравномерно. Объясняемая переменная показывает бесспорный рост в долгосрочной перспективе, но более сомнительна в среднесрочной перспективе (в масштабе полувека).
Чтобы ограничить использование библиотеки, все статистические анализы разработаны с использованием собственных блоков инструкций. По определению эмпирическая дисперсия статистического ряда смещена, потому что .
Однако если n > 1, согласно линейному математическому ожиданию расчетная дисперсия получается путем умножения дисперсии, измеренной на выборке, на... .
является сходящейся, несмещенной оценкой сигма-квадрат. Поэтому формулы, примененные в исходном коде, соответствующие.
Относительно большие значения стандартного отклонения наблюдались для всех объясняющих переменных, за исключением выбросов CO2 от сжигания и производства цемента, что является синонимом дисперсии размера между каждым значением выборки, подтверждая отсутствие изменяющегося во времени инварианта и изменяющихся трендов. (рост за счет графического анализа).
Корреляция и простая линейная регрессия
В оставшейся части нашей работы мы пытаемся опровергнуть предположение о независимости между объясняющими и объясняемыми переменными, чтобы добиться максимально возможной биомиметической настройки каждого облака точек на плоскости.
Первое наблюдение состоит в том, что корреляция Пирсона (безразмерная величина) представляет собой нормализованную форму ковариации, количественно определяющую совместное отклонение двух переменных от их соответствующих ожиданий.Для всех вышеприведенных объясняющих переменных корреляция Пирсона относительно высока, тогда как корреляция Пирсона является низким для выбросов CO2 от сгорания. Однако, поскольку ни одна из переменных не имеет коэффициента корреляции ниже 0,1, мы можем оценить, что все они являются более или менее зависимыми источниками объясняемых переменных. В целом, выбросы CO2 и потребление первичной энергии были двумя наиболее связанными с температурой объясняющими переменными. Регрессии, проверенные в нашем анализе, были основаны на обычном методе наименьших квадратов, т.е. на минимизации суммы остатков каждой точки облака регрессии и ее прогноза. Таким образом, простая модель регрессии пытается установить линейную связь между двумя переменными, определяя наилучшую несмещенную оценку вектора бета-коэффициентов.
Коэффициент β1 интерпретируется как предельное влияние дополнительной единицы объясняющей переменной на объясняемую переменную. Для одномерной линейной регрессии R-квадрат определяется как отношение дисперсии, объясненной регрессией SES, к общей дисперсии SST, мера того, насколько данные близки к подобранной линии регрессии. Следовательно, коэффициент детерминации близок к 1, что указывает на то, что модель учитывает всю изменчивость данных ответов вокруг среднего значения, тогда как уменьшающийся коэффициент указывает на то, что регрессия не объясняет зависимости между переменными. В нашем исследовании мы заметили, что наиболее важным коэффициентом соответствия была регрессия температуры на выбросы углекислого газа при добыче газа. Этот результат еще раз подтверждает нашу гипотезу. Одной из аномалий, которую мы можем попытаться объяснить, является низкий коэффициент корреляции, связанный с выбросами CO2 при добыче нефти. Графически мы наблюдаем, что распределение будет приближаться к экспоненциальной функции, что объясняет несоответствие с определением самой линейной регрессии. По этой причине все регрессии доступны, нажав здесь. Еще одним наблюдением является коэффициент β1, относящийся к выбросам CO2 в результате сжигания. Это правда, что этот коэффициент очень высок по сравнению с другими, однако очень низкий коэффициент детерминации показывает нам отсутствие значимости регрессии. Эта критика математически отражена в относительно больших значениях стандартных ошибок и P-значений. Статистическая значимость определяется количественно, и значение, близкое к 0,05, предполагает, что те же результаты могли бы быть получены, если бы была проверена нулевая гипотеза. В отличие от этой переменной, все остальные регрессии имеют статистически значимые P-значения. Что касается t-статистики, мы пришли к интуитивному выводу, что аномалии в выбросах CO2 от добычи нефти были отброшены, а наиболее важными результатами регрессии были добыча газа, потребление первичной энергии и общие выбросы CO2.
Основным недостатком простой линейной регрессии является наличие пропущенной переменной смещения. Следовательно, в дополнение к одновременности, когда пропущенная переменная влияет и на объясняемую переменную, и на объясняющую переменную, возникает корреляция между объясняющей переменной и членом ошибки. Это позволит нам объяснить наши аномалии. Один из способов ограничить это смещение — ввести несколько независимых переменных в множественную линейную регрессию. Для этого мы сначала нормализуем данные, чтобы избежать негативного влияния на производительность алгоритма градиентного спуска. Поскольку значение средней температуры может быть отрицательным, мы использовали не логарифмическое преобразование, а стандартное преобразование, т.е.
Это соотношение затем позволяет нам компенсировать большую разницу уровней между каждым выбросом.
Корреляция и множественная линейная регрессия
Целью алгоритма градиентного спуска является тонкая настройка оптимизации. Следовательно, его цель — минимизировать функцию отделимых действительных чисел, определенную в евклидовом пространстве. Алгоритм является итеративным, с непрерывным улучшением до сходимости. Затем мы пытаемся минимизировать градиент, многомерное обобщение производной. Коэффициент обучения будет определен как параметр, который позволяет настраивать поправки и, соответственно, скорость сходимости. В рамках нашей модели мы находим... .
Для оптимизации определения коэффициента обучения α и коэффициента регрессии β генерируется список возможных значений, каждое из которых повторяется, чтобы сохранить только самый высокий коэффициент детерминации для множественной регрессии.
Эмпирически мы нашли R-квадрат равным 0,900927, что подтверждает наше предположение об опущенной переменной систематической ошибке. На самом деле у нас никогда не было таких высоких статистических результатов в простой линейной регрессии.
Среднесрочные и долгосрочные прогнозы
На основе этого наблюдения мы можем строить прогнозы средних значений температуры в среднесрочной и долгосрочной перспективе, как повышающихся, так и понижающихся, путем внесения изменений в каждую переменную при прочих равных условиях. Таким образом, мы сможем определить, какие меры необходимо принять для снижения глобальной температуры. В нашем анализе мы решили сделать 5%, 10%, 25%, 50%, 100% и 200% изменения вверх и вниз на основе последнего известного значения каждой переменной в нашей базе данных.
Мы наблюдаем, что в краткосрочной и среднесрочной перспективе последствия неоднозначны, однако в долгосрочной перспективе мы обнаруживаем, что значительное увеличение выбросов CO2 при производстве нефти, газа и цемента оказывает большое влияние на средние температуры. Цемент не рассматривался в начале нашего обсуждения, но этот вывод особенно согласуется с относительными уровнями β1, связанными с простой линейной регрессией и ее коэффициентом детерминации. Если его рост происходит в очень больших масштабах, он даже кажется вторым по величине источником выбросов углекислого газа в долгосрочной перспективе. Этот эффект объясняется двумя факторами: Производство клинкера на цементных заводах требует декарбонизации известняка, наиболее стабильной формы кальция в природе, который обжигают в присутствии кремнезема.
Таким образом, одна из гипотез сокращения глобальных выбросов CO2 заключается в поощрении использования неуглеродистых альтернативных видов топлива для замены ископаемых видов топлива, что, по-видимому, сильно коррелирует с повышением средних температур. Природный газ необходимо обрабатывать, в том числе удалять коррозионно-активные элементы, такие как сера, которые способствуют выбросу углекислого газа в атмосферу. Другой вариант — использовать древесные гранулы для отопления дома или использовать тепловой насос. Однако трудно найти решения, обеспечивающие идеальный баланс между комфортом проживания и сокращением выбросов газов. На самом деле использование только электричества для отопления и полностью возобновляемого источника электроэнергии, такого как энергия ветра, кажется утопией. Однако нельзя отрицать, что в случае двуокиси углерода производство электроэнергии путем деления атомов представляется одним из наименее загрязняющих окружающую среду решений. Это даже лучшая альтернатива фотогальванике, которая производит от 100 до 200 г/кВтч CO2, что в три раза больше, чем атомная энергетика. Наконец, сокращение выбросов при добыче нефти, по-видимому, является основным направлением улучшения в снижении глобальной температуры в соответствии с государственными директивами, реализуемыми в странах Западной Европы. В связи с этим возникает тот же вопрос, что и в случае с природным газом, а именно: как найти доступную систему, столь же универсальную и эффективную, как нефть, при одновременном сокращении производства парниковых газов?
Предложение для электричества снова является чудесным решением, за исключением его хранения, которое требует использования литиевых батарей, щелочного металла, который в наши дни трудно перерабатывать по низкой цене. Водород также представляет интерес в области транспорта, а также в качестве биотоплива, производимого из органических материалов. Однако влияние наших множественных регрессий на потребление первичной энергии и добычу угля остается неясным, хотя их коэффициенты детерминации указывают на зависимость от глобальной температуры. Давайте закончим наш анализ обратным изменением в нашей системе, в остальном равным, отрицательным для каждой переменной. Предлагаемые нами утопические меры позволят нам снизить глобальные температуры.
ПРИМЕЧАНИЕ. Из-за небольшого размера исходной базы данных может быть систематическая ошибка в пропущенных переменных, которая является источником аномалий, вызванных нашим анализом. Должны существовать другие источники парниковых газов, и возможность того, что глобальное потепление не связано с деятельностью человека, не игнорируется.