Приветствую всех вОблако Tencent + сообщество, получить больше крупной технической практики Tencent по галантерее~
Эта статья написанаbrzhangПочта
Очистка данных
Во-первых, зачем вам чистить данные?
Работа по очистке данных чрезвычайно скучна, и люди, которые занимаются исследованием данных, абсолютно не могут избежать этой ссылки.Фундаментальная причина заключается в том, что данные, которые мы получаем из разных каналов, могут появиться:
1. Необоснованные данные, например, некоторым людям в выборке больше 120 лет, высота этажа достигла 1000 и некоторые другие очень необоснованные сценарии.
2. Неверный тип. Например, в примере почти все данные являются целыми числами. Однако некоторые имеют строковый тип. Если не обрабатывать эти данные напрямую в алгоритме, он при нормальных обстоятельствах рухнет. .
3. Компьютеру трудно работать со строковым типом, иногда нам нужно преобразовать его в числовой тип, чтобы спроектировать отношение отображения, например, образец пола, [мужской, женский], мы можем преобразовать его в 1, 2, тип дома [одна комната, одна комната и одна гостиная, две спальни и одна гостиная, три спальни и одна гостиная, магазины] можно перечислить соответственно, как в моем примере работы с ориентация дома
#提取房屋的朝向
def parse_orientation(row):
if '朝西南' in row:
return 1
elif '朝东北' in row:
return 2
elif '朝东' in row:
return 3
elif '朝南' in row:
return 4
elif '朝西北' in row:
return 5
elif '朝北' in row:
return 6
elif '朝东南' in row:
return 7
elif '朝南北' in row:
return 8
elif '朝西' in row:
return 9
else:
return 10
Подождите, подождите и т. д. Я хочу сказать, что определенно есть много неожиданных сценариев, в которых вам нужно терпеливо полировать данные и очищать собранные необработанные данные в пригодные для использования данные.
Какие черные технологии нужно освоить для очистки данных
Обычно данные, которые мы получаем, могут быть упрощены до табличной модели. Неважно, являетесь ли вы массивом xsl, csv или json, вы можете использовать pandas для его чтения. После прочтения следующая работа в основном заключается в использовании Some apis of pandas используются для очистки данных.Как следует, я прочитал таблицу данных с информацией о ценах на жилье.Конечно, эти данные были просканированы сканером с использованием scrapy в соответствии с предыдущей статьей.
Чтобы мы могли лучше играть в очистку данных, я, не колеблясь, вношу очень всестороннюю операцию pandas.Cheatsheetодин, а позже вы обязательно будете использовать универсальныйCheatSheet.
Приходите, давайте кратко рассмотрим некоторые часто используемые API панд, например, используйте:
1. Общие операции для взятия подмножеств
Среди них loc поддерживает выбор подмножеств в соответствии со строкой имени столбца, iloc поддерживает использование индекса массива (начиная с 0) для получения подмножеств, обычно запятой предшествуют некоторые условные ограничения, связанные со строками, а правая часть запятая Это ограничение, связанное с столбцом. Например, я получаю
2. Обработка пустых строк данных
Это очень просто и приятно, API может удалять или заполнять образцы пустыми данными.
Это не будет продемонстрировано, потому что я краулер, сканирующий данные, поэтому в процессе краулинга я сделал некоторую базовую обработку данных, невозможно, чтобы пустые данные появлялись в элементе управления программы, поэтому я также рекомендую написать это самостоятельно Crawler для получения данных, это снижает нагрузку на очистку данных.
3. Применить серию
На самом деле у apply много братьев, таких как applymap, map, и возможности у них разные.В общем, apply() — это метод, который позволяет функциям воздействовать на столбцы или строки, а applymap() — это метод, который позволяет функциям действовать на DataFrame, Операция каждого элемента и карта - это операция, которая позволяет функции воздействовать на каждый элемент серии, как показано ниже, здесь я обработал столбец ege и нормализовал числа и тексты к числам.
На самом деле, эту операцию можно сделать полностью с картой:
df['ege'] = df['ege'].map(parse_house_age)
df.head(5)
Результат точно такой же, потому что мы взяли только один столбец.
Очистка данных — более продвинутый способ, с использованием различных диаграмм.
1. Используйте диаграмму рассеяния
2. Карта тепловой стоимости дома:
На картинке показан интервал распределения помещения, и при уборке видны некоторые проблемы.
3. Частотная гистограмма помогает нам быстро найти некоторые частные случаи одиноких свиней, потому что они появляются реже, поэтому людям приходится сомневаться в достоверности этих данных.
хорошо, в общем, этот процесс должен активировать ваш собственный мозг и медленно превращать необработанные данные, которые вы получаете, в данные, которые могут дать вам следующие алгоритмы.
Связанное Чтение [Ежедневная рекомендация курса] Машинное обучение в действии! Быстрый старт бизнеса в сфере интернет-рекламы и знание CTR
Эта статья была разрешена автором для публикации в сообществе Tencent Cloud + Для получения дополнительных оригинальных текстов, пожалуйстанажмите
Найдите и подпишитесь на общедоступную учетную запись «Сообщество Yunjia», получите технические галантереи как можно скорее и ответьте на 1024 после подписки, чтобы отправить вам подарочный пакет технических курсов!