Task1, понять начало поисковых роботов, переосмыслить поисковые роботы
1.1 Что такое рептилия
1.1.1 Разница между поисковым роботом и браузером
Традиционный поисковый робот начинает с URL-адреса одной или нескольких исходных веб-страниц и получает URL-адрес исходной веб-страницы.В процессе сканирования веб-страницы он непрерывно извлекает новые URL-адреса с текущей страницы и помещает их в очередь до тех пор, пока выполняются определенные условия остановки системы.
Рабочий процесс сканера фокуса более сложен: он должен фильтровать ссылки, не относящиеся к теме, по определенному алгоритму анализа веб-страницы, сохранять полезные ссылки и помещать их в очередь URL-адресов, ожидающих сканирования. Затем он выберет URL-адрес веб-страницы, который будет сканироваться следующим из очереди в соответствии с определенной стратегией поиска, и повторит описанный выше процесс, пока не достигнет определенного состояния системы и не остановится.
Кроме того, все веб-страницы, просканированные поисковыми роботами, будут храниться в системе, подвергаться определенному анализу, фильтрации и индексированию для последующего запроса и поиска;
Таким образом, конкретная разница заключается в следующем: браузеры отображают данные, а поисковые роботы собирают данные.
1.1.2 Определение и роль поискового робота
Определение поискового робота
Веб-сканер (также известный как веб-паук, веб-робот) — это программа или скрипт, который автоматически сканирует информацию из всемирной паутины в соответствии с определенными правилами.
Роль поисковых роботов
Получить необходимую информацию из всемирной паутины
1.1.3, состав веб-страниц
Во-первых, давайте разберемся с основными компонентами веб-страницы.Веб-страницу можно разделить на три части: HTML, CSS и JavaScript.
Если вы сравните веб-страницу с человеком, HTML эквивалентен скелету, JavaScript эквивалентен мышцам, CSS эквивалентен коже, а комбинация этих трех элементов может сформировать полноценную веб-страницу.
HTML
HTML — это язык, используемый для описания веб-страниц, его полное название — Hyper Text Markup Language, то есть язык гипертекстовой разметки.
Веб-страницы, которые мы просматриваем, включают в себя различные сложные элементы, такие как текст, кнопки, изображения и видео, а базовой структурой является HTML. Разные типы элементов представлены разными типами тегов.Например, изображения представлены тегами img, видео представлены тегами видео, а абзацы представлены тегами p.Раскладка между ними часто комбинируется вложенными тегами макета div. Метки могут формировать структуру веб-страниц посредством различных механизмов и вложений.
Мы открываем Baidu в браузере Chrome, щелкаем правой кнопкой мыши и выбираем пункт «Проверить» (или нажимаем клавишу F12), чтобы открыть режим разработчика, после чего вы можете увидеть исходный код веб-страницы на вкладке «Элементы», как показано на рисунке. на рисунке.
Учебники HTML могут в основном относиться к:оооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооо…(Рекомендуется использовать браузер Chrome для разработки)
CSS
Хотя HTML определяет структуру веб-страницы, макет только HTML-страниц не красив, это может быть простое расположение узловых элементов.Чтобы веб-страница выглядела лучше, здесь нужен CSS.
CSS, полное название Cascading Style Sheets, то есть Каскадные таблицы стилей. «Каскадирование» означает, что когда несколько файлов стилей ссылаются на HTML и стили конфликтуют, браузер может обрабатывать их в соответствии с каскадным порядком. «Стиль» относится к формату размера текста, цвета, интервала между элементами, расположения и т. д. на веб-страницах.
CSS на данный момент является единственным стандартом стиля верстки веб-страницы, с его помощью страница станет красивее.
Основное руководство по CSS может относиться к:уууууууууууууууууууууууууууууууууууууууууууууууууууууууууууууууууууууууууу.com/CSS/CSS-Totem…
JavaScript
JavaScript, сокращенно JS, — это язык сценариев. HTML и CSS используются вместе, чтобы предоставить пользователям только статическую информацию и отсутствие интерактивности.
Мы можем увидеть некоторые интерактивные и анимационные эффекты на веб-страницах, такие как индикатор загрузки, окно подсказки, карусель и т. д., что обычно является заслугой JavaScript.
Его внешний вид делает отношения между пользователями и информацией не только своего рода просмотром и отображением, но и реализует динамическую и интерактивную функцию страницы в реальном времени. JavaScript обычно загружается как отдельный файл с суффиксом js, который можно импортировать в HTML через тег script, например: Подводя итог, HTML определяет содержимое и структуру веб-страницы, CSS описывает макет веб-страницы. , а JavaScript определяет поведение веб-страницы.
Основные справочные руководства по JavaScript могут относиться к:у-у-у-у, беги, о, о, quilt.com/is/is-tutor…
1.1.4 Протокол роботов
Основы протокола роботов
Протокол Robots, стандартный протокол исключения роботов.
Функция: веб-сайт информирует поисковый робот, какие страницы можно сканировать, а какие нельзя.
Формат: файл robots.txt в корневом каталоге сайта.
Пример: Соглашение JD о роботахwww.jd.com/robots.txt
Вы можете увидеть ограничения Jingdong для сканеров:
Для любого источника веб-краулера соблюдайте следующий протокол.
User-agent: * Disallow: /?* Disallow: /pop/.html Disallow: /pinpai/.html?*
Следующие четыре поисковых робота не могут сканировать какие-либо ресурсы.
User-agent: EtaoSpider Disallow: / User-agent: HuihuiSpider Disallow: / User-agent: GwdangSpider Disallow: / User-agent: WochachaSpider Disallow: /
Синтаксис основного протокола:
Примечания
- представляют все
./ представляет корневой каталог User-agent: * # представляет эти поисковые роботы Disallow: / # Представляет каталог, доступ к которому сканерам запрещен.
Некоторые соглашения о роботах для других веб-сайтов (но не на всех веб-сайтах есть соглашения о роботах):
Байду:www.baidu.com/robots.txtНовости Сина:news.sina.com.cn/robots.txtТенсент:www.qq.com/robots.txtНовости Тенсента:news.qq.com/robots.txtМинистерство образования:www.meo.edu.cn/robots.txt(Примечание: нет протокола роботов)
Как соблюдать Соглашение о роботах
(1) Использование протокола роботов
Поисковый робот: автоматически или вручную идентифицирует файл robots.txt, а затем сканирует его содержимое.
Обязательность: Соглашение о роботах является рекомендацией, но не обязательной. Поисковые роботы могут не соблюдать его, но существуют юридические риски.
(2) Понимание протокола роботов
Сканируйте сеть, играйте с сетью
Небольшой трафик: можно соблюдать
Много трафика: рекомендуется следить
сканирование веб-сайта, сканирование серии веб-сайтов
Некоммерческие и случайные, придерживаясь
Деловые интересы: должны соблюдаться
Просканировать всю сеть
обязан следовать
1.2, поисковый робот Python должен учиться и решать проблемы
1. Должен иметь базовые знания Python 2. Поймите основную веб-структуру 3. Используйте хорошие инструменты, такие как отладка Google Chrome 4. Умейте самостоятельно находить решения, когда сталкиваетесь с ошибками и трудностями.