Task1, понять начало поисковых роботов, переосмыслить поисковые роботы

1.1 Что такое рептилия

1.1.1 Разница между поисковым роботом и браузером

Традиционный поисковый робот начинает с URL-адреса одной или нескольких исходных веб-страниц и получает URL-адрес исходной веб-страницы.В процессе сканирования веб-страницы он непрерывно извлекает новые URL-адреса с текущей страницы и помещает их в очередь до тех пор, пока выполняются определенные условия остановки системы.

Рабочий процесс сканера фокуса более сложен: он должен фильтровать ссылки, не относящиеся к теме, по определенному алгоритму анализа веб-страницы, сохранять полезные ссылки и помещать их в очередь URL-адресов, ожидающих сканирования. Затем он выберет URL-адрес веб-страницы, который будет сканироваться следующим из очереди в соответствии с определенной стратегией поиска, и повторит описанный выше процесс, пока не достигнет определенного состояния системы и не остановится.

Кроме того, все веб-страницы, просканированные поисковыми роботами, будут храниться в системе, подвергаться определенному анализу, фильтрации и индексированию для последующего запроса и поиска;

Таким образом, конкретная разница заключается в следующем: браузеры отображают данные, а поисковые роботы собирают данные.

1.1.2 Определение и роль поискового робота

Определение поискового робота

Веб-сканер (также известный как веб-паук, веб-робот) — это программа или скрипт, который автоматически сканирует информацию из всемирной паутины в соответствии с определенными правилами.

Роль поисковых роботов

Получить необходимую информацию из всемирной паутины

1.1.3, состав веб-страниц

Во-первых, давайте разберемся с основными компонентами веб-страницы.Веб-страницу можно разделить на три части: HTML, CSS и JavaScript.

Если вы сравните веб-страницу с человеком, HTML эквивалентен скелету, JavaScript эквивалентен мышцам, CSS эквивалентен коже, а комбинация этих трех элементов может сформировать полноценную веб-страницу.

HTML

HTML — это язык, используемый для описания веб-страниц, его полное название — Hyper Text Markup Language, то есть язык гипертекстовой разметки.

Веб-страницы, которые мы просматриваем, включают в себя различные сложные элементы, такие как текст, кнопки, изображения и видео, а базовой структурой является HTML. Разные типы элементов представлены разными типами тегов.Например, изображения представлены тегами img, видео представлены тегами видео, а абзацы представлены тегами p.Раскладка между ними часто комбинируется вложенными тегами макета div. Метки могут формировать структуру веб-страниц посредством различных механизмов и вложений.

Мы открываем Baidu в браузере Chrome, щелкаем правой кнопкой мыши и выбираем пункт «Проверить» (или нажимаем клавишу F12), чтобы открыть режим разработчика, после чего вы можете увидеть исходный код веб-страницы на вкладке «Элементы», как показано на рисунке. на рисунке.

Учебники HTML могут в основном относиться к:оооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооооо…(Рекомендуется использовать браузер Chrome для разработки)

CSS

Хотя HTML определяет структуру веб-страницы, макет только HTML-страниц не красив, это может быть простое расположение узловых элементов.Чтобы веб-страница выглядела лучше, здесь нужен CSS.

CSS, полное название Cascading Style Sheets, то есть Каскадные таблицы стилей. «Каскадирование» означает, что когда несколько файлов стилей ссылаются на HTML и стили конфликтуют, браузер может обрабатывать их в соответствии с каскадным порядком. «Стиль» относится к формату размера текста, цвета, интервала между элементами, расположения и т. д. на веб-страницах.

CSS на данный момент является единственным стандартом стиля верстки веб-страницы, с его помощью страница станет красивее.

Основное руководство по CSS может относиться к:уууууууууууууууууууууууууууууууууууууууууууууууууууууууууууууууууууууууууу.com/CSS/CSS-Totem…

JavaScript

JavaScript, сокращенно JS, — это язык сценариев. HTML и CSS используются вместе, чтобы предоставить пользователям только статическую информацию и отсутствие интерактивности.

Мы можем увидеть некоторые интерактивные и анимационные эффекты на веб-страницах, такие как индикатор загрузки, окно подсказки, карусель и т. д., что обычно является заслугой JavaScript.

Его внешний вид делает отношения между пользователями и информацией не только своего рода просмотром и отображением, но и реализует динамическую и интерактивную функцию страницы в реальном времени. JavaScript обычно загружается как отдельный файл с суффиксом js, который можно импортировать в HTML через тег script, например: Подводя итог, HTML определяет содержимое и структуру веб-страницы, CSS описывает макет веб-страницы. , а JavaScript определяет поведение веб-страницы.

Основные справочные руководства по JavaScript могут относиться к:у-у-у-у, беги, о, о, quilt.com/is/is-tutor…

1.1.4 Протокол роботов

Основы протокола роботов

Протокол Robots, стандартный протокол исключения роботов.

Функция: веб-сайт информирует поисковый робот, какие страницы можно сканировать, а какие нельзя.

Формат: файл robots.txt в корневом каталоге сайта.

Пример: Соглашение JD о роботахwww.jd.com/robots.txt

Вы можете увидеть ограничения Jingdong для сканеров:

Для любого источника веб-краулера соблюдайте следующий протокол.

User-agent: * Disallow: /?* Disallow: /pop/.html Disallow: /pinpai/.html?*

Следующие четыре поисковых робота не могут сканировать какие-либо ресурсы.

User-agent: EtaoSpider Disallow: / User-agent: HuihuiSpider Disallow: / User-agent: GwdangSpider Disallow: / User-agent: WochachaSpider Disallow: /

Синтаксис основного протокола:

Примечания

представляют все

./ представляет корневой каталог User-agent: * # представляет эти поисковые роботы Disallow: / # Представляет каталог, доступ к которому сканерам запрещен.

Некоторые соглашения о роботах для других веб-сайтов (но не на всех веб-сайтах есть соглашения о роботах):

Байду:www.baidu.com/robots.txtНовости Сина:news.sina.com.cn/robots.txtТенсент:www.qq.com/robots.txtНовости Тенсента:news.qq.com/robots.txtМинистерство образования:www.meo.edu.cn/robots.txt(Примечание: нет протокола роботов)

Как соблюдать Соглашение о роботах

(1) Использование протокола роботов

Поисковый робот: автоматически или вручную идентифицирует файл robots.txt, а затем сканирует его содержимое.

Обязательность: Соглашение о роботах является рекомендацией, но не обязательной. Поисковые роботы могут не соблюдать его, но существуют юридические риски.

(2) Понимание протокола роботов

Сканируйте сеть, играйте с сетью

Небольшой трафик: можно соблюдать

Много трафика: рекомендуется следить

сканирование веб-сайта, сканирование серии веб-сайтов

Некоммерческие и случайные, придерживаясь

Деловые интересы: должны соблюдаться

Просканировать всю сеть

обязан следовать

1.2, поисковый робот Python должен учиться и решать проблемы

1. Должен иметь базовые знания Python 2. Поймите основную веб-структуру 3. Используйте хорошие инструменты, такие как отладка Google Chrome 4. Умейте самостоятельно находить решения, когда сталкиваетесь с ошибками и трудностями.