Python3.x сканирует облачный музыкальный плейлист NetEase

Эта статья в основном используется в качестве вводной практики. Функция сканирования не включает платную музыку, а также музыку без потерь. Полный код находится в конце статьи.

анализировать

1. Получить заголовок запроса

Используйте инструмент захвата пакетов fiddler/charles для захвата пакета и захвата информации заголовка заголовка запроса списка воспроизведения. Это уже прописано в коде и этот шаг можно пропустить.

2. Проанализируйте информацию о ссылках на плейлисты

Откройте плейлист, адрес такой
https://music.163.com/#/playlist?id=2944697443
Давайте изменим эту ссылку на http и удалим ее/#
http://music.163.com/playlist?id=2944697443
Ссылка также указывает на адрес плейлиста, который мы используем.

3. Получите идентификатор каждой музыки

С помощью браузера откройте ссылку плейлиста, наведите мышку на музыку и нажмите检查, вы можете увидеть информацию об идентификаторе песни. Как показано.

4. Адрес внешней ссылки музыки

Адрес внешней ссылки mp3-файла NetEase Cloud Music
music.163.com/send/Media/…

Согласно анализу адресов, мы можем изменить другой идентификатор

Эффект адреса в браузере, как показано ниже

На этом шаге стоит отметить, что будет перенаправление после доступа по мп3 адресу внешней ссылки, поэтому его тоже нужно добавить в код.

5. Сохраните файл mp3.

полный код

#! python3
#encoding=utf8
import requests
from bs4 import BeautifulSoup
import urllib.request
headers = {
    'Referer':'http://music.163.com/',
    'Host':'music.163.com',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    }

play_url = 'http://music.163.com/playlist?id=2308326138'
s = requests.session()
response=s.get(play_url,headers = headers).content
#print(response) 整个html源文件
s = BeautifulSoup(response,'lxml')
#print(s) 
main = s.find('ul',{'class':'f-hide'})

#print(main)

 
lists=[]
for music in main.find_all('a'):
    #print('{} : {}'.format(music.text, music['href']))
    list=[]
    musicUrl='http://music.163.com/song/media/outer/url'+music['href'][5:]+'.mp3'
    musicName=music.text
    # 单首歌曲的名字和地址放在list列表中
    list.append(musicName)
    list.append(musicUrl)
    # 全部歌曲信息放在lists列表中
    lists.append(list)
 
print(lists)


# 重定向代码
def get_redirect_url(url):
    # 重定向前的链接
    # url = "重定向前的url"
    # 请求头，这里我设置了浏览器代理
    headers = {
    'Referer':'http://music.163.com/',
    'Host':'music.163.com',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    }
    # 请求网页
    response = requests.get(url, headers=headers)
    # print(response.status_code)  # 打印响应的状态码
    # print(response.url)  # 打印重定向后的网址
    # 返回重定向后的网址
    return response.url

#下载列表中的全部歌曲，并以歌曲名命名下载后的文件，文件位置为当前文件夹
for i in lists:
    url=i[1]
    name=i[0]
    try:
        print('正在下载',name)
        # 直接下载会失败，把类似链接放入浏览器中发现自动重定向了一个地址。来模拟下重定向
        # 事先要自己手动创建一个 ‘wangyi’ 的文件夹哦
        # urllib.request.urlretrieve(url,'./%s.mp3'% name)
        urllib.request.urlretrieve(get_redirect_url(url),'./wangyi/%s.mp3'% name)
        print('下载成功')
    except:
        print('下载失败')