Python3.x сканирует облачный музыкальный плейлист NetEase
Эта статья в основном используется в качестве вводной практики. Функция сканирования не включает платную музыку, а также музыку без потерь. Полный код находится в конце статьи.
анализировать
1. Получить заголовок запроса
Используйте инструмент захвата пакетов fiddler/charles для захвата пакета и захвата информации заголовка заголовка запроса списка воспроизведения. Это уже прописано в коде и этот шаг можно пропустить.
2. Проанализируйте информацию о ссылках на плейлисты
Откройте плейлист, адрес такой
https://music.163.com/#/playlist?id=2944697443
Давайте изменим эту ссылку на http и удалим ее/#
http://music.163.com/playlist?id=2944697443
Ссылка также указывает на адрес плейлиста, который мы используем.
3. Получите идентификатор каждой музыки
С помощью браузера откройте ссылку плейлиста, наведите мышку на музыку и нажмите检查
, вы можете увидеть информацию об идентификаторе песни. Как показано.
4. Адрес внешней ссылки музыки
Адрес внешней ссылки mp3-файла NetEase Cloud Music
music.163.com/send/Media/…
Согласно анализу адресов, мы можем изменить другой идентификатор
Эффект адреса в браузере, как показано ниже
На этом шаге стоит отметить, что будет перенаправление после доступа по мп3 адресу внешней ссылки, поэтому его тоже нужно добавить в код.
5. Сохраните файл mp3.
полный код
#! python3
#encoding=utf8
import requests
from bs4 import BeautifulSoup
import urllib.request
headers = {
'Referer':'http://music.163.com/',
'Host':'music.163.com',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
}
play_url = 'http://music.163.com/playlist?id=2308326138'
s = requests.session()
response=s.get(play_url,headers = headers).content
#print(response) 整个html源文件
s = BeautifulSoup(response,'lxml')
#print(s)
main = s.find('ul',{'class':'f-hide'})
#print(main)
lists=[]
for music in main.find_all('a'):
#print('{} : {}'.format(music.text, music['href']))
list=[]
musicUrl='http://music.163.com/song/media/outer/url'+music['href'][5:]+'.mp3'
musicName=music.text
# 单首歌曲的名字和地址放在list列表中
list.append(musicName)
list.append(musicUrl)
# 全部歌曲信息放在lists列表中
lists.append(list)
print(lists)
# 重定向代码
def get_redirect_url(url):
# 重定向前的链接
# url = "重定向前的url"
# 请求头,这里我设置了浏览器代理
headers = {
'Referer':'http://music.163.com/',
'Host':'music.163.com',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
}
# 请求网页
response = requests.get(url, headers=headers)
# print(response.status_code) # 打印响应的状态码
# print(response.url) # 打印重定向后的网址
# 返回重定向后的网址
return response.url
#下载列表中的全部歌曲,并以歌曲名命名下载后的文件,文件位置为当前文件夹
for i in lists:
url=i[1]
name=i[0]
try:
print('正在下载',name)
# 直接下载会失败,把类似链接放入浏览器中发现自动重定向了一个地址。来模拟下重定向
# 事先要自己手动创建一个 ‘wangyi’ 的文件夹哦
# urllib.request.urlretrieve(url,'./%s.mp3'% name)
urllib.request.urlretrieve(get_redirect_url(url),'./wangyi/%s.mp3'% name)
print('下载成功')
except:
print('下载失败')