当前位置: 首页>Python>正文

基于python的影評數據分析,python爬取《你好, 李煥英》豆瓣評論數據

基于python的影評數據分析,python爬取《你好, 李煥英》豆瓣評論數據

# 導入工具包
import requests
from bs4 import BeautifulSoup
import time
import pandas as pd
import numpy as np# 請求頭
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36'}
# =============================================================================
# 爬取一頁
# =============================================================================
# 爬取的網址
url='https://movie.douban.com/subject/34841067/comments?limit=20&status=P&sort=new_score'# 獲取信息
html = requests.get(url,headers=headers)
# 獲取內容
data = html.text
soup = BeautifulSoup(data,'lxml')# 信息
# 用戶
names = soup.select('#comments > div > div.comment > h3 > span.comment-info > a')
# 評級
pingjis = soup.select('#comments > div > div.comment > h3 > span.comment-info')
# 日期
riqis = soup.select('#comments > div > div.comment > h3 > span.comment-info > span.comment-time')
# 內容
neirongs = soup.select('#comments > div > div.comment > p > span')# 空list
lis=[]
for name,pingji,riqi,neirong in zip(names,pingjis,riqis,neirongs):pingji_re = pingji.find_all('span')lis.append([name.get_text(),pingji_re[1]['class'],pingji_re[1]['title'],riqi.get_text().strip(),neirong.get_text()])result1 = pd.DataFrame(lis,columns=['用戶','評級','等級','日期','內容'])# =============================================================================
# 爬取多頁
# =============================================================================
url = ['https://movie.douban.com/subject/34841067/comments?start={}&limit=20&status=P&sort=new_score'.format(i) for i in range(0,100,20)]lis2 = []for urli in url:# 獲取信息html = requests.get(urli,headers=headers)# 獲取內容data = html.textsoup = BeautifulSoup(data,'lxml')# 用戶names = soup.select('#comments > div > div.comment > h3 > span.comment-info > a')# 評級pingjis = soup.select('#comments > div > div.comment > h3 > span.comment-info')# 日期riqis = soup.select('#comments > div > div.comment > h3 > span.comment-info > span.comment-time')# 內容neirongs = soup.select('#comments > div > div.comment > p > span')for name,pingji,riqi,neirong in zip(names,pingjis,riqis,neirongs):pingji_re = pingji.find_all('span')lis2.append([name.get_text(),pingji_re[1]['class'],pingji_re[1]['title'],riqi.get_text().strip(),neirong.get_text()])print('完成:',urli)time.sleep(np.random.randint(5,10))result2 = pd.DataFrame(lis2,columns=['用戶','評級','等級','日期','內容'])       

視頻介紹鏈接: https://edu.csdn.net/course/detail/31518

https://www.nshth.com/python/338541.html
>

相关文章:

  • 基于python的影評數據分析
  • python爬取豆瓣電影并分析
  • 爬取豆瓣影評名稱和評論數量
  • Python爬取
  • 李煥英簡介
  • 利用python進行數據分析豆瓣
  • 你好李煥英小品
  • 尋找李煥英
  • pygame外星人入侵,python外星人入侵小游戲
  • 用python入侵別人手機,python外星人入侵游戲圖片_Python外星人入侵游戲編程完整版
  • 誰是外星人游戲,20_外星人游戲項目03——
  • python游戲腳本開發,python 外星人游戲怎么打開_Python外星人入侵游戲開發—創建游戲窗口
  • 用python入侵別人手機,python小游戲----外星人入侵
  • python游戲腳本開發,python 外星人游戲下載大全_【Python】Python制作外星人入侵小游戲
  • python播放聲音模塊,python外星人入侵添加音效_python外星人入侵游戲打包
  • python飛機大戰源碼,基于pygame的飛船大戰外星人游戲
  • python 外星人入侵游戲 學習總結 以及完整代碼
  • 有外星人入侵嗎,python外星人入侵游戲代碼_python外星人入侵 游戲源碼
  • python飛機大戰源碼,python項目——外星人入侵游戲
  • 純python開發的大型游戲,Python之外星人游戲(帶源碼和圖片資源)項目
  • python編程書籍推薦,培訓python排行榜
  • bilibili播放量排行榜,b站每日排行榜爬蟲
  • python爬蟲爬取網頁表格數據,python爬蟲爬取歌曲_python爬蟲實戰:爬取全站小說排行榜
  • 爬蟲爬取網站之家,【Python爬蟲】用Python爬取娛樂圈排行榜數據
  • 可以用python寫網頁嗎,有關python的比賽_用 Python 寫一個 Kaggle 比賽排行榜的爬蟲
  • python django框架,python開源框架排行_Python開源項目最新月榜TOP 10
  • 用python刷網頁瀏覽量,用Python獲取公眾號閱讀數、點贊數。
  • 用python做一個簡單的游戲,python有什么好玩的書_史上最全的Python書排行榜|你想知道的都在這里
  • python庫大全一覽,總結!Github年度最強Python庫排行榜
  • python b站 排行_Python爬蟲抓取B站小視頻排行榜,新手也可以跟著做哦!
  • ubuntu運行安卓app,ubuntu AndroiStudio 中 外設(手機、平板) 無法使用
  • ad軟件怎么將原理圖生成pcb,AD20怎樣生成PCB文件??
  • 基于python的影評數據分析,python爬取《你好, 李煥英》豆瓣評論數據
  • 測試顯卡性能的工具,技嘉顯卡性能測試軟件,你好六啊!GTX 1660 Ti深度測試:升吧
  • 捕獲異常的方法有,Scala系列20:Scala中異常捕獲與拋出異常
  • 通過thread類創建線程,【0805作業】繼承Thread類創建線程,輸出20次數字,“你好”,線程名
  • ip靜態,Centos7 配置靜態 IP 地址
  • ip靜態,Centos7 安裝,配置靜態IP