当前位置: 首页>Python>正文

python爬取某人所有朋友圈,python 抓取微博評論破億_Python爬蟲實戰演練:爬取微博大V的評論數據

python爬取某人所有朋友圈,python 抓取微博評論破億_Python爬蟲實戰演練:爬取微博大V的評論數據

本文的文字及圖片來源于網絡,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯系我們以作處理。

以下文章來源于IT共享之家 ,作者: IT共享者

1d5999491307aa0207f5dca00d778afc.png

理論篇

90410d619eb05904b4da2af348818679.png

python爬取某人所有朋友圈?試想一個問題,如果我們要抓取某個微博大V微博的評論數據,應該怎么實現呢?最簡單的做法就是找到微博評論數據接口,然后通過改變參數來獲取最新數據并保存。首先從微博api尋找抓取評論的接口,如下圖所示。

f971ba4391e9575fbb638e2d7c7a9481.png

但是很不幸,該接口頻率受限,抓不了幾次就被禁了,還沒有開始起飛,就涼涼了。

051aafea2dd7bd4252de3e2e3a14a1a5.png

接下來小編又選擇微博的移動端網站,先登錄,然后找到我們想要抓取評論的微博,打開瀏覽器自帶流量分析工具,一直下拉評論,找到評論數據接口,如下圖所示。

d26f2ab404cbea41fbd40f93c40de68c.png

之后點擊“參數”選項卡,可以看到參數為下圖所示的內容:

d97e8f1ee7781b3dfdcc4e12724078ad.png

python爬取淘寶評論。可以看到總共有4個參數,其中第1、2個參數為該條微博的id,就像人的身份證號一樣,這個相當于該條微博的“身份證號”,max_id是變換頁碼的參數,每次都要變化,下次的max_id參數值在本次請求的返回數據中。

fa64751ad372b4b791fa17cb0a6fee49.png

實戰篇

有了上文的基礎之后,下面我們開始擼代碼,使用Python進行實現。

a84bb58308afdcfd805c1a968d3bcbda.png

1、首先區分url,第一次不需要max_id,第二次需要用第一次返回的max_id。

0b065090ffb04293ced13c4494b212ef.png

爬蟲數據抓取?2、請求的時候需要帶上cookie數據,微博cookie的有效期比較長,足夠抓一條微博的評論數據了,cookie數據可以從瀏覽器分析工具中找到。

fc63d8084534c735beae64531ae4b17a.png

3、然后將返回數據轉換成json格式,取出評論內容、評論者昵稱和評論時間等數據,輸出結果如下圖所示。

0b194bc2deebdf9ef4b553614ad08a1c.png

4、為了保存評論內容,我們要將評論中的表情去掉,使用正則表達式進行處理,如下圖所示。

1c058b7b847af13d8dce4f49e5b95faf.png

5、之后接著把內容保存到txt文件中,使用簡單的open函數進行實現,如下圖所示。

edc988a7d03a9e183184118e75bae7e3.png

python爬蟲怎么找數據,6、重點來了,通過此接口最多只能返回16頁的數據(每頁20條),網上也有說返回50頁的,但是接口不同、返回的數據條數也不同,所以我加了個for循環,一步到位,遍歷還是很給力的,如下圖所示。

50c50e8e9feb4b7eb1814331dd28f38e.png

7、這里把函數命名為job。為了能夠一直取出最新的數據,我們可以用schedule給程序加個定時功能,每隔10分鐘或者半個小時抓1次,如下圖所示。

7fbd30ca129c7ee86d9d26a8db84e83f.png

8、對獲取到的數據,做去重處理,如下圖所示。如果評論已經在里邊的話,就直接pass掉,如果沒有的話,繼續追加即可。

15c87e1bd1e6f7bdc62948d565d6c731.png

這項工作到此就基本完成了。

https://www.nshth.com/python/338386.html
>

相关文章:

  • python爬取某人所有朋友圈
  • python爬取淘寶評論
  • 爬蟲數據抓取
  • python爬蟲怎么找數據
  • 爬蟲python的爬取步驟
  • python爬取評論
  • python爬蟲教程
  • python爬蟲獲取數據
  • pygame外星人入侵,python外星人入侵小游戲
  • 用python入侵別人手機,python外星人入侵游戲圖片_Python外星人入侵游戲編程完整版
  • 誰是外星人游戲,20_外星人游戲項目03——
  • python游戲腳本開發,python 外星人游戲怎么打開_Python外星人入侵游戲開發—創建游戲窗口
  • 用python入侵別人手機,python小游戲----外星人入侵
  • python游戲腳本開發,python 外星人游戲下載大全_【Python】Python制作外星人入侵小游戲
  • python播放聲音模塊,python外星人入侵添加音效_python外星人入侵游戲打包
  • python飛機大戰源碼,基于pygame的飛船大戰外星人游戲
  • python 外星人入侵游戲 學習總結 以及完整代碼
  • 有外星人入侵嗎,python外星人入侵游戲代碼_python外星人入侵 游戲源碼
  • python飛機大戰源碼,python項目——外星人入侵游戲
  • 純python開發的大型游戲,Python之外星人游戲(帶源碼和圖片資源)項目
  • python編程書籍推薦,培訓python排行榜
  • bilibili播放量排行榜,b站每日排行榜爬蟲
  • python爬蟲爬取網頁表格數據,python爬蟲爬取歌曲_python爬蟲實戰:爬取全站小說排行榜
  • 爬蟲爬取網站之家,【Python爬蟲】用Python爬取娛樂圈排行榜數據
  • 可以用python寫網頁嗎,有關python的比賽_用 Python 寫一個 Kaggle 比賽排行榜的爬蟲
  • python django框架,python開源框架排行_Python開源項目最新月榜TOP 10
  • 用python刷網頁瀏覽量,用Python獲取公眾號閱讀數、點贊數。
  • 用python做一個簡單的游戲,python有什么好玩的書_史上最全的Python書排行榜|你想知道的都在這里
  • python庫大全一覽,總結!Github年度最強Python庫排行榜
  • python b站 排行_Python爬蟲抓取B站小視頻排行榜,新手也可以跟著做哦!
  • ubuntu運行安卓app,ubuntu AndroiStudio 中 外設(手機、平板) 無法使用
  • ad軟件怎么將原理圖生成pcb,AD20怎樣生成PCB文件??
  • 基于python的影評數據分析,python爬取《你好, 李煥英》豆瓣評論數據
  • 測試顯卡性能的工具,技嘉顯卡性能測試軟件,你好六啊!GTX 1660 Ti深度測試:升吧
  • 捕獲異常的方法有,Scala系列20:Scala中異常捕獲與拋出異常
  • 通過thread類創建線程,【0805作業】繼承Thread類創建線程,輸出20次數字,“你好”,線程名
  • ip靜態,Centos7 配置靜態 IP 地址
  • ip靜態,Centos7 安裝,配置靜態IP