怎么利用爬虫技术抓取淘宝搜索页面的产品信息
可以通过requests库re库进行淘宝商品爬虫爬取 import requestsimport redef getHTMLText(url):try:r= requests.get(url,timeout=30)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return ""def parsePage(ilt,html):try:plt = re.findall(r'"view_price":"[d+.]*"',html)tlt = re.findall(r'"raw_title":".*?"',html)for i in range(len(plt)):price = eval(plt[i].split(':')[1])title = eval(tlt[i].split(':')[1])ilt.append([price,title])except:print("F")def printGoodsList(ilt):tplt = "{:4}t{:8}t{:16}"print(tplt.format("序号","价格","商品名称"))count = 0for g in ilt:count = count +1print(tplt.format(count,g[0],g[1]))def main():goods = '书包'depth = 2start_url = "https://s.taobao.com/search?q="+ goodsinfoList = []for i in range(depth):try:url = start_url +'&s='+str(44*i)html = getHTMLText(url)parsePage(infoList,html)except:continueprintGoodsList(infoList)main()这段代码在过去是可以爬取淘宝商品信息,但是因为淘宝的反扒技术升级,便不能让你大摇大摆地进出自如了。 此外也可以借助采集实现采集
写个脚本定时抓取 制定网页地址,通过正则表达式 匹配过滤想要的数据 整理成自己想要的格式(比如excel)。 PHP 语言的话,可以用 file_get_content、curl。 Linux 可以用 curl wget 等。
