博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫大作业-爬区a9vg电玩部落ps4专区
阅读量:6980 次
发布时间:2019-06-27

本文共 2015 字,大约阅读时间需要 6 分钟。

1.选一个自己感兴趣的主题或网站。(所有同学不能雷同)

2.用python 编写爬虫程序,从网络上爬取相关主题的数据。

def writeNewsDetail(content):    f = open('a9vg.txt','a',encoding='utf-8')    f.write(content)    f.close()def getNewsDetail(url):    res2 = requests.get(url)    res2.encoding = 'utf-8'    soup2 = BeautifulSoup(res2.text, 'html.parser')    news = {}    news['content'] = soup2.select('.art-ctn')[0].text # 爬取ps4专区新闻的正文    writeNewsDetail(news['content'])    news['newsurl']=url    return(news)def getListPage(pageUrl):    res = requests.get(pageUrl)    res.encoding = 'utf-8'    soup = BeautifulSoup(res.text,'html.parser')    newsList=[]    for news in soup.select('.tab-ctn dl'):        if len(news.select('h3')) > 0:            a = news.select('a')[0].attrs['href']            print(a)            newsList.append(getNewsDetail(a))    return(newsList)

3.对爬了的数据进行文本分析,生成词云。

def cutword():    text=''    f = open('a9vg.txt', 'r', encoding='utf8')    lines = f.readlines()    for line in lines:        text += line    for key in analyse.extract_tags(text, 50, withWeight=False):        # 使用jieba.analyse.extract_tags()参数提取关键字,默认参数为50        print(key)    jieba.add_word('奥丁')    words_ls = jieba.cut(text)    words_split = " ".join(words_ls)    print(words_ls)    return words_splitdef wordspic():    wordsp=cutword()    Stopwords = ['programs','view','tudou','www','http','com','https','qq','page','杀死','渡鸦']    wc = WordCloud()    # 字体这里有个坑,一定要设这个参数。否则会显示一堆小方框    wc.stopwords=Stopwords    wc.max_words=200    wc.background_color='white'    wc.font_path="simhei.ttf"   # 黑体    my_wordcloud = wc.generate(wordsp)    plt.imshow(my_wordcloud)    plt.axis("off")    plt.show()    wc.to_file('ttt.png') # 保存图片文件

4.对文本分析结果进行解释说明。

通过使用第三方的jieba库进行中文分词,其中有过多新闻正文内容包含视频链接,所以通过设计了停用词,去掉一些词

关键词如下

5.写一篇完整的博客,描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。

在进行下载安装第三方的库的时候,wordcloud下载失败,查了各种问题最后通过https://www.lfd.uci.edu/~gohlke/pythonlibs/这个网站下载对应py版本对应系统位数的库进行安装。

6.最后提交爬取的全部数据、爬虫及数据分析源代码。

爬取的链接,内容如下(使用了pandas这个库进行输出到控制台)

词云如下:

转载于:https://www.cnblogs.com/yxbdbolgs/p/8910322.html

你可能感兴趣的文章
FST的简单应用
查看>>
数据趋势拟合--多项式拟合
查看>>
Hyper-V内存获取模式 内存权重
查看>>
linux系统时钟和硬件时钟
查看>>
阅读基地畅销榜数据抓取
查看>>
使用maven3生成自定义的archetype
查看>>
我的友情链接
查看>>
大数据分析:每位CIO应该知晓的事情
查看>>
Cisco3550配置作为DHCP服务器工程实例
查看>>
java异常处理基本原则
查看>>
【01】CC - 整洁代码
查看>>
我的友情链接
查看>>
我的友情链接
查看>>
我的友情链接
查看>>
善用windows sysprep 进行修改操作系统的sid
查看>>
2-6. 文本处理工具
查看>>
玩转树莓派——在树莓派上运行Windows 3.2
查看>>
EasyUI combobox
查看>>
Ubuntu下RabbitVCS的安装和简单使用
查看>>
配置管理小报100301:Linux下安装rpm包提示依赖的包很多时有啥简单方法不用一个个装?...
查看>>