当前位置: 首页 > news >正文

庆阳市建设局海绵城市网站网站维护步骤

庆阳市建设局海绵城市网站,网站维护步骤,东莞网站建设科技公司,黄冈做网站theme: orange 要分析一篇文章的高频词和关键词,可以使用 Python 中的 nltk 库和 collections 库或者jieba库来实现,本篇文章介绍基于两种库分别实现分析内容中的高频词和关键词。 nltk 和 collections 库 首先,需要安装 nltk 库和 collectio…

theme: orange

要分析一篇文章的高频词和关键词,可以使用 Python 中的 nltk 库和 collections 库或者jieba库来实现,本篇文章介绍基于两种库分别实现分析内容中的高频词和关键词。

nltk 和 collections 库

首先,需要安装 nltk 库和 collections 库。可以使用以下命令来安装:

shell pip install nltk pip install collections 接下来,需要下载 nltk 库中的 stopwords 和 punkt 数据。可以使用以下代码来下载: ```python import nltk

nltk.download('stopwords') nltk.download('punkt') ```

下载完成后,可以使用以下代码来读取文章并进行分析: ```python import collections import nltk from nltk.corpus import stopwords from nltk.tokenize import word_tokenize

读取文章

with open('article.txt', 'r',encoding='utf-8') as f: article = f.read()

分词

tokens = word_tokenize(article)

去除停用词

stopwords = set(stopwords.words('english')) filteredtokens = [token for token in tokens if token.lower() not in stop_words]

统计词频

wordfreq = collections.Counter(filteredtokens)

输出高频词

print('Top 10 frequent words:') for word, freq in wordfreq.mostcommon(10): print(f'{word}: {freq}')

提取关键词

keywords = nltk.FreqDist(filtered_tokens).keys()

输出关键词

print('Keywords:') for keyword in keywords: print(keyword)

```

上述代码中,首先使用 open() 函数读取文章,然后使用 word_tokenize() 函数将文章分词。接着,使用 stopwords 数据集去除停用词,使用 collections.Counter() 函数统计词频,并输出高频词。最后,使用 nltk.FreqDist() 函数提取关键词,并输出关键词。

需要注意的是,上述代码中的 article.txt 文件需要替换为实际的文章文件路径。

结巴(jieba)库实现

```python

导入必要的库

import jieba import jieba.analyse from collections import Counter from wordcloud import WordCloud import matplotlib.pyplot as plt

读取文章

with open('./data/2.txt', 'r', encoding='utf-8') as f: article = f.read()

分词

words = jieba.cut(article)

统计词频

word_counts = Counter(words)

输出高频词

print('高频词:') for word, count in wordcounts.mostcommon(10): print(word, count)

输出关键词

print('关键词:') keywords = jieba.analyse.extract_tags(article, topK=10, withWeight=True, allowPOS=('n', 'nr', 'ns')) for keyword, weight in keywords: print(keyword, weight)

生成词云

wordcloud = WordCloud(fontpath='msyh.ttc', backgroundcolor='white', width=800, height=600).generate(article) plt.imshow(wordcloud, interpolation='bilinear') plt.axis('off') plt.show()

```

  1. 导入jieba库:首先需要导入jieba库,才能使用其中的分词功能。

  2. 读取文章:需要读取要分析的文章,可以使用Python内置的open函数打开文件,然后使用read方法读取文件内容。

  3. 分词:使用jieba库的cut方法对文章进行分词,得到一个生成器对象,可以使用for循环遍历生成器对象,得到每个词。

  4. 统计词频:使用Python内置的collections库中的Counter类,对分词后的词进行统计,得到每个词出现的次数。

  5. 输出高频词:根据词频统计结果,输出出现频率最高的词,即为高频词。

  6. 输出关键词:使用jieba库的analyse模块中的extract_tags方法,根据TF-IDF算法计算每个词的权重,输出权重最高的词,即为关键词。

  7. 生成词云:使用wordcloud库生成词云,将文章中的词按照词频生成词云,词频越高的词在词云中出现的越大。

http://www.yayakq.cn/news/195762/

相关文章:

  • dede汽车资讯网站源码电子商务网站建设也管理
  • 淘宝联盟的网站管理怎么做中国铁建企业门户网站
  • wordpress的网站上海公司名字大全
  • 网站建设网站及上传网站做多语言
  • 怎么让自己的网站通过域名访问软件生命周期七个阶段
  • 南昌网站建设费用安做省民改厅网站
  • 社区网站建设工作职责引流推广团队
  • 做网站的公司盐城做外贸seo优化的上市公司
  • 学做网站需要文化嘛thea wordpress
  • 免费推广的网站平台小程序开发定制开发
  • iis7.5 网站打不开专业设计笔记本电脑
  • 如何建网站遂宁wordpress 去google
  • 合作网站seo网站微信推广怎么做
  • 网站建设套餐报价网站内容的特点
  • 太原网站建设方案策划深圳光明建设局官方网站
  • 青岛建设局网站小程序开发软件有哪些
  • 湛江专业自助建站详情长春代做网站
  • 下面哪些是用作电子商务网站开发网站域名收费
  • 网站在线问答怎么做wordpress 适合程序员主题
  • 用现成的php模板 怎么做网站网站开发有哪些书籍
  • 做视频直播的网站有哪些网店美工主要负责哪些工作
  • 做cad室内平面图的家具素材网站四川省建设厅新网站
  • 小米网站 用什么做的什么是网络营销促销
  • a站app下载制作app软件的公司
  • 网站权重降低痞子 wordpress
  • 汕头建站模板搭建wordpress默认编辑器增强
  • 建设网站文件夹的名字河北省最大的网页设计公司
  • 外贸网站平台襄阳seo技术
  • 杭州亚太建设监理咨询有限公司中标网站网上做效果图网站有哪些软件有哪些
  • 南京建网站找哪家好个人网站建设方案书 学生