当前位置: 首页 > news >正文

自适应网站建设公司wordpress注册邮箱空白

自适应网站建设公司,wordpress注册邮箱空白,网络维护岗位职责,建筑模板厂家大全1.移除用词 在很多情况下,有一些文章内的英文字符、标点符号分词的结果不符合自己的预期,会出现一些不想要的分词,此时就能通过以下的函数自己设定用词,并且删除。 jieba.analyse.set_stop_words("stop_words.tx…

1.移除用词

        在很多情况下,有一些文章内的英文字符、标点符号分词的结果不符合自己的预期,会出现一些不想要的分词,此时就能通过以下的函数自己设定用词,并且删除。

jieba.analyse.set_stop_words("stop_words.txt")

2.自定比重分数

        因为jieba对每一个字会给出IDF分数比重,但是在很多时候,会希望把文章中特别的关键字突显出来(或者降低),可以设定IDF分数高一些(或低一些),就能将想要的字突显出来(或者降低)。

 jieba.analyse.set_idf_path("idf.txt")         #读入IDF关键字比重分数

一个demo

import sys
from os import path
import jieba
import jieba.analyse
d=path.dirname(__file__)
jieba.load_userdict(path.join(d,r"C:\Users\nsy\Desktop\userdict.txt.txt"))
text="今天学习好烦躁,还没有效率"
content =text
extracted_tags=jieba.analyse.extract_tags(content,topK=10,withWeight=False)
print(" ,".join(extracted_tags))
jieba.analyse.set_stop_words(path.join(d, r"C:\Users\nsy\Desktop\stop_words.txt.txt"))
weighted_tags=jieba.analyse.extract_tags(content,topK=10,withWeight=True,allowPOS=('ns','n','vn','v'))
for item in weighted_tags:keyword,weight=itemprint(f"关键词:{keyword},权重:{weight}")

3.排列出最常出现的分词(次数的统计)

import sys
from os import path
import jieba
import jieba.analysed = path.dirname(__file__)# 根据Python版本打开文件
if sys.version_info > (3, 0):text = open(path.join(d, r"C:\\Users\\nsy\\Desktop\\test.txt"), 'r', encoding='utf-8').read()
else:text = open(path.join(d, r"C:\\Users\\nsy\\Desktop\\test.txt"), 'r').read()text = text.replace('\n', '')# 设置停用词文件路径,注意文件名是否正确
jieba.analyse.set_stop_words(r"C:\Users\nsy\Desktop\stop_words.txt.txt")
# 输出分词结果
print(" ".join(jieba.cut(text)))# 打印分隔线
print("-" * 10)# 使用自定义词典
jieba.load_userdict(path.join(d, r"C:\Users\nsy\Desktop\userdict.txt.txt"))# 初始化字典存储词频
dic = {}for ele in jieba.cut(text):if ele not in dic:dic[ele] = 1else:dic[ele] += 1# 按词频排序并输出
for w in sorted(dic, key=dic.get, reverse=True):print("%s %d" % (w, dic[w]))

4.通过jieba来分析和计算网站文章所探讨的主要内容

import sys
import jieba
import jieba.analyse
import urllib.request as httplib# 网络请求异常处理
try:# 网络文章的网址url = "https://csdnnews.blog.csdn.net/article/details/140678511?spm=1000.2115.3001.5928"# 送出连接的需求req = httplib.Request(url)# 打开网页response = httplib.urlopen(req)# 连接网页正常(200)if response.status == 200:# 如果是 Python 3.0 以上if sys.version_info > (3, 0):# 取得网页的数据并解码contents = response.read().decode(response.headers.get_content_charset())else:# 考虑到 Python 2 不再使用,这里可以省略对应的处理逻辑raise Exception("Python 2 is not supported")
except Exception as e:print("Error during HTTP request:", e)contents = ""# 去除不要的文字
jieba.analyse.set_stop_words("C:\\Users\\nsy\\Desktop\\stop_words.txt.txt")# 仅捕获地名、名词、动名词、动词
keywords = jieba.analyse.extract_tags(contents, topK=5, withWeight=True, allowPOS=('ns', 'n', 'vn'))# 输出关键词和相应的权重
for item in keywords:print("%s=%f" % (item[0], item[1]))print("*" * 40)# 数据结构字典 key:value
dic = {}# 做分词动作
words = jieba.cut(contents)# 仅处理名词、动名词
for word in words:if word not in dic:dic[word] = 1  # 记录为1else:dic[word] += 1  # 累加1# 由大到小排列并打印
for w in sorted(dic.items(), key=lambda x: x[1], reverse=True):print("%s: %d" % w)# 异常处理应该针对具体的操作,而不是放在代码的最后

http://www.yayakq.cn/news/84837/

相关文章:

  • 博物馆建设网站的作用html网站模板免费
  • 建设商城网站公司北京发布会直播回放
  • 方案巴巴策划网站深圳哪里有网站建设
  • 毕业设计网站题目网站建设怎么弄
  • 网站与网页设计网站建设中 html 下载
  • 网站推广公司官网WordPress网站封装app教程
  • 免费素材网站素材库湘潭网站建设的公司
  • 网站SEO建设服务器iis添加网站
  • 深圳定制网站开发辽宁省建设工程信息网官网新网站入口
  • 做网站接专线费用织梦网站0day漏洞
  • 网站建设相关语言小程序定制开发传智科技
  • 软件开发文档免费郑州seo顾问热狗网
  • 网站设计 色彩为什么有些公司却没有自己的网站
  • 网站开发技术笔记办公室设计图
  • 南昌营销网站公司哪家好建设思政教育网站案例
  • 电子商务电商网站设计网站网页的收录数量
  • 网络公司构建网站学网站开发好找工作吗
  • 网页版百度手机优化大师为什么扣钱
  • 网站推广项目国内大型免费网站建设
  • 网站怎样做301佛山新网站建设案例
  • 宿迁莱布拉网站建设信息发布网站模板下载
  • 怎么建手机网站平台网站的标志可以修改吗
  • 中介订制网站开发潍坊网站建设盛鸿科技
  • 微网站开发难吗科技网站颜色
  • 专业做网站建做农业网站怎么赚钱
  • 有一个专门做演讲的网站优酷视频接到网站怎么做
  • thinkphp做网站好吗网站到期续费吗
  • 商业网站建设实训指导书鹰潭建设网站公司
  • 东莞网络公司网站建设加盟店推广营销
  • 做网站一定要虚拟主机吗网站如何做下载文档