网站建设加后台网站建设的语言与工具
目录
基础处理
- 字符串
 - 列表
 - 字典
 - 运算符
 - 正则表达式re库
 - requests
 - Beautiful Soup
 - jieba库
 - 分词模式
 - 基于TF-IDF算法的关键词提取
 - 基于TextRank算法的关键词提取
 - pandas 打开有多个表的.xlsx文件
 
基础处理
字符串
- str_ = str_.lower()
 - lower()函数:将字符中的大写字母转换成小写字母。
 
- str_ = str_.upper()
 - upper()函数:将字符中的小写字母转换成大写字母。
 
- str_ = str_.replace("要被替换的字符","替换后的字符")
 - 替换字符串
 
- str_ = str_.strip()
 删除字符串前后的空格或字符
- str_ = str_.count()
 - 统计某字符在字符串中的个数
 
- str_ = str_.split()
 - 以指定字符分割
 
- str_.isalpha()
 - 用于判断字符中是否只包含英文和中文字符,如果字符串至少有一个字符且所有字符都是字母,则返回 True,否则返回 False。
 
- 判断中文字符,用编码格式匹配。
 - 判断字符中所有都是中文,有一个英文都返回False。
 num = "python炒粉,为生活添砖java"if "\u4e00" <= num <= "\u9fff":print(True) else:print(False)提取字符中的非中文字符。
num = "python炒粉,为生活添砖java"jg = "" for i in num:if "\u4e00" <= i <= "\u9fff":#是中文就pass掉passelse:#不是中文就添加jg += i #返回:"python,java" print(jg)
列表
- list_.remove()
 - .remove():函数可以删除列表中第一个指定的值。
 
- list_ = list_[::-1]
 - 用索引反转列表
 
- list_.insert(要插入的位置的索引,要插入的内容)
 - 向列表插入值
 
- list_ = list_.pop()
 - 默认移除列表最后一个元素。
 - 如果提供索引,则移除指定索引的元素。
 
字典
- 向字典插入值
 如:dict_[ "键" ] = "插入的值"
- 提取字典的值
 - dict_.get("要提取值的键")
 
- 字典的排序:sorted()函数
 - 如下:
 my_dict = {'banana': 3, 'apple': 4, 'pear': 1, 'orange': 2} sorted_dict_by_values = dict(sorted(my_dict.items(), key=lambda item: item[1])) print(sorted_dict_by_values) # 输出: {'pear': 1, 'orange': 2, 'banana': 3, 'apple': 4}- 倒叙排序:reverse=True
 
运算符
" // ":两数相除,向下取整,取两数相除后的整数部分。
如:3 // 2 结果为:1
5 // 2 结果为:2
" % ":取模运算,两数相除后的余数。
如:7 % 2 结果为:1
3 % 2 结果为:1
- pow(x,y,z)
 - 其中
 x是底数,y是指数。这个函数返回x的y次幂- 其中
 x是底数,y是指数,而z是模数。这个函数返回(x**y) % z的结果,即x的y次幂对z取模的结果。这种用法在计算大数的幂并对某个数取模时非常有用,因为它可以避免中间结果过大而导致的溢出问题。
正则表达式re库
- re.search()
 - 在字符中找到第一次搜索出的正则表达式模式,若为找到则返回None。
 
- re.findall("正则表达式" , 要匹配的字符串)
 - 在字符串中找到正则表达式所匹配的所有子串, 返回列表。
 
- re.sub()
 - 正则表达式替换匹配的字符串
 
requests
发送请求
#传入url链接
url = "XXX"#向网站发送请求
#请求成功时状态为:200
resp = requests.get(url)#转换编码格式
#常用的编码格式:"utf-8","gbk"
resp.encoding = "utf-8"#将返回转换成文本
resp = resp.text 
Beautiful Soup
将文本转换成Beautiful Soup的对象
soup = BeautifulSoup( 文本 ,"html.parser")
- soup.find("标签" , 属性="xxx")
 - 匹配第一个符合条件的值。
 - ##注意匹配class属性时,要将"class"属性写成 "class_" 因为"class"时python的关键词。
 
- soup.find_all("标签" , 属性="xxx")
 - 匹配所有符合条件的值。
 
- 提取标签的属性
 - soup[ " title " ]
 
jieba库
分词模式
1.精确模式
- 精确模式是将文本按照最大概率进行切分,效果较好。
 - 使用方法:jieba.cut(sentence),返回一个可迭代的分词结果。
 2.全模式
- 全模式将文本中所有可能的词语都切分出来,可能存在冗余。
 - 使用方法:jieba.cut(sentence, cut_all=True),返回一个可迭代的分词结果。
 3.搜索引擎模式
- 搜索引擎模式根据词语的位置进行切分,适合搜索引擎分词。
 - 使用方法:jieba.cut_for_search(sentence),返回一个可迭代的分词结果。
 
- jieba.luct()
 - 这个函数回返回一个分词后的列表。
 
基于TF-IDF算法的关键词提取
- jieba库提供了基于TF-IDF算法的关键词提取方法jieba.analyse.extract_tags
(sentence, topK=10),用于从文本中提取关键词。 topK:参数指定返回的关键词数量,默认为10。
基于TextRank算法的关键词提取
- jieba库还提供了基于TextRank算法的关键词提取方法:
 jieba.analyse.textrank(sentence, topK=10,withWeight=False, allowPOS=("ns", "n", "vn", "v"))sentence:是要提取关键词的文本topK:参数指定返回的关键词数量,默认为10。withWeight:表示是否返回关键词的权重值(默认为False)allowPOS:表示仅包括指定词性的词(默认为名词、动词等)
pandas 打开有多个表的.xlsx文件
- df = pd.read_excel('path_to_excel_file.xlsx', sheet_name=None)
 - 设置sheet_name参数为None
 - 打开指定的表:df["表名"]
 
