当前位置: 首页 > news >正文

可以访问违规网站的浏览器传奇页游

可以访问违规网站的浏览器,传奇页游,泉州做网站联系方式,做网站选哪家公司参考&#xff1a;HanLP 自然语言处理使用总结-CSDN博客 参考&#xff1a;Sprint Boot 工程中HanLP配置相对路径&#xff0c;始终有问题的解决方案_springboot hanlp-CSDN博客 <!--hanlp 依赖--><dependency><groupId>com.hankcs</groupId><artifa…

参考:HanLP 自然语言处理使用总结-CSDN博客

参考:Sprint Boot 工程中HanLP配置相对路径,始终有问题的解决方案_springboot hanlp-CSDN博客

<!--hanlp 依赖--><dependency><groupId>com.hankcs</groupId><artifactId>hanlp</artifactId><version>portable-1.8.4</version></dependency>

public class ResourceFileIoAdapter implements IIOAdapter {@Overridepublic InputStream open(String path) throws IOException {ClassPathResource resource = new ClassPathResource(path);// return Files.newInputStream(resource.getFile().toPath());// Linux环境下跑要把open()里改成这样:return resource.getInputStream();}@Overridepublic OutputStream create(String path) throws IOException {ClassPathResource resource = new ClassPathResource(path);OutputStream os = new FileOutputStream(resource.getFile());return os;}
}

 http://nlp.hankcs.com/download.php?file=data
下载后


其中数据分为词典和模型,其中词典是词法分析必需的,模型是句法分析必需的,用户可以自行增删替换,如果不需要句法分析等功能的话,随时可以删除model文件夹 

实践使用

从文本中提取关键字

// 提取名词关键字
public static String extractOptimizedKeywords(String text, int keywordCount) {// 获取短语List<String> termList = HanLP.extractPhrase(text, 100);// 只保留都是名词的短语List<String> termNounsList = filterOnlyNounsFromPhrases(termList);System.out.println(termNounsList);// 计算TF-IDF值并排序Map<String, Double> tfidfMap = calculateTfidf(termNounsList, text);List<Map.Entry<String, Double>> sortedKeywords = tfidfMap.entrySet().stream().sorted(Map.Entry.<String, Double>comparingByValue().reversed()).collect(Collectors.toList());// 返回出现次数最多的前keywordCount个复合关键字List<String> keywords = sortedKeywords.stream().limit(keywordCount).map(Map.Entry::getKey).collect(Collectors.toList());// 将关键词列表转换为逗号分隔的字符串return String.join(", ", keywords);}// 获取名词短语
public static List<String> filterOnlyNounsFromPhrases(List<String> phrases) {List<String> nounOnlyPhrases = new ArrayList<>();for (String phrase : phrases) {// 对每个短语进行分词和词性标注List<Term> terms = HanLP.segment(phrase);// 检查短语中是否所有词都是名词boolean allNouns = terms.stream().allMatch(term -> term.nature.toString().startsWith("n"));// 如果短语中所有词都是名词,则保留该短语if (allNouns) {nounOnlyPhrases.add(phrase);}}return nounOnlyPhrases;}// 计算TF-IDF值并排序
private static Map<String, Double> calculateTfidf(List<String> terms, String corpus) {Map<String, Integer> termFrequency = terms.stream().collect(Collectors.groupingBy(Function.identity(), Collectors.summingInt(v -> 1)));Map<String, Integer> documentFrequency = calculateDocumentFrequency(corpus);Map<String, Double> tfidf = new HashMap<>();for (Map.Entry<String, Integer> entry : termFrequency.entrySet()) {String term = entry.getKey();int freq = entry.getValue();int df = documentFrequency.getOrDefault(term, 1); // 确保df至少为1,避免log(0)double tf = (double) freq / terms.size();double idf = Math.log((double) 1 + corpus.length() / df); // 调整idf公式,用语料库长度作为文档数量的代理double tfidfValue = tf * idf;tfidf.put(term, tfidfValue);}return tfidf;}private static Map<String, Integer> calculateDocumentFrequency(String corpus) {List<Term> docTerms = HanLP.segment(corpus);return docTerms.stream().filter(term -> term.nature.toString().startsWith("n")) // 使用startsWith("n")匹配任何名词性质.collect(Collectors.groupingBy(term -> term.word, Collectors.summingInt(v -> 1)));}

http://www.yayakq.cn/news/989205/

相关文章:

  • 免费造网站郑州网络营销策划
  • 漯河北京网站建设公司交互式网站开发技术
  • 泉州模板建站平台搜索引擎和浏览器
  • 深圳网站建站费用百度旗下13个app
  • 网站建设选题企业网站为什么都选千博企业网站
  • 拼多多网站建设方案票务网站开发
  • 重庆茶叶网站建设轻量wordpress主题
  • 濮阳网站建设熊掌网络网站的特点有那些
  • 做一家公司网站要注意哪些网站建设项目公告
  • 做一个租房卖房的网站怎么做现在怎么建设一个网站
  • 个人网站建设基础与实例龙港网站建设
  • 自己做网站去哪买服务器庆阳网站设计 贝壳下拉
  • 蚌埠网站建设融资平台公司定义
  • 网站开发的好处网络推广方案怎么写
  • 网站建设宀金手指花总十五网站规划与栏目结构诊断
  • 商城网站开发定制网络营销的特点和优势
  • 湖州做网站公司怎么自己开个免费网站
  • 中国室内设计网站深圳 网页制作
  • 住房和城乡建设部课题网站wordpress4.9.7
  • 个人网站备案名字大全wordpress 忘记管理员密码
  • 建设外贸网站价格电脑托管
  • 巢湖有没有专门做网站的公司网络建站培训
  • 网站基础设施建设wordpress修改页面标题显示
  • 沈阳定制网站方案网络运维工作内容及过程
  • 南头专业企业网站建设公司网网站建设设计
  • 新浪sae可以做网站么百度相册登录入口
  • 做网站 做应用网页设计师培训需要多少钱
  • 获取网站缩略图南宁南宁做网站
  • 如何制作大气网站wordpress登陆页文件夹
  • 包头哪有做网站的培训计划模板