当前位置: 首页 > news >正文

国外免费舆情网站有哪些软件大型网站技术架构 pdf

国外免费舆情网站有哪些软件,大型网站技术架构 pdf,wordpress 树形菜单插件,做网站 报价Unity C# 之 Http 获取网页的 html 数据,并去掉 html 格式等相关信息 目录 Unity C# 之 Http 获取网页的 html 数据,并去掉 html 格式等相关信息 一、简单介绍 二、实现原理 三、注意事项 四、效果预览 五、关键代码 一、简单介绍 Unity中的一些知…

Unity C# 之 Http 获取网页的 html 数据,并去掉 html 格式等相关信息

目录

Unity C# 之 Http 获取网页的 html 数据,并去掉 html 格式等相关信息

一、简单介绍

二、实现原理

三、注意事项

四、效果预览

 五、关键代码


一、简单介绍

Unity中的一些知识点整理。

本节简单介绍在Unity开发中的,使用 HttpClient,获取指定网页的相关信息,然后进行数据清洗,去掉html 格式,以及标签,函数,多余的空格等信息,仅留下和网页显示差不多的文字信息,为什么这么做呢,其实这里一个使用场景是把网页数据喂给GPT,然后让 GPT 进行处理总结,如果你有新的方式也可以留言,多谢。

二、实现原理

1、HttpClient 获取指定网页的 html 数据

2、使用 HtmlAgilityPack 进行 html 的数据进行 去除所有的<script>标签及其内容,获取纯文本内容,最后再去除多余的空格和空行

三、注意事项

1、直接代码访问网页,最好添加上 User-Agent,不然,可能不能正常访问

2、注意 NuGet 安装  HtmlAgilityPack  包

四、效果预览

 五、关键代码

using HtmlAgilityPack;
using System;
using System.Linq;
using System.Net.Http;
using System.Text.RegularExpressions;namespace TestHtml
{class Program{static async System.Threading.Tasks.Task Main(string[] args){//string url = "https://movie.douban.com/chart";//string url = "http://www.weather.com.cn/";//string url = "https://movie.douban.com/";//string url = "http://time.tianqi.com/";string url = "http://time.tianqi.com/shenzhen/";string htmlContent = @"<html><head><title>Sample Page</title><script>function myFunction() {alert(""Hello!"");}</script></head><body><h1>Welcome to My Page</h1><p>This is a sample page with some content.</p></body></html>";using (HttpClient client = new HttpClient()){// 设置请求头以模拟浏览器访问client.DefaultRequestHeaders.Add("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3");// 访问网页并获取HTML内容htmlContent = await client.GetStringAsync(url);// 输出获取的HTML内容//Console.WriteLine(htmlContent);}// 创建HtmlDocument对象并加载HTML内容HtmlDocument doc = new HtmlDocument();doc.LoadHtml(htmlContent);// 去除所有的<script>标签及其内容foreach (var script in doc.DocumentNode.DescendantsAndSelf("script").ToArray()){script.Remove();}// 获取纯文本内容string text = doc.DocumentNode.InnerText;// 去除多余的空格和空行text = Regex.Replace(text, @"\s+", " ").Trim();// 输出展示内容Console.WriteLine(text);}}
}

http://www.yayakq.cn/news/832162/

相关文章:

  • 微信开放平台网站应用wordpress如何修改主题名称
  • 影响网站pr的因素有哪些苏州房产网
  • 工程建设业主官方网站WordPress支持外链图片
  • 网站定制开发要多久浙江专业网页设计免费建站
  • 网站建设中需要注意的问题免费产品发布推广
  • 福建省港航建设发展有限公司网站点击出字插件wordpress
  • 郑州网站建设索q479185700对网站建设提建议
  • 网站建设合同付款比例免费建站网站一级大录像不卡在线看网页
  • 常州做网站包括哪些中文网站 可以做谷歌推广吗
  • 织梦怎么做手机网站做网站技术路线
  • 山东中佛龙建设有限公司网站wordpress5置顶
  • 网站建设 html5怎么做消费信贷网站
  • 东莞网站建设培训杭州市建设信用网官网
  • 北京网站优化哪家好西安注册公司在哪个网站系统
  • 海南建设教育执业网站长沙市建站
  • 利用淘宝做网站卖货到国外天津专业网站制作设计
  • 织梦网站模板响应式网站建设对数据库有何要求
  • 新河镇网站制作eclipse开发微网站开发
  • 优惠建网站企业网站设计步骤
  • 企业建设网站的目标网站开发 网络后台维护作用
  • iis如何做网站企业网站建设的服务类型有哪些
  • 苏州网站设计网站搭建建设自己公司的网站首页
  • 成功的网站建设商城app制作教程
  • seo网站上线前分析做网站都需要什么贴吧
  • 北京网站制作的网站制作学校
  • 如何创建一个网站的步骤wordpress设置恢复
  • 南京企业网站设计制作网站站内站建设现状
  • 深圳正规网站建设服务如何用手机建网站
  • 安徽网站建设调查报告重庆市建设施工安全管理网官网
  • 现在找个网站这么难的吗加强网站技术建设