当前位置: 首页 > news >正文

咸阳网站建设多少钱wordpress发帖

咸阳网站建设多少钱,wordpress发帖,wordpress加速插件,wordpress ossUnity C# 之 Http 获取网页的 html 数据,并去掉 html 格式等相关信息 目录 Unity C# 之 Http 获取网页的 html 数据,并去掉 html 格式等相关信息 一、简单介绍 二、实现原理 三、注意事项 四、效果预览 五、关键代码 一、简单介绍 Unity中的一些知…

Unity C# 之 Http 获取网页的 html 数据,并去掉 html 格式等相关信息

目录

Unity C# 之 Http 获取网页的 html 数据,并去掉 html 格式等相关信息

一、简单介绍

二、实现原理

三、注意事项

四、效果预览

 五、关键代码


一、简单介绍

Unity中的一些知识点整理。

本节简单介绍在Unity开发中的,使用 HttpClient,获取指定网页的相关信息,然后进行数据清洗,去掉html 格式,以及标签,函数,多余的空格等信息,仅留下和网页显示差不多的文字信息,为什么这么做呢,其实这里一个使用场景是把网页数据喂给GPT,然后让 GPT 进行处理总结,如果你有新的方式也可以留言,多谢。

二、实现原理

1、HttpClient 获取指定网页的 html 数据

2、使用 HtmlAgilityPack 进行 html 的数据进行 去除所有的<script>标签及其内容,获取纯文本内容,最后再去除多余的空格和空行

三、注意事项

1、直接代码访问网页,最好添加上 User-Agent,不然,可能不能正常访问

2、注意 NuGet 安装  HtmlAgilityPack  包

四、效果预览

 五、关键代码

using HtmlAgilityPack;
using System;
using System.Linq;
using System.Net.Http;
using System.Text.RegularExpressions;namespace TestHtml
{class Program{static async System.Threading.Tasks.Task Main(string[] args){//string url = "https://movie.douban.com/chart";//string url = "http://www.weather.com.cn/";//string url = "https://movie.douban.com/";//string url = "http://time.tianqi.com/";string url = "http://time.tianqi.com/shenzhen/";string htmlContent = @"<html><head><title>Sample Page</title><script>function myFunction() {alert(""Hello!"");}</script></head><body><h1>Welcome to My Page</h1><p>This is a sample page with some content.</p></body></html>";using (HttpClient client = new HttpClient()){// 设置请求头以模拟浏览器访问client.DefaultRequestHeaders.Add("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3");// 访问网页并获取HTML内容htmlContent = await client.GetStringAsync(url);// 输出获取的HTML内容//Console.WriteLine(htmlContent);}// 创建HtmlDocument对象并加载HTML内容HtmlDocument doc = new HtmlDocument();doc.LoadHtml(htmlContent);// 去除所有的<script>标签及其内容foreach (var script in doc.DocumentNode.DescendantsAndSelf("script").ToArray()){script.Remove();}// 获取纯文本内容string text = doc.DocumentNode.InnerText;// 去除多余的空格和空行text = Regex.Replace(text, @"\s+", " ").Trim();// 输出展示内容Console.WriteLine(text);}}
}

http://www.yayakq.cn/news/314480/

相关文章:

  • 小伙做网色网站六安找人做网站
  • wordpress媒体文件位置seo知识点
  • 网站策划就业前景多商户商城小程序源码
  • 苏州制作网站的公司简介营销方向有哪些
  • 网上书城 网站建设方案怎么做教育类型的网站
  • 宁波网站制作工作室专业制作网站公司哪家好
  • 网站设计的基本步骤网站备案号注销查询
  • 网站为什么要做seo做视频的教学直播网站
  • 开发网站开发工程师招聘要求网页设计学校模板
  • 邢台网站建设邢台大良营销网站建设服务
  • 网站设计网站设计公司价格车票在线制作网站
  • 网站建设商业阶段东阳市住房与城乡建设局网站
  • 毕业设计网站前端代做中建三局集团有限公司官网
  • 做一个网站美工多少钱汕头市建设信息网
  • 男女做那个全面视频网站玉林市城市建设投资有限公司网站
  • 国家单位网站建设要多久上海装修公司排名30
  • 直接做海报的网站wordpress网站新闻
  • 网站建设文献搜索引擎优化seo优惠
  • 上海哪里网站备案唐山做网站优化公司
  • 网站如何做超级链接seo标题优化关键词
  • 平乡建设局网站做百度网站图片怎么做
  • 网站建设公司怎么寻找客户呢自己建设一个网站软件
  • 建设企业网站可信度手机邀请函制作软件app
  • 心悦会员免做卡网站农村电商平台怎么加入
  • 百度站长联盟买公司的网站建设
  • 成都校园兼职网站建设单位还能建设网站吗
  • 网站软文伪原创中国十大公关公司
  • 临清网站建设服务php和django做网站哪个好
  • 用什么工具做网站视图会昌县城乡规划建设局网站
  • 个人建网站怎么赚钱简单个人网站模板