当前位置: 首页 > news >正文

想建个购物网站十大没用的证书

想建个购物网站,十大没用的证书,东营建设信息网登录,金耀网站建设文章目录 声明安装必要的库项目结构技术细节小结 声明 请您遵守网站的robots文件规定,本文目的只是做学习交流使用,包括多个模块,例如数据存储、日志记录、错误处理、多线程或异步请求 安装必要的库 pip install requests beautifulsoup4 sq…

文章目录

    • 声明
    • 安装必要的库
    • 项目结构
    • 技术细节
    • 小结

声明

在这里插入图片描述

请您遵守网站的robots文件规定,本文目的只是做学习交流使用,包括多个模块,例如数据存储、日志记录、错误处理、多线程或异步请求

安装必要的库

pip install requests beautifulsoup4 sqlite3

项目结构

创建以下文件和目录结构
my_crawler/
├── config.py
├── crawler.py
├── db.py
├── logger.py
└── main.py

技术细节

配置文件 config.py
配置文件用于存储常量和配置项:

BASE_URL = 'https://example.com'
ARTICLES_URL = f'{BASE_URL}/articles'
DATABASE_NAME = 'articles.db'
LOG_FILE = 'crawler.log'

1.数据库操作 db.py
用于创建数据库表和插入数据:

#db.pyimport sqlite3
from config import DATABASE_NAMEdef init_db():conn = sqlite3.connect(DATABASE_NAME)cursor = conn.cursor()cursor.execute('''CREATE TABLE IF NOT EXISTS articles (id INTEGER PRIMARY KEY AUTOINCREMENT,title TEXT NOT NULL,url TEXT NOT NULL)''')conn.commit()conn.close()def insert_article(title, url):conn = sqlite3.connect(DATABASE_NAME)cursor = conn.cursor()cursor.execute('INSERT INTO articles (title, url) VALUES (?, ?)', (title, url))conn.commit()conn.close()

2.日志记录 logger.py
用于配置日志记录:

logger.pyimport logging
from config import LOG_FILEdef setup_logger():logging.basicConfig(filename=LOG_FILE,level=logging.INFO,format='%(asctime)s - %(levelname)s - %(message)s')logger = setup_logger()

3.爬虫逻辑 crawler.py
包含爬虫的主要逻辑:

 crawler.pyimport requests
from bs4 import BeautifulSoup
from config import ARTICLES_URL
from db import insert_article
from logger import loggerdef fetch_page(url):"""获取网页内容"""try:response = requests.get(url)response.raise_for_status()  # 检查请求是否成功return response.textexcept requests.RequestException as e:logger.error(f"请求错误: {e}")return Nonedef parse_html(html):"""解析HTML,提取文章标题和URL"""soup = BeautifulSoup(html, 'html.parser')articles = []for article in soup.find_all('div', class_='article'):title = article.find('h1', class_='article-title').get_text(strip=True)url = article.find('a')['href']articles.append((title, url))return articlesdef crawl_articles():"""抓取并保存文章"""html = fetch_page(ARTICLES_URL)if html:articles = parse_html(html)for title, url in articles:insert_article(title, url)logger.info(f"已保存文章: {title} - {url}")
  1. 主程序 main.py
    启动爬虫的主程序:
 main.pyfrom crawler import crawl_articles
from db import init_db
from logger import loggerdef main():logger.info("开始爬虫任务")init_db()crawl_articles()logger.info("爬虫任务完成")if __name__ == '__main__':main()

小结

请您遵守网站的robots文件规定,本文目的只是做学习交流使用,感谢csdn平台

http://www.yayakq.cn/news/952050/

相关文章:

  • wap网站发布高淳城乡建设局网站
  • 如何查看网站收录情况手机上开发app
  • 网站转换小程序网站怎么做缓存
  • 江苏省现代化示范校建设网站给wordpress公告
  • 网站数据库怎么建立成都做网站
  • 橘色网站模板中国建设协会网站
  • 开网站卖东西需要什么条件网站建设教程平台
  • wordpress加载html广州营销seo
  • 开发者选项开启好还是关闭好优化网络推广外包
  • 我要做一个网站 需要营业范围吗网站开发交付
  • 西安网站定制新媒体营销论文选题方向
  • 浙江网站建设方案优化遵义外国网站制作
  • app开发导入网站模板沅江市建设局网站
  • 淘宝网站的推广方案哪个网站做简历免费下载
  • 门户网站建设请示seo优化技术
  • 昆明网络推广昆明网站建设昆明昆明jsp网站建设项目实战
  • 洛阳网站建站小程序源码网免费下载
  • 金坛网站建设哪家好比较大的外贸网站
  • 花垣县建设局网站极简 wordpress
  • 网站扫二维码怎么做在线图片编辑尺寸
  • 网站改成html5做网站推销产品效果怎么样
  • 写作网站名字农产品交易平台
  • qq空间可以做网站吗营销策划品牌策划
  • 平凉公司网站建设三网合一 营销型网站
  • 山东德州最大的网站建设教学淘宝店铺推广渠道有哪些
  • 如何创建一个免费的网站公司网站模板内容
  • 上海网站建设的软件刷会员网站怎么做
  • 网站主页图片设计个人网站建设怎么赚钱
  • 惠州建设工程造价管理协会网站易站通这个网站怎么做
  • 南头专业外贸网站建设公司wordpress对配置的要求