当前位置 博文首页 > 测试、预发布后用python检测网页是否有日常链接

    测试、预发布后用python检测网页是否有日常链接

    作者:admin 时间:2021-07-09 18:47

    在大的互联网公司干技术的基本都会碰到测试、预发布、线上这种多套环境的,来实现测试和线上正式环境的隔离,这种情况下,就难免会碰到秀逗了把测试的链接发布到线上的情况,一般这种都是通过一些测试的检查工具来检查链接来规避风险的。前两天跟了一个问题也是这个情况,开发疏忽把日常url发布到线上了。但是测试那边没有自动化的监控工具,导致没有及时发现,由于最近正好在看python,后来处理完回家就想用python做个简单的监控。

    大略思路是:用python写一个脚本来分析网页里的所有url,看是否包含日常的链接,然后把脚本放到crontab里跑定时任务,10分钟跑一次检查。如果发现非法链接,就发告警邮件给相关人员。脚本代码100行左右,比较好理解,贴上代码。

    本来想用beautifulsoup,不过考虑到安装三方库麻烦,所以还是用自带的sgmllib来,不需要关心库。发邮件函数没有实现,根据各自的smtp服务器实现以下即可。
    复制代码 代码如下:

    #!/usr/bin/env python
    #coding:UTF-8

    import urllib2
    from sgmllib import SGMLParser
    import smtplib
    import time
    #from email.mime.text import MIMEText
    #from bs4 import BeautifulSoup
    #import re

    class UrlParser(SGMLParser):
    urls = []
    def do_a(self,attrs):
    '''''parse tag a'''
    for name,value in attrs:
    if name=='href':
    self.urls.append(value)
    else:
    continue

    def do_link(self,attrs):
    '''''parse tag link'''
    for name,value in attrs:
    if name=='href':
    self.urls.append(value);
    else:
    continue

    def checkUrl(checkurl, isDetail):
    '''''检查checkurl对应的网页源码是否有非法url'''
    parser = UrlParser()
    page = urllib2.urlopen(checkurl)
    content = page.read()
    #content = unicode(content, "gb2312").encode("utf8")
    parser.feed(content)
    urls = parser.urls

    dailyUrls = []
    detailUrl = ""
    for url in urls:
    if 'daily' in url:
    dailyUrls.append(url);
    if not detailUrl and not isDetail and 'www.bc5u.com' in url:
    detailUrl = url

    page.close()
    parser.close()

    if isDetail:
    return dailyUrls
    else:
    return dailyUrls,detailUrl

    def sendMail():
    '''''发送提醒邮件'''
    pass

    def log(content):
    '''''记录执行日志'''
    logFile = 'checkdailyurl.log'
    f = open(logFile,'a')
    f.write(str(time.strftime("%Y-%m-%d %X",time.localtime()))+content+'\n')
    f.flush()
    f.close()

    def main():
    '''''入口方法'''
    #检查ju
    url = "www.bc5u.com"

    dailyUrls,detailUrl=checkUrl(url, False)
    if dailyUrls:
    #检查到daily链接,发送告警邮件
    sendMail()
    log('check: find daily url')
    else:
    #没检查到daily链接,不处理
    log('check: not find daily url')

    #检查judetail
    dailyUrls=checkUrl(detailUrl, True)
    if dailyUrls:
    #检查到daily链接,发送告警邮件
    log('check: find daily url')
    sendMail()
    else:
    #没检查到daily链接,不处理
    log('check: not find daily url')

    if __name__ == '__main__':
    main()
    jsjbwy
    下一篇:没有了