• 虛擬主機被搜索引擎爬蟲訪問耗費大量流量解決方法

    日期:2016/8/3 / 人氣:

    問題場景:客戶使用虛擬主機,網站被搜索引擎爬蟲訪問耗費大量流量和帶寬,如何處理

    解決方法:可以通過在站點根目錄下創建Robots.txt,Robots.txt文件是網站的一個文件,搜索引擎蜘蛛抓取網站首先就是抓取這個文件,根據里面的內容來決定對網站文件訪問的范圍。它能夠保護我們的一些文件不暴露在搜索引擎之下,從而有效的控制蜘蛛的爬取路徑。

    1、首先,先了解一下目前搜索引擎和其對應的User-Agent,如下:

    搜索引擎         User-Agent
    AltaVista        Scooter
    baidu            Baiduspider
    Infoseek         Infoseek
    Hotbot           Slurp
    AOL Search       Slurp
    Excite           ArchitextSpider
    Google           Googlebot
    Goto             Slurp
    Lycos            Lycos
    MSN              Slurp
    Netscape         Googlebot
    NorthernLight    Gulliver
    WebCrawler       ArchitextSpider
    Iwon             Slurp
    Fast             Fast
    DirectHit        Grabber
    Yahoo Web Pages  Googlebot
    LooksmartWebPages Slurp
    2、Robots.txt樣例代碼:

    例1. 禁止所有搜索引擎訪問網站的任何部分
    User-agent: *
    Disallow: /
    例2. 允許所有的搜索引擎訪問網站的任何部分
    User-agent: *
    Disallow:
    例3. 僅禁止Baiduspider訪問您的網站
    User-agent: Baiduspider
    Disallow: /
    例4. 僅允許Baiduspider訪問您的網站
    User-agent: Baiduspider
    Disallow:
    例5. 禁止spider訪問特定目錄
    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /tmp/
    Disallow: /data/
    注意事項:1)三個目錄要分別寫。
    2)請注意最后要帶斜杠。
    3)帶斜杠與不帶斜杠的區別。
    例6. 允許訪問特定目錄中的部分url
    實現a目錄下只有b.htm允許訪問
    User-agent: *
    Allow: /a/b.htm
    Disallow: /a/

     

    作者:朋友圈科技


    Go To Top 回頂部
    曾女士铁板神数彩图 东乡族自治县| 绥德县| 阳城县| 抚宁县| 师宗县| 武陟县| 静海县| 遵义县| 颍上县| 云阳县| 莎车县| 宿松县| 泗水县| 昌图县| 辉县市| 水富县| 承德县| 盐源县| 吴堡县| 故城县| 于都县| 双柏县| 湖北省| 集安市| 额敏县| 阳泉市| 温宿县| 彭阳县| 鄱阳县| 慈溪市| 新乐市| 太仓市| 长寿区| 永济市| 万盛区| 五家渠市| 承德县| 汕尾市| 长顺县| 东平县| 仪陇县| http://www.able17m.site http://wap.sinagv4.pw http://cp.p31mmg.top http://v.sina194s.pw http://game.luy1v0.top http://china.sinajf7t.pw