热门回答:
这个做不到吧?我们以在国内最主要的百度爬虫为例。你有一个新网站。你希望他来抓取你。需要先到百度站长平台提交你的网站。这就要满足一些要求。比如有域名。域名要完成备案。百度爬虫通过多种维度对你的网站进行评级。来决定抓取的频次。评级越高越会经常来抓取你的网站。所以没有域名没有完成备案应该是不满足最基本的要求的。还有。那你现在只能用ip访问网站呗。等以后有了域名。又改用域名访问导致链接变化。这样很不好会掉权重的。
其他观点:
这个问题初看答案是不可能的。不知道域名怎么爬呀。那我们先来分析下。搜索引擎是怎么爬取数据的。
首先。我们讲下正常的爬取。
一般。你的网站想要被搜索引擎录入。你就会在网站跟目录。放一个robot.txt文件。有这个文件。就相当于在饭店的一个清单。上面列出了你想要给搜索引擎录入的一些目录。你也可以说。哪些目录不能检索。搜索引擎就不会去检索这些目录了。文件格式可以看下示例
############
User-agent: Googlebot
Disallow: /
Crawl-delay: 5
Disallow: /bin/
Disallow: /tmp/
Sitemap: http://domain.com/sitemap.xml
############
上面这个表示。Google你就另来录入我了。其它引擎可以。并且不要去看我的bin和tmp目录。且检索间隔是5s
但我怎么让搜索引擎知道我的网址地址呢?早期。搜索引擎有提供一些入口。做为网址的录入。站长如果想在搜索引擎上显示自己的网站。会自己先行去录入。这样可以为自己的网站导入流量。现在基本上。搜索引擎会有专门的渠道获取已经开通域名。然后统一拨测一下。就可以获取取Robot.txt。就可以录入网址了。
你说这世界域名千千万。它不可能都爬一次吧。其实。这个校验速度还是很快的。另外。别忘了。搜索引擎每天基本都要对链接进行维护。因为。链接可能存在变更和失效的情况。
当然。还有一些是通过搜索引擎的其它技术来实现的。比如在解析一个网页时。这个网页如果有外链地址的话。爬虫会把这些URL放到URL池中。再进行深度遍历。继续爬取。
如果你的网站没有域名。只有IP。那还能被录入吗?理论上。IPV4的最大组合是2^8^4个。再刨去10,172,198等非公用IP。总共不超过40亿个。看起来很多。但对计算机来说。并不多。不过。这样检索非常的消耗资源。一般是不考虑的。
所以说。即使搜索引擎爬虫不知道域名。也是可以通过穷举法来搜索的。但其实不需要这么麻烦。通过注册局的数据。完全可以知道每天新增多少域名。减少多少域名。再进行遍历一次。查找robot.txt。就比较简单了。
当然。也还是有引擎搜索不到的。移动互联网的App时代。就创造了这种信息孤岛。他们已经不靠搜索引擎引流。所以就不在乎搜索引擎是否能搜索到他们。
其他观点:
域名服务商提供的。你都知道是爬虫了。初期就26个字母拼接域名去爬呗。通了就记录。没通就继续爬。全世界最多也就几千万个域名。对服务器爬虫来说小意思。周期性的爬爬就好。以后对已经爬到的域名检验一下就可以了!
您还感兴趣的文章推荐- 想开个店,开什么好呢?资金不多,刚刚创业。谢谢?
- 有什么行业适用于初创业?
- 刚入社会的人想开店,最好开一家什么店?
- 我是一个创业小白,想要开一家店铺,大家有什么好的推荐吗?
- 刚创业,投资新项目有什么选择?
以上就是由互联网推广工程师 网创网 整理编辑的,如果觉得有帮助欢迎收藏转发~
本文地址:https://www.wangchuang8.com/92003.html,转载请说明来源于:网创推广网
声明:本站部分文章来自网络,如无特殊说明或标注,均为本站原创发布。如若本站内容侵犯了原著者的合法权益,可联系进行处理。分享目的仅供大家学习与参考,不代表本站立场。
评论(2)
域名,搜索引擎,爬虫,网站,目录,自己的,就可以,你就,就不,遍历
没想到大家都对搜索引擎爬虫在不知道域名的情况下如何搜索到网站?感兴趣,不过这这篇解答确实也是太好了
这个做不到吧?我们以在国内最主要的百度爬虫为例。你有一个新网站。你希望他来抓取你。需要先到百度站长平台提交你的网站。这就