搜索引擎爬虫在不知道域名的情况下如何搜索到网站？

试试语音读文章

热门回答：

这个做不到吧？我们以在国内最主要的百度爬虫为例。你有一个新网站。你希望他来抓取你。需要先到百度站长平台提交你的网站。这就要满足一些要求。比如有域名。域名要完成备案。百度爬虫通过多种维度对你的网站进行评级。来决定抓取的频次。评级越高越会经常来抓取你的网站。所以没有域名没有完成备案应该是不满足最基本的要求的。还有。那你现在只能用ip访问网站呗。等以后有了域名。又改用域名访问导致链接变化。这样很不好会掉权重的。

其他观点：

这个问题初看答案是不可能的。不知道域名怎么爬呀。那我们先来分析下。搜索引擎是怎么爬取数据的。

首先。我们讲下正常的爬取。

一般。你的网站想要被搜索引擎录入。你就会在网站跟目录。放一个robot.txt文件。有这个文件。就相当于在饭店的一个清单。上面列出了你想要给搜索引擎录入的一些目录。你也可以说。哪些目录不能检索。搜索引擎就不会去检索这些目录了。文件格式可以看下示例

############

User-agent: Googlebot

Disallow: /

Crawl-delay: 5

Disallow: /bin/

Disallow: /tmp/

Sitemap: http://domain.com/sitemap.xml

############

上面这个表示。Google你就另来录入我了。其它引擎可以。并且不要去看我的bin和tmp目录。且检索间隔是5s

但我怎么让搜索引擎知道我的网址地址呢？早期。搜索引擎有提供一些入口。做为网址的录入。站长如果想在搜索引擎上显示自己的网站。会自己先行去录入。这样可以为自己的网站导入流量。现在基本上。搜索引擎会有专门的渠道获取已经开通域名。然后统一拨测一下。就可以获取取Robot.txt。就可以录入网址了。

你说这世界域名千千万。它不可能都爬一次吧。其实。这个校验速度还是很快的。另外。别忘了。搜索引擎每天基本都要对链接进行维护。因为。链接可能存在变更和失效的情况。

当然。还有一些是通过搜索引擎的其它技术来实现的。比如在解析一个网页时。这个网页如果有外链地址的话。爬虫会把这些URL放到URL池中。再进行深度遍历。继续爬取。

如果你的网站没有域名。只有IP。那还能被录入吗？理论上。IPV4的最大组合是2^8^4个。再刨去10,172,198等非公用IP。总共不超过40亿个。看起来很多。但对计算机来说。并不多。不过。这样检索非常的消耗资源。一般是不考虑的。

所以说。即使搜索引擎爬虫不知道域名。也是可以通过穷举法来搜索的。但其实不需要这么麻烦。通过注册局的数据。完全可以知道每天新增多少域名。减少多少域名。再进行遍历一次。查找robot.txt。就比较简单了。

当然。也还是有引擎搜索不到的。移动互联网的App时代。就创造了这种信息孤岛。他们已经不靠搜索引擎引流。所以就不在乎搜索引擎是否能搜索到他们。

其他观点：

域名服务商提供的。你都知道是爬虫了。初期就26个字母拼接域名去爬呗。通了就记录。没通就继续爬。全世界最多也就几千万个域名。对服务器爬虫来说小意思。周期性的爬爬就好。以后对已经爬到的域名检验一下就可以了！

您还感兴趣的文章推荐

以上就是由互联网推广工程师网创网整理编辑的，如果觉得有帮助欢迎收藏转发~

本文标题：搜索引擎爬虫在不知道域名的情况下如何搜索到网站？
本文地址：https://www.wangchuang8.com/92003.html，转载请说明来源于：网创推广网
声明：本站部分文章来自网络，如无特殊说明或标注，均为本站原创发布。如若本站内容侵犯了原著者的合法权益，可联系进行处理。分享目的仅供大家学习与参考,不代表本站立场。

网创网

发表评论取消回复

评论(2)

近期文章

相关推荐

发表评论 取消回复

评论(2)

发表评论取消回复