为什么今日头条发布的许多文章在知名浏览器上搜不到？

试试语音读文章

热门回答：

弄清楚这个问题。需要先了解下其背后的原理。首先更正下这个问题。搜索结果与浏览器无关。而是浏览器上使用的搜索引擎相关的。什么是浏览器？

浏览器是一个展示网页内容的应用。比如像QQ浏览器。谷歌浏览器。360浏览器。火狐浏览器等供我们浏览网页的软件应用；

什么是搜索引擎？

搜索引擎是供用户搜索内容的软件服务。比如像百度。谷歌。360。bing,搜索等等。

搜索引擎的原理？

可以举个例子来理解。比如字典工具。我们只需要知道一个词的拼音。或者笔画就可以快速的找到这个词的详细内容所在的页面。

搜索引擎也是类似的。首先收集网络上大量的内容。然后对这些内容进行处理。建立相应的类似于字典的索引。用户在输入内容搜索时。就可以快速的返回相关内容的地址。

为什么搜不到那？

上面已经说明了搜索引擎的原理。把网络上所有的内容都建立索引。按理是应该可以搜索到的才对呀。但是却搜不到。为什么那？

搜索引擎在爬取内容时。需要遵循一个叫做robots的协议。

robots协议也叫robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件。它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛）。此网站中的哪些内容是不应被搜索引擎的漫游器获取的。哪些是可以获取的。

头条文章的robots协议地址：https://www.toutiao.com/robots.txt。内容如下

User-agent: *

Disallow: /

Allow: /complain/

Allow: /media_partners/

Allow: /about/

Allow: /user_agreement/

Allow: /$

User-agent: ByteSpider

Allow: /

User-agent: ToutiaoSpider

Allow: /

表示的时只让头条的网络蜘蛛爬取。而禁止其他搜索引擎爬取。因此这些文章在头条可以搜索到。而其他搜索引擎不可以搜索到。

头条问答的robots协议地址：https://wukong.toutiao.com/robots.txt。内容如下。

User-agent: *

Disallow: /static/game*

表示除了一些静态内容。都可以爬取。因此所有搜索引擎都是可以爬取的。然后可以被搜索的。

其他观点：

要理解这个问题。首先得知道原理是什么。

在浏览器上搜到的文章。其实是搜素引擎在众多的网站上“爬”来的。搜索引擎有一种扫描网页的技术。俗称“爬虫”。它会去网站去抓取页面的内容。然后储存到服务器里收录。当有人搜索相关内容的时候。服务器就把这些内容呈现出来。

既然原理是这样。为什么在浏览器搜不到呢？其实。网络是开放的。也是不开放的。开放在于可以找到各种信息。不开放在于不同公司的内容收录是有限制的。比如。百度不收录头条的内容。头条也不收录百度的内容。所以。你在浏览器用百度搜索搜内容。当然不会有头条的文章。就算有同样的。来源也不是头条。而是作者发布在其他平台的。

其他观点：

这个其实很好理解。也算是行业垄断现象吧。众所周知物联网行业都是分帮立派的。就那几个。懂得都懂。不是一个派系的。自然会有所区别对待。浏览器只是工具。要看提供工具（也就是搜索引擎）的背后大佬是什么派系。很显然头条是跟国内某知名搜索引擎不是一个派系的。彼此之间搜索内容竞争。是在所难免的。其实互联网起初就是开放的。只是为了竞争。各派系进行了屏蔽隔离罢了。感谢邀请。谢谢！

您还感兴趣的文章推荐

以上就是由互联网推广工程师网创网整理编辑的，如果觉得有帮助欢迎收藏转发~

本文标题：为什么今日头条发布的许多文章在知名浏览器上搜不到？
本文地址：https://www.wangchuang8.com/176525.html，转载请说明来源于：网创推广网
声明：本站部分文章来自网络，如无特殊说明或标注，均为本站原创发布。如若本站内容侵犯了原著者的合法权益，可联系进行处理。分享目的仅供大家学习与参考,不代表本站立场。

网创网

发表评论取消回复

评论(2)

近期文章

相关推荐

发表评论 取消回复

评论(2)

发表评论取消回复