收藏家:我们的网站管理员对此很熟悉。我们称之为蜘蛛或爬虫。他的工作是访问页面,抓取页面,并下载页面;
原始数据库:访问网页的数据库是原始数据库。存进去就是为下一步工作提供百度快照。我们将发现与MD5值相同的URL不重复。有些网址有,但标题没有。它只能通过URL组件找到,因为它没有通过索引数据库建立索引。原始数据库的主要功能是存储和读取速度,以及访问空间,通过压缩,为以后提供服务。Web数据库调度器将蜘蛛返回到Web页面,经过简单的分析,即提取URL,简单的将图像过滤到数据中,然后在自己的数据中,没有索引;
页面分析模板:这是一个非常重要的部分。搜索引擎优化垃圾邮件页面,图像页面过滤,页面权重计算都集中在这一部分。它被称为网页权重算法,数百个以上;
索引器:将有价值的网页存储到索引数据库中,其目的是加快查询速度。将有价值的网页转换为另一种形式,并将网页转换为关键字。它被称为正行索引(positive row index),这是为了方便页面的数量和关键字的数量。对于数百万页或数百万字来说更方便。
反向索引将关键字转换为网页,并将所有排名条件存储在其中。它形成了一个高效的存储结构,将许多排名因素作为一个条目存储在其中,并存储一个单词出现的页数。建议指标的原因:为了方便和效率。一个单词出现多少页?一个列匹配的过程,也就是把一个单词变成一个网页,叫做反向索引。搜索结果简单的是在倒排的数据库中获取数据,很多排名因素作为一个项目,存储在其中);
索引数据库:将来用于排名的数据。关键字数量、关键字位置、页面大小、关键字功能标记、指向此页面(内链、外链、锚文本)和用户体验数据都在此页面中访问并提供给搜索者。百度之所以这么快,是因为百度直接在索引数据库中提供数据,而不是直接访问WWW;
Searcher:对用户查询的单词进行分段和排序,并通过行业界面将结果返回给用户。负责分词、分词、查询,根据排名因素进行数据排序;
用户界面:将查询记录、IP地址、时间、点击URL和URL位置以及一次点击和下一次点击之间的间隔存储到用户行为日志数据库中。百度就是那个盒子,一个用户界面;用户行为日志数据库:搜索引擎的焦点,搜索引擎优化工具和排名软件都是由此衍生出来的。用户使用搜索引擎的过程和行为;
日志分析器:通过对用户行为日志数据库的连续分析,将这些行为记录存储在索引器中,影响排名。这就是我们所说的恶意点击,或一夜之间排名。(如果找不到密钥,则直接搜索域名,并记录在用户行为数据库中);叙词表:在网页分析模块中,日志分析器会发现的单词存储在叙词表中,并通过叙词表进行分段。网页分析模块基于主题词表。