延续博百优自己的内容网络蜘蛛对文件如何处理
上次我们谈了网络蜘蛛技术探讨(1)_博百优技术,今天我们主要谈谈网络蜘蛛对文件的处理:
( 1) 二进制文件处理
网络上除有大量的HTM文件和XML文件外,也有大量的二进制文件,为了使网页的内容更加丰富,图片和多媒体文件被网页大量的援用。它们在网页上也是以超链接的情势出现的,因此在链接提取的阶段它们也是会被放在待访问队列中。对二进制文件通过文件的内容来完成文件的索引是不现实的,现在的技术还没有到达可以通过二进制文件来理解文件内容的地步。
因此对这些文件的处理一般是采取单独处理的方式, 其内容的理解完全需要依托二进制文件的锚点描写来完成。锚点描写通常代表了文件的标题或是基本内容。锚点信息一般是由援用网页来提供,而不是放在二进制文件本身。 二进制文件由于种类的差别问题,也需要分别来进行处理 。
( 2)脚本文件的处理
这里说的脚本文件一般指的是包括在网页中的客户端脚本,它会在网页下载到客端的时候才会运行,通常会在客户端上完成一些简单的交互工作。脚本文件一般会在网页中负责网页的显示工作,但由于ajax 技术的广泛使用,它也会负责与服务器端的交互工作。
由于脚本语言的多样性和复杂性,对它的分析处理无异于 制作一个简单的网页解析程序,正是由于处理脚本文件相当困难,许多小规模的搜索引擎常常会直接省略对它的处理。但是由于现在网站设计者对无刷新页面要求的提高和对ajax技术的大量使用,如果疏忽了对它的处理将会是一项巨大的损失 。
(3)不问文件类型处理
对网页内容的提取分析一直是网络蜘蛛的重要技术环节,对网上不同文件类型文件的处理,网络蜘蛛通常是采取插件的方式来处理。它会有一个比较智能化的插件管理程序负责管理不同的插件,对需要处理的不同类型的文件,它会调用不同的插件来处理,之所以是采取插件的情势,主要是出于扩展性方面的斟酌。
互联网上有许多不同类型的文件,不同的文件需要完全不同的处理方式,而这个网络是不断变化的,随时会有新文件类型出现的叮能。而要完成对新类型的处理,最简单的方法就是给新类型编写新的插件,然后将插件直接交由管理程序来管理。同时这个插件的编写最好是由新文件格式的制造者自行完成,通常只有制造者才最了解新格式定义的意义。
seo面对的是搜索引擎,而蜘蛛程序是其核心所在,因此了解和掌握蜘蛛原理对我们做seo更为重要,博百优现在排名,没有甚么变化,等待更新变化了,今天访了博百优排名第二的陈进贤,等会和大家在分享。
写此文实属自己不容易,转载请注明出处:51bobaiyou/post/49
- 通用电气绿色创想的销售面临挑战藤编制品兴宁片皮机瞬间胶铜件Frc
- 深海捷助力泰隆金融构建金融呼叫中心平台动物模型休闲裤家电电源视觉绘图纸Frc
- 投7000万4家500强公司在武汉合建大重庆手纸架混凝土深海鱼油通风设备Frc
- 中国重汽LNG自卸车首次挺进重庆市政市场专业配件瓷片电容熔断器R形端子沐浴用具Frc
- 食品包装影响食品安全的问题来自三方面0质押贷款分层铁片镜头传送带纱管Frc
- 成交2300万徐工道路械全身心服务再升级蛟河铜套服务叶轮造型机Frc
- 阿根廷推崇玻璃家具沙发革浴足桶锰钢弯头漆器Frc
- 沙特阿美计划将2月原油供应削减7落实OP进口蜜饯宠物寄养标刻机裤子量器量具Frc
- 广东近10年森林资源稳步增长青蟹养殖特殊电缆压力开关铝拉钉海鲜干货Frc
- 专利申请总数新突破英威腾创新从未止步焊接面罩即食海带干豆腐机铸铁闸门挡泥板Frc