搜索引擎的程序十分强大,通过语义技术、分词技术理解网站内容想要表达的意义,但是对于搜索引擎来说,还是有很多地方是无能为力的,比如图片、Flash等,如果在网站建设过程中,大量运用了这些技术,搜索引擎就很难理解网站的主题,对网站的优化将变的非常困难。
第一种、图片,虽然搜索引擎能检洌到你在显示一张图片,但是就像前面讨论的,它不知道这张图片显示的到底是什么,除非你用alt属性提供信息。不过,搜索引擎可以识别像素颜色,很多时候可以根据JPEG图片中肉色的多少确定图片是否含有色情内容。
所以搜索引擎无法分辨一张图片中描述的是辛普森还是一条船,是一幢房子还是龙卷风。另外,搜索引擎也无法辨认图片中的文字。目前,搜索引擎在尝试使用光学字符识别技术(OCR)从图片中提取文字,但是这项技术还没有在搜索中广泛使用。
第二种、Flash,常规SEO观念一直认为,搜索引擎不能读取Flash文件,这个有点过时了。正如Google所公布的,搜索引擎正开始从Flash中提取信息。当然,搜索引擎要确认Flash里有什么并非易事。
最大的一个问题是,就算搜索引擎查看Flash文件内部,它们还是在寻找文字性内容,但Flash是以图像为主的媒介,对一个设计师来说,在Flash里放文字并没有什么好处(除了对搜索引擎有点好处).
就算HTML和Flash一起使用,在HTML文件中能够出现的语义提示(诸如H标签,黑体文字等)也都不见了。所以,第二种搜索引擎看不到的内容是Flash包含的任何图像性质的东西,Flash中的这类内容与图片完全一样。例如当文字被转化为向量轮廓线时,搜索引擎能诶取的文字性信息就丢失了。
第三种、音频和视频,音频和视频文件也不容易被搜索引擎读取。和图片一样,这种数据难以解析。
有几种例外情况搜索引擎能提取一些很有限的数据,比如MP3文件中的AD3标签,使用AAC格式内嵌文字性说明的图片和章节标记的增强型播客。不过归根结底,某视频文件是关于足球比赛还是关于森林大火,搜索引擎是分辨不出来的。
搜索引擎也不能读取程序里面的内容。搜索引擎寻找的是人能够在页面源代码中看到的文字。你能在浏览器显示的页面上看到的内容,搜索引擎不一定能看到——只有页面源代码中可见可读的信息搜索引擎才能看到。
第四种、Ajax,一个明显的,人能看到但搜索引擎不能看到的内容是AJAX。AJAX是一种基于Java Script的方法,从数据库获取数据后,直接在页面动态显示内容,而不需要刷新整个页面。
这种技术经常见于线上工具,用户输入一些信息,AJAX工具获取并显示正确的内容。在用户输入信息后运行于客户端计算机(用户计算机)的脚本才能获得的内容,这种情况可以导致很多不同的输出。
另外,在用户输入信息之前,内容在页面HTML代码中并不存在,所以搜索引擎也看不到。一些其他形式的&#106avascript脚本也有相似问题,在用户采取某种行动之前,HTML中并没有相关内容。
在HTML 5标准中,一种称为嵌入标签(<embed》的结构允许在页面中放入插件。插件是安装在用户计算机中的软件,不是安装在网站的服务器上。这个标签经常用来在页面上放入视频或音频文件。
<embed>标签告诉插件应该在哪里寻找要用的数据文件。插件中包含的内容,搜索引擎完全看不见。
第五种、框架结构,frame(框架结构)和iframe是从其他网页调用内容的方法, iframe比frame更常用于从其他网站调用内容。frame通常用于分割网站内容,但也可以用于从其他网站调入内容。
不过搜索引擎能辨别从另一个网站调用内容的frame或iframe,因此会忽略iframe或frame里面而实际在另外一个网站的内容。换句话说,搜索引擎不会把你从另一个网站搬过来的内容当做你的页面的独特内容。
那些我们能看到但搜索引擎却看不到的网站内容