- 注册时间
- 2011-5-28
- 最后登录
- 2024-10-20
- 阅读权限
- 200
- 积分
- 9889
- 精华
- 20
- 帖子
- 2240
|
搜索引擎经过几年的发展和摸索,越来越贴近人们的需求,搜索引擎的技术也得到了很大的发展。搜 索引擎的最新技术发展包括以下几个方面:
提高搜索引擎对用户检索提问的理解
为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言,为了克服关键词检索和目录查询的缺点,现在已经出现了自然语言智能答询。用户可以输入简单的疑问句,比如“how can kill virus of computer?”。搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。就以上面的例子来讲,如果用关键词查询,多半人会用“virus”这个词来检索,结果中必然会包括各类病毒的介绍、病毒是怎样产生的等等许多无效信息,而用“how can kill virus of computer?”,搜索引擎会将怎样杀病毒的信息提供给用户,提高了检索效率。
对检索结果进行处理
1、基于链接评价的搜索引擎
基于链接评价的搜索引擎的优秀代表是Google,它独创的“链接评价体系”是基于这样一种认识,一个网页的重要性取决于它被其它网页链接的数量,特别是一些已经被认定是“重要”的网页的链接数量。这种评价体制与《科技引文索引》的思路非常相似,但是由于互联网是在一个商业化的环境中发展起来的,一个网站的被链接数量还与它的商业推广有着密切的联系,因此这种评价体制在某种程度上缺乏客观性。
2、基于访问大众性的搜索引擎
基于访问大众性的搜索引擎的代表是direct hit,它的基本理念是多数人选择访问的网站就是最重要的网站。根据以前成千上万的网络用户在检索结果中实际所挑选并访问的网站和他们在这些网站上花费的时间来统计确定有关网站的重要性排名,并以此来确定哪些网站最符合用户的检索要求。因此具有典型的趋众性特点。这种评价体制与基于链接评价的搜索引擎有着同样的缺点。
3、去掉检索结果中附加的多余信息
有调查指出,过多的附加信息加重了用户的信息负担,为了去掉这些过多的附加信息,可以采用用户定制、内容过滤等检索技术。
确定搜索引擎信息搜集范围
1、垂直主题搜索引擎
网上的信息浩如烟海,网络资源以十倍速的增长,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将各主题都做得精确而又专业,使得检索结果垃圾太多。这样以来,垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一系席之地,比如象股票、天气、新闻等类的搜索引擎,具有很高的针对性,用户对查询结果的满意度较高。作者认为,垂直主题有着极大的发展空间。
2、非www信息的搜索
提供FTP等类信息的检索
3、多媒体搜索引擎
多媒体检索主要包括声音、图像、视频的检索。关于图片搜索引擎的原理,《浅谈图片搜索引擎的实现》中提出了具有跨时代意义设计思路。
提供更优化的检索结果
1、纯净搜索引擎
这类搜索引擎没有自己的信息采集系统,利用别人现有的索引数据库,主要关注检索的理念、技术和机制等。
2、元搜索引擎
现在出现了许多的搜索引擎,其收集信息的范围、搜索机制、算法等都不同,用户不得不去学习多个搜索引擎的用法。每个搜索引擎平均只能涉及到整个www资源的30-50%(search engine watch数据),这样导致同一个搜索请求在不同搜索引擎中获得的查询结果的重复率不足34%,而每一个搜索引擎的查准率不到45%。
元搜索引擎(metasearch engining)是将用户提交的检索请求到多个独立的搜索引擎上去搜索,并将检索结果集中统一处理,以统一的格式提供给用户,因此有搜索引擎之上的搜索引擎之称。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性搜索功能的设置和用户检索界面的友好性上,查全率和查准率都比较高。目前比较成功的元搜索引擎有metacrawler、dopile、ixquick、搜客等。
3、集成搜索引擎
集成搜索引擎( All-in-One Search Page),亦称为“多引擎同步检索系统 ”(如百度)是在一个WWW页面上链接若干种独立的搜索引擎,检索时需点选或指定搜索引擎,一次检索输入,多引擎同时搜索,用起来相当方便。
集成搜索引擎无自建数据库,不需研发支持技术,当然也不能控制和优化检索结果。但集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业(如FLASH、MP3等)搜索引擎集成链接,深受特定用户群欢迎。
4、垂直搜索引擎
垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。 搜索引擎的主题分类 网页 音乐(翻唱 MP3)影视(电影电视) 视频 播客软件 BT下载 硬件 图片 壁纸 相册 小说 文学 文档(论文 述职报告 思想汇报 演讲稿 ** 作文 个人简历 毕业论文 法律论文经济论文 教育论文会计论文 计算机论文 毕业论文集 情书 调查报告 求职信 商业计划书 实习报告 就职演说 自荐信 企划方案 企业管理年终总结) 新闻(资讯) 百科(知识 经验) 教育 人物 学校 专业 论坛社区 博客 词典 翻译 地图 动漫 Flash 游戏 娱乐 笑话 汽车 家电手机 广告 购物 商业 黄页房产 招聘 财经 股票 基金法律 国学 图书政府 目录 学术 代码 公交 实用查询等几十个分类。 搜索引擎的最后一步 10年前我们要查阅资料,请教问题,更多想到的是请教专家,图书管查阅等传统方式。常常为了一个简单的问题而到处寻师,在图书馆翻着类似我的电脑桌抽屉里的检索卡片,苦苦寻找。曾几何时,互联网的普及与兴起,搜索引擎的出现,逐渐改变着我们的生活习惯和思维方式。很多问题“baidu一下,你就知道。” 就像这里用的“曾几何时”这一词,中文不好的我只有模糊的理解,还以为有“曾经”的意思,想用为第一句。于是百度知道搜索了一下,出自宋"王安石《祭盛侍郎文》:“补官扬州,公得谢归。曾几何时,讣者来门。” 才知是才过了不久的意思。
搜索引擎(search engine)是一个系统,能从大量信息中找到所需的信息,提供给用户。互联网出现到现今,信息量可以说成密指数的增长,大量信息就像Google的原本含义一样“1的后面跟着100个0”,这个数比宇宙所有的基本粒子的数量总和还要大。在这浩如烟海的信息中怎么才能找到自己需要的信息呢?搜索引擎就像一只神奇的手,从杂乱的信息中抽出一条清晰的检索路径。
事物的发展往往遵循着合久必分,分久必合的规律,每一次的合与分都是代表着更高级更先进。同样搜索引擎从最初的Archie可以用文件名查找整个互联网中FTP文件的系统,发展到Yahoo早期一种手工录入的分行业的目录检索。随着搜索技术的发展,元标记搜索、全文搜索重新又把整个互连网的信息整合起来提供给用户,目前的Baidu、Google提供的就是一种整个互联网的全文搜索,这种整合信息的搜索也称为水平搜索。这种水平全文搜索固然可以把网络中的所有相关信息提供给用,但这种“所有”不代表着是用户所需的“所有”,往往夹杂着许多垃圾信息。问题出现就伴随着去解决,如果平常使用搜索引擎比较全面,你会发现Baidu、Goolge都有了“更多”的选项,其中出现了大学搜索、新闻搜索、图书搜索、图片搜索等等这些专业化,行业化的搜索,也称为垂直搜索。当前垂直搜索正在逐渐走向丰富化、专业化、行业化,将越来越满足人们的搜索需求。比如很多人在搜索问题时会到百度知道里搜索,因为那里更有针对性;搜索天气会到天气搜索中等等。
那么搜索引擎的下一步发展是什么呢?让我们回想一下搜索引擎的定义:一个系统,能从大量信息中找到所需的信息,提供给用户。根据技术的不断发展和事物规律畅想一下,垂直搜索发展到一定程度会出现信息的单一专业化太强,整体信息综合化不好,而人们需要的不但要有专业信息,同样也要有整体联想信息。随着人工智能、神经网络、网格计算等搜索技术的发展,我们又将有一个能整合互联网信息,智能的提供用户确实所“需”的信息,而不简单只是所“要”的信息,因为很多时候搜索时,自己都不知道要什么。
再回的现在的搜索引擎,它就像一只神奇的手,从杂乱的信息中抽出一条清晰的检索路径。这个引擎提供给用户的最后一步是什么?是一条清晰的检索路径。好的,注意这是一条检索路径,在这条路径的上的检索和信息提取是什么呢,是我们的阅读和大脑的判断。也就是做搜索引擎的最后一步是我们的大脑。得到的这条路径清晰但也并不简短,需要我们进行快速的浏览,呵呵,绕来绕去,得出一个结论,快速阅读也是搜索引擎中的一部分。
随着搜索市场竞争的白热化,搜索引擎不仅开始深挖自己的战壕,还开始打起了口水战,而山寨搜索引擎在高举着“整合”的大旗,开始大摇大摆地进入这个本来只有巨头垄断的市场。国人充分发挥着其无比的想象力,准备让国内的互联网“步入搜索新时代”。
下面就让我们看看什么是山寨搜索引擎
“百google度”- baigoogledu
最早的山寨搜索引擎,曾经名噪一时。最早确定了山寨搜索引擎的模式,而且访问量很高,但功能简单,而且让用户需要不停的两边拖拉才能看到完整的结果。
“百谷虎”- baigoohoo
由于某家新闻媒体的报道,最近声名大振,高举着“山寨”大旗,让国人开始了解什么是山寨搜索引擎,名字极富创意。可惜由于搜索结果被并排挤在一起,似乎没有什么实际使用价值。
“山寨文化”在每个人的心目中可能都有着不同的感觉,但随着这股风越刮越烈,可见草根对“山寨”的内涵还是有相当的认同,百度和谷歌的嘴仗打的不亦热乎,都指责对方结果不公正,山寨搜索却硬要把这两个冤家放在一起。也许很多人对“山寨搜索”嗤之以鼻,但是对于普通网民来说,是谁的搜索并不重要,是我们需要的结果才是最重要的么。如果是你,你会选择谁呢?
搜索引擎优化(Search Engine Optimization,简称SEO) 搜索引擎优化即Search Engine Optimization,用英文描述是to use some technics to make your website in the top places in Search Engine when somebody is using Search Engine to find something,翻译成中文就是“搜索引擎优化”,一般可简称为搜索优化。与之相关的搜索知识还有Search Engine Marketing(搜索引擎营销),Search Engine Positioning(搜索引擎定位)、Search Engine Ranking(搜索引擎排名)等。
编辑本段未来展望 随着互联网的发展,网上可以搜寻的网页变得愈来愈多,而网页内容的质素亦变得良莠不齐,没有保证。所以,未来的搜索引擎将会朝着知识型搜索引擎的方向发展,期以为搜寻者提供更准确及适用的资料。目前,网上的百科全书如雨后春笋般发展起来;另一方面,近年来亦有不少公司尝试在搜寻方面改进,务求更符合用户的要求。当中诸如Copernic Agent之类的搜寻代理就是其中之一。
在台湾,威知资讯(WebGenie)是利用文字探勘(Text Mining)技术发展搜寻引擎产品的公司,利用人工智能算法,可达成目前搜寻引擎所缺乏的简易人机互动模式,诸如关联字提示、动态分类字提示等[1],算是较另类的搜寻引擎产品。 搜索关键词提炼 选择搜索关键词的原则是,首先确定你所要达到的目标,在脑子里要形成一个比较清晰概念,即我要找的到底是什么?是资料性的文档?还是某种产品或服务?然后再分析这些信息都有些什么共性,以及区别于其他同类信息的特性,最后从这些方向性的概念中提炼出此类信息最具代表性的关键词。如果这一步做好了,往往就能迅速的定位你要找的东西,而且多数时候你根本不需要用到其他更复杂的搜索技巧。 细化搜索条件 你给出的搜索条件越具体,搜索引擎返回的结果也会越精确。
比方说你想查找有关电脑冒险游戏方面的资料,输入game是无济于事的。computer game范围就小一些,当然最好是敲入computer adventure game,返回的结果会精确得多。
此外一些功能词汇和太常用的名词,如对英文中的“and”、“how”、“what”、“web”、“homepage”和中文中的“的”、“地”、“和”等等搜索引擎是不支持的。这些词被称为停用词(Stop Words)或过滤词(Filter Words),在搜索时这些词都将被搜索引擎忽略。 用好搜索逻辑命令 搜索引擎基本上都支持附加逻辑命令查询,常用的是“+”号和“-”号,或与之相对应的布尔(Boolean)逻辑命令AND、OR和NOT。用好这些命令符号可以大幅提高我们的搜索精度。 精确匹配搜索 除利用前面提到的逻辑命令来缩小查询范围外,还可使用""引号(注意为英文字符。虽然现在一些搜索引擎已支持中文标点符号,但顾及到其他引擎,最好养成使用英文字符的习惯)来进行精确匹配查询(也称短语搜索)。 特殊搜索命令 ●标题搜索
多数搜索引擎都支持针对网页标题的搜索,命令是“title:”,在进行标题搜索时,前面提到的逻辑符号和精确匹配原则同样适用。
●网站搜索
此外我们还可以针对网站进行搜索,命令是“site:”(Google)、“host:”(AltaVista)、“url:”(Infoseek)或“domain:”(HotBot)。
●链接搜索
在Google和AltaVista中,用户均可通过“link:”命令来查找某网站的外部导入链接(inbound links)。其他一些引擎也有同样的功能,只不过命令格式稍有区别。你可以用这个命令来查看是谁以及有多少网站与你做了链接。
|
|