热烈祝贺台州朗动科技的站长论坛隆重上线!(2012-05-28)    热烈庆祝伟大的祖国60周年生日 点击进来我们一起为她祝福吧(2009-09-26)    站长论坛禁止发布广告,一经发现立即删除。谢谢各位合作!.(2009-08-08)    热烈祝贺台州网址导航全面升级,全新版本上线!希望各位一如既往地支持台州网址导航的发展.(2009-03-28)    台州站长论坛恭祝各位新年快乐,牛年行大运!(2009-01-24)    台州Link正式更名为台州网址导航,专业做以台州网址为主的网址导航!(2008-05-23)    热烈祝贺台州Link资讯改名为中国站长资讯!希望在以后日子里得到大家的大力支持和帮助!(2008-04-10)    热烈祝贺台州Link论坛改名为台州站长论坛!希望大家继续支持和鼓励!(2008-04-10)    台州站长论坛原[社会琐碎]版块更名为[生活百科]版块!(2007-09-05)    特此通知:新台州站长论坛的数据信息全部升级成功!">特此通知:新台州站长论坛的数据信息全部升级成功!(2007-09-01)    台州站长论坛对未通过验证的会员进行合理的清除,请您谅解(2007-08-30)    台州网址导航|上网导航诚邀世界各地的网站友情链接和友谊联盟,共同引领网站导航、前进!(2007-08-30)    禁止发广告之类的帖,已发现立即删除!(2007-08-30)    希望各位上传与下载有用资源和最新信息(2007-08-30)    热烈祝贺台州站长论坛全面升级成功,全新上线!(2007-08-30)    
便民网址导航,轻松网上冲浪。
台州维博网络专业开发网站门户平台系统
您当前的位置: 首页 » 生活百科 » 信息浩瀚无边 让高质量在网络搜索中说话

信息浩瀚无边 让高质量在网络搜索中说话

论坛链接
  • 信息浩瀚无边 让高质量在网络搜索中说话
  • 发布时间:2008-12-20 23:30:33    浏览数:6967    发布者:superadmin    设置字体【   
短短几十年间,计算机和互联网技术已经使信息、知识和教育领域的核心准则发生了革命性变化,在不远的未来,学生们将能够在不接触书本的情况下读完高中。




在不远的未来,学生们将能够在不接触书本的情况下读完高中。而在20年前,他们可能直至高中毕业都没有碰过电脑。短短几十年间,计算机和互联网技术已经使信息、知识和教育领域的核心准则发生了革命性变化。可不是嘛,现在你尽可以将书本信息储存在笔记本电脑的硬盘里,它甚至可以比一家藏书60000本的书店容纳的还多。据说,如今互联网上的网页数目已经超过了5000亿,如果换成等量的书(每本500页),则要用10架现代的航空母舰才能载满!

这样类比一下,我们才能更形象地认识到当今信息爆炸的巨大程度,同时也意识到随之而来的问题。网络搜索引擎(web search engines)是唯一可以帮助我们在浩瀚信息海洋中定位的工具。因此,它不应该被误以为是一个可用可不用的附加物,一个没事按着玩玩的“搜索”按钮,或者只被用来查查最近的披萨店在哪儿。“搜索引擎”是知识、资源、甚至错误信息最强大的散布渠道。

说起搜索引擎,人们的第一反应无疑是“谷歌”(Google)。称谷歌为当今互联网发展的缔造者,并不牵强附会。它造就了一代新人,这代人的观念和生活方式与他们的父辈迥然不同。“婴儿潮”一代(Baby Boomers,指美国1945--1960年间处于高生育率时期出生的人——译注)可能对此感触最深,因为他们在童年时期经历了疯狂的“摇滚乐”热潮,而为人父母时则见证了“谷歌”时代。谷歌的设计布局是基于统计学的运算法则。但是,基于统计学运算法则的搜索技术是不能够辨别信息质量的,因为高品质的信息并非总是最受欢迎,同样,流行的信息也不总是高质量的。你可能会花很长时间来收集资料,但是别指望那些冗杂的信息有什么用处。

此外,统计数据收集系统(statistics collection systems)总是会慢半拍,

因为数据资料需要人工来转介、收集整理。所以,普遍使用的那些搜索引擎很难找到新出版物(这里指在网上新发布的信息——译注)和那些高频率更新内容的动态网页(dynamic pages)中的信息。举个例子来说,现行搜索引擎的低效率已经催生了一个新的事物,叫做“搜索引擎优化”(Search Engine Optimization),它专注于解决如何将搜到的网页链接排在更靠前的位置,与谷歌式搜索引擎(Google-esque search engines)的普遍标准不一样。这是一个价值十亿美元的行业,如果你的钱够多,那么你的网页就可以比其他网页占据一个更靠前的位置,即使它们比你的质量高或更可信。因为谷歌的出现,商界从来没对“高质信息”问题如此敏感过。
      信息质量,这一由网络搜索弊端带来的问题将决定人们的未来,但是要质量则必须进行技术革新,现在的数据统计技术有所突破。其实,这场革命已经悄然开始了,被称为“语义分析技术”(semantic technology)。换句话说,就是教电脑识别人类世界的运行规范。比如,当电脑碰到“bill”这个单词时,它就会明白在英语中,“bill”有多达15个不同的释义;而当遇到“killed the bill”这个短语时,它则会想到这里的“bill”可能应理解为“递交给立法机关的一个法案”,而这里“kill”是“stop”的意思。

但要遇到“kill bill”,则是专指那部电影(《杀死比尔》)的名字了。这样一系列类似的演绎推理将会扩展到整个句子和段落,最终呈现出准确的全文描述。

若想通过计算机的运算法则,使电脑具有如此机敏处理语言的能力,就必须建立一套“本体论”(Ontology,近年信息科学界最热门的词汇之一,“共享概念模型的明确的形式化规范说明”是目前对Ontology概念的统一看法。Semantic Web研究者认为,Ontology是一个形式化定义语词关系的规范化文件——译注)。“本体论”不是一部字典,也不是一部同义词词典。它是一张具有相关概念和词意的地图,反映两个不同概念之间所存在的联系,比如上面提到的“bill”和“kill”。

建立这样一个总结世间万物信息的“本体论”可能是一个巨大的工程,几乎等于是编制一个浩大的百科全书,并且要求有相关领域的专家来编纂,但这并非不切实可行。世界范围内的几个新兴企业,比如Hakia、Cognition Search 和Lexxe都已对此发出挑战。他们努力的结果将如何,我们拭目以待。

但是,语义分析搜索引擎将如何解决信息质量的问题呢?答案很简单:精确性。一旦计算机可以用精确的语义分析来处理人类的自然语言,高质量的信息就可以直接到达最终用户,而不是像现今的网络搜索,需要信息首先大众化。

通过探测分析一个特定文本中概念的丰富含义和前后连贯性,语义分析技术对保证信息质量的意义更多。比如,若一个文本中含有一句“Bush killed the last bill in the Senate”(布什在参议院否决了最后一条议案),那在这个句子之后,是否还有相一致的概念?这个网页是不是一个广告泛滥的垃圾网页,在字里行间插满了广告?语义分析技术对此见招拆招,都可以辨别出来。

鉴于人类阅读速度有限(每分钟200到300字),而今可获取的信息却是浩瀚无边,那么想在获取精准信息的各个方面做出有效决策,就很需要语义分析这样的技术了。如果未来世界中的知识备受名望与金钱的摆布,那我们将会寸步难行。(
娱乐休闲专区A 影视预告B 音乐咖啡C 英语阶梯D 生活百科
网页编程专区E AMPZF HTMLG CSSH JSI ASPJ PHPK JSPL MySQLM AJAX
Linux技术区 N 系统管理O 服务器架设P 网络/硬件Q 编程序开发R 内核/嵌入
管理中心专区S 发布网址T 版主议事U 事务处理