无讼阅读暖春版现已上线,手机也可以完美体验无讼案例和无讼名片。点击此处即刻更新!

 

我们常说,“搜索引擎能回答的问题就别要轻易问别人”,是一种必备的检索意识。但这样一种最公开、最普及,看似人人都能用、都会用的工具,想用得妙、用得好却绝非易事。


互联网时代的搜索引擎,是我们了解世界的第三只眼睛,检索能力的高低决定了获取资讯深度和广度的天壤之别。那么如何在法律检索之中用好综合搜索引擎?这篇文章力求帮助大家少一些错误认识,并掌握一些基本方法。


一、摈弃搜索引擎万能论


正确利用搜索引擎,要知其能知其所不能,即充分了解搜索引擎的局限,并通过科学的使用方法避免搜索引擎设计局限带来检索结的果不精确。


在这里,我们需要澄清的第一个问题就是:使用搜索引擎搜索并不等同于对整个互联网的搜索。即使最大的搜索引擎,通过网络爬虫搜集并建立索引的数据总量,也只能占到互联网上网页总量的30%,且不同搜索引擎之间的网页数据重叠率一般在70%以下。所以,在使用搜索引擎时,搜索的不是网络,而是已经建好的数据库。譬如,以“无因管理”作为关键词搜索,百度反馈的结果共计280万余条,搜狗反馈的结果共计3万余条,Bing反馈的结果共计674万余条,360反馈的结果共计177万,各个数据库就此问题收录的数据基量差别由此可见一斑。


第二,搜索引擎无法解决所有的检索问题。有些商业数据库、封闭论坛、专业网站的内容无法被搜索引擎的网络爬虫搜集,在根本没有被收录的情况下,检索技能再高超也不可能找的到。尤其对于专业壁垒特别高的行业,譬如法律、财会领域,专业数据库的数据并未对搜索引擎放开,绝大多数情况下必须付费检索。这也是为何搜狗搜索引擎收录的数据量无法与其他同类搜索产品抗衡,但仅凭独占性拥有“微信”和“知乎”两个平台的检索入口,就可以在搜索引擎市场占有不可撼动地位的原因所在。


第三,搜索引擎的能力和偏好不同、抓取的网页各不相同、排序算法也各不相同。在不同的搜索引擎中尝试输入“北京武汉”,会发现各个搜索引擎优先反馈的内容均为火车车次、航班班次及相应价格,结果差异不大。这是因为搜索引擎一直在通过智能联想试图理解用户输入内容的意图,针对一些符合绝大多数用户思维习惯的日常生活事项,各个搜索引擎的收录数据和算法并无明显差异,挑选任一工具均可。但对于法律检索而言,检索的事项多数情况下非日常生活事项,具有一定的专业性,这时候,懂得利用不同搜索引擎交叉检索核验,是避免数据库本身设计缺陷导致检索结果不精确的重要环节。


二、学习搜索引擎逻辑运算符


目前绝大部分数据库和搜索引擎均支持的逻辑运算符号为布尔逻辑运算符(Boolean Logic),由三个重要的逻辑符号组成:1.与→and;2.或→or,3.非→not,and not,-(减法)。


在百度、搜狗、Bing和360搜索中,如关键词之间以空格隔开,默认的逻辑运算符即为and。所以,输入(合作办学and协议and效力)与输入(合作办学协议效力)的检索结果应该是一致的。


但如果使用多个不同的逻辑符号连接检索词,就像加减乘除的优先运算顺序不同一样,布尔逻辑符的优先运算顺序也有差异,其优先级排序为:not→and→or。此种情况下,为保证数据库按照用户需求准确检索,就需要利用布尔逻辑符构造检索表达式。


譬如通过综合搜索引擎查找除买卖合同之外的其他合同效力问题,可以组配(合同and效力)-买卖合同,或者(合同and效力)not买卖合同来尝试查询。


三、了解基本的检索命令表达式


搜索引擎在搜集相关信息的时候,抓取的信息维度很多面:来源、标题、配图、关联信息等等,这就意味着我们可以利用它搜集的不同信息维度进行不同需求的检索,譬如专门检索标题、检索更新日期等。学会基本的检索命令,可以有效解决综合搜索引擎反馈结果关联性不高的痛点,囿于文章篇幅,本文仅介绍几种最常用的检索命令:


1.双引号“”-完全匹配检索


现在多数数据库具有智能联想功能,为避免错误的智能联想和解构导致检索结果“答非所问”,就需要启用双引号“”精确检索命令。即将检索关键词放在双引号中,进行完全匹配搜索,这等于告诉搜索引擎,结果返回的页面必须与双引号中的内容完全一致,这么做的好处有三:


一是避免不必要的自动联想。譬如输入lifugui,数据库可能以为用户要查找的是人名“李富贵”,进而智能地反馈以李富贵为关键词的检索结果。


二是避免随意变换字母顺序,产生新的排列组合。譬如想检索World IntellectualProperty Organization,如果不加引号,默认是and的关系,字母顺序是可以调换的,World Property Intellectual Organization就可能作为检索结果被反馈回来。


三是避免被任意添加关键词。譬如输入Emma Watsons,如果不加引号,搜索引擎可能反馈的结果中就包含了Emma bought tissues in Watsons这样的句子。


需要提醒的事,在搜索地名、人名、机构名称和其他专有名称的时候,尽量使用双引号精确检索,避免进行二次繁复的结果筛查。


2.intitle:-标题中检索


“intitle:(注意此处为英文半角冒号,如无特殊提醒,下文中出现的冒号均为应为)"指的是返回的结果是标题中包含指定关键词的网页。


譬如你想检索“预期违约”相关文章,如果直接以“预期违约”作为关键词进行检索,很可能找到一篇谈及不相干话题的长达几万字的论文,而其中仅出现了一次“预期违约”。如果用“intitle:预期违约”作为关键词检索,得到的结果是标题中含有“预期违约”四个字的网页,相关性和精确度将大大提高。


3.filetype:-文件格式检索


现在很多纸质版本的材料均被电子化,如何找到某一特定类型的电子版本材料是重要的检索技能。“filetype:”即为限定文件格式检索。


譬如“合同法filetype:ppt”即检索文件类型为ppt,包含关键词合同法的相关内容。


很多人会问,直接以“关键词.ppt”的形式检索与用“filetype:”命令检索有何不同?如有此疑问,不妨以“乡关何处.pdf”与“乡关何处filetype:pdf”分别检索,前者搜索引擎反馈的内容包括但不限于pdf格式的文件,epub格式txt格式也会出现在结果之中,后者搜索引擎反馈的结果有且只有pdf格式。


4.site:-特定网页、网站内检索


我个人认为,仅凭“site:”这一招,就能将检索效率成倍提升。


作为最常用且最好用的检索命令,site可用来检索某个域名下的所有文件。譬如在百度中检索“证券法修订site:gov.cn”,即检索所有被百度收录的、出现在中国政府官网上的、有关证券法修订的内容,再譬如,检索“傲骨贤妻site:blog”,即检索所有出现在博客中的有关傲骨贤妻的内容。


但site的有用之处远不止这些,它还有两个独门秘笈:


第一,以综合搜索引擎的特定域名搜索代替某一特定网站的站内搜索。相信大家都有想在站内查询却不得的体验,一些网站根本不提供站内搜索功能,或有的网站有站内搜索框,但输入内容没有任何反应,更有甚者,会直接链接到其他综合搜索引擎。为避免这种尴尬的情况发生,你可以使用site命令完成站内检索,譬如“环境法site:npc.gov.cn”即为在全国人大网站搜索有关环境法的所有内容。


第二,搜索有些封闭的注册网站的内容。有些网站的内容是需注册才可以浏览的,但用户往往没有注册资格或认为注册手续过于繁琐。这时候,site命令可以帮助用户在不注册的情况下检索网站内容。譬如,新浪微博不登录没有办法用它自带的检索功能。如果不想注册又想检索,不妨使用“天同律师事务所site:weibo.com”这样的命令去检索天同律师事务在新浪微博中的相关内容。


5.inurl:-特定类型网页检索


url(united resource locator)统一资源定位符是重要的网页类型识别标志。任何网站的url都不是随意设置的,url与网页的内容有密切关联,所以可以利用这种相关性来缩小范围,准确找到所需信息。


譬如“inurl:news”即在所有的新闻报告页面中进行搜索,譬如“inurl:中华人民共和国最高人民法院”即在最高人民法院官网进行搜索。


上述高级检索命令远不是全部,仅为常用的几个,如读者有兴趣,不妨自行进行深入挖掘和研究。


四、建立搜索引擎使用的层次


根据搜索引擎使用能力和使用需求的高低,结合上述基本方法,所有引擎日常使用情景可大致分为以下几个阶段:


第一阶段:会使用关键词


第二阶段:会使用关键词组配


第三阶段:会使用关键词+逻辑连接符


第四阶段:会使用关键词+逻辑连接符+检索命令


诚然,第一阶段和第二阶段的初级使用方法,一般用户都可以熟练掌握,我们需要练习并提高的是第三阶段和第四阶段的使用技能。


譬如你可以组合(“国际货物买卖合同“and”效力”)-无效filetype:doc之类的关键词去检索,搭建的层次越多,逻辑越合理,得到精准结果的可能性就越大。学会混搭检索命令、逻辑符号和检索关键词,检索真的像探险一样,充满了无限的可能性。


看到这里,可能很多读者会觉得,学这些好麻烦,直接用单一输入框多简单。这样的思维是错误的,恰恰相反,懂得越复杂的指令,你利用综合搜索引擎做检索的自由度反而越大。所以,上述技巧值得反复推敲和练习,同样的工具,如果你将它的使用效率成倍的提升,将会从检索这件看似枯燥的工作中得到意想不到的成就感。


(温馨提示:很多搜索引擎提供了高级检索功能,利用高级检索功能进行限制检索,得到结果的准确性和关联度远比利用单一检索框要高。)


无讼学院云课堂检索课程优惠中,点击此处,率先领取课程优惠!

 

 

实习编辑/张雨

<<<<<<< HEAD
======= >>>>>>> 96172cdab5db5d05644eea1a7a596661ab9491b1