或许有人会说,用得上各种高级工具的场合,已经超出常理,普通人无需吹毛求疵。或许其他领域还谈得上日常与例外,但是在搜索中,只要已知与未知,而你不可能清楚自己不知道什么,此时没有人能够断言未知是例外。它只是你盲点,这是关于认识论的,而非本体论。搜索没有长尾。——《从 FoxTrot 开始,重新认识本地文件搜索》
在博物学家洪堡开始他的远洋旅程之前,欧洲科学家们几乎只知道意大利范围内的几座火山——至于北欧的数据,那几本就是民间传说,难以采信——而当洪堡来踏上南美洲后,他积累的火山数据一下子超越了欧洲在过去几千年中的总和。忽然间,旧世界关于火山的常识全都成了例外,毕竟相对于造山运动活跃的美洲板块,欧洲那两座火山实在是不足挂齿。
当领域、背景或者数据集发生翻天覆地的变化时,正常和例外的相对位置也会随之滑移,甚至反转。数字世界中的搜索也是如此,但正如我在拙作《在线搜索指津》中所发现的:
良好的搜索习惯是现代人的基本功。然而,这种能力却在不同场合下被高度神化,有时我们会认为,那些搜索又快又准的同学或同事一定让偷偷买了天价软件,或者充了专业数据库的会员,另一些时候,我们则会假设那些出色的家伙或许有某些常人难以企及的天才,把原因归结于玄学。
换个貌似科学一点的说法,那些传统印象中难以挖掘的数据,会被归入长尾,当作例外。然而,搜索其实没有长尾,搜索这件事情本身就是在消除长尾,一旦找到,它们就像“非洲未发现地带”一样不复存在。您没有找到别人可以获取的信息——除了本就是保密的信息和需要一定社会关系才能接触到的特殊信息之外——通常只是因为方法欠佳或工具不当。
法律检索的尴尬
我在现实世界中是一名律师,同行常开玩笑,自嘲一半的工作都是法律检索,尤其是找到具有指导性的案例,很可能可以左右案件结局。但很可惜,即便有那么多律师急着想付钱购买更好的法律数据库,可是多数服务却不尽人意:如果和隔壁专业代理师比较一下,就会发现律师是太可怜了,他们的搜索工具通常不支持高级搜索表达式,不比免费的裁判文书网或人民法院案例库好多少(反过来说明官方服务其实很良心)。
例言之,假如我打赢了一场官司,但双方就律师费谁来承担争执不下,在主流的几个法律数据库中,我只能输入 律师费
和 必要费用
等关键词,找出同时包含两者的裁判文书,以期找到参考。但是,字符层面包含关键词并不意味着语义层面符合搜索目标,不少案例在开头包含关键词A,中间提及关键词B,末尾的判决部分才出现关键词C,这样的案件,其实根本没有在讨论我所期待的问题。1如果我在检索专利,此时只需写一个位置表达式,限定几个关键词出现在同一段,搜索进度就会有质的飞越。或许是法律数据库开发者有所偏见,觉得律师基本都是文科出身,害怕这些法律农民工不会或者不敢使用复杂的搜索表达式?
取道本地的高级搜索
更换几个数据库后,我发现解决之道还是在于文件为本位的思路:若不追求 All in One,转而先用专业数据库初步筛选,将结果下载到本地,随后引入第三方搜索工具 FoxTrot,岂不就能把高级搜索语法带入法律检索?
首先从法律数据库中批量下载初步搜索结果,少则十几篇,多则上百篇,如果数量较多,可能需要购入付费数据库,不过多数律所估计也不会吝啬这些投入,我所知的好几个律师协会也给当地律师开通了会员账号。
接着,派 FoxTrot 出场。作为一款通用搜索工具,FoxTrot 采用索引机制而无意占有你的数据,你可以用它搜索电脑上几乎任一文件夹。就裁判文书检索而言,只需专设一个文件夹存放文书,然后索引至 FoxTrot 即可。选定文件夹后,FoxTrot 会在后台自动更新、追踪新加入的文件,即便一次性下载了上百篇裁判文书,FoxTrot 也会在几秒内索引完毕,等我输入完关键词,它早已准备就绪。
之后便是 FoxTrot 高级语法大展拳脚的时候。我最常用的是相邻语法 {范围} 关键词A 关键词B
,可以找出同时包含各关键词的一句话或一段文本,随着二来的搜索结果也更可靠,通常确实在同时讨论同时涉及各个关键词的问题,而不仅仅是附带提及。当然,经典的布尔逻辑符号——AND
、OR
和 NOT
——也时不时登场,不过,据说每增加一条公式,文章阅读量就会下降一半,这些技术细节,且恕本文不再详究。
小结
正所谓工具塑造了工具的使用者,如果一个人根本不知道那些高级搜索表达式,他可能永远不知道法律检索可以是什么样子。而我碰巧从事过两年时间的专利工作,当时接触的多数数据库都有复杂语法,后来投身法律工作,才有幸走一些捷径。
在客户并不吝于付费的法律检索领域,几大主流数据库恐怕都不配自称专业,遑论其他行业或领域的搜索工具现状。而 FoxTrot 所代表的本地文件搜索工具则提供了另一条处理,它并不专门为某个领域设计,也不屑于搞封闭数据库,方能把高级搜索引入不同工作。
- 部分法律数据库可以限定仅搜索判决主文,这也是删汰繁芜之良方。 ↩