article_image

搜索的工具层面似乎有太多的知识,几乎每一个网站或者软件的搜索细节都有所差异,而人工智能更是走向了完全不同的交互,这一切都把工具学习者推到一个帕斯卡赌局中:今天学的东西,明天就很有可能过期,因此,明天学永远比今天学来更划算,但结果就是永远也不会系统性地学习搜索技术。在这一原理的腐殖质上,结出了普通人司空见惯的现象:拖延症。

对于搜索工具,长期以来存在两个误解。一个误解在前几篇文章里已经澄清了,那就是搜索绝不只是工具层面的事情,看似复杂的搜索工具,其实只是搜索这做冰山的小小一角,在更深层次还有一系列的方法论和思维方式,而无论冰山表面如何变化,深层次的东西都不会那么稍纵即逝,进言之,掌握更同样的道或术,则无惧于器的千变万化。另一个误解则是把搜索技术纯粹看作一系列零散技巧的拼凑,事实上,如果我们穿透复杂的交互界面,搜索的工具层面无非就是三件事情:关键词搜索语法以及URL Scheme,而最后一者又是前两者的综合。易言之,只要掌握关键词搜索语法的规律,基本就掌握了搜索技术,剩下的主要是继续扩充词汇量,熟悉具体的搜索工具而已。

某种程度上,上述结论甚至适用于非文字的搜索工具,例如图片搜索或声音搜索。目前 Google 已经把图片搜索往前推了一大步,继承了关键词和搜索语法;而声音搜索尚处于起步阶段,但可以想见,如果其方向与图片搜索类似,那么本章所介绍的通用技术同样适用于这些非文字媒介。

从现有关键词开始

没有任何一个专业领域要求你凭空编造关键词。

在专业性的搜索培训中,无论是学术检索、知识产权检索还是法律检索——出人意料——关键词都不是第一步,也就是说,没有任何一个专业领域要求你凭空编造关键词。非常可惜,绝大多数通俗搜索指南都忽略了这一点。

几个领域的现有关键词

拿专利检索来说,第一步通常是了解一个技术主题和所属领域,对潜在的搜索信息源有个大概认识。而在初步探索阶段,除了摸索信息源的大致地形,还有一个重要意义:圈定初步关键词。关键词并不是无中生有,相反,总有起点。在检索专利时,最有效的起点是一两件代表性的产品^1,如果你能够从产品包装盒中找到专利号就再好不过(我国法律要求标明,一般不是大问题),可以马上确定一两篇专利文献,接着,你在文献开头就能看到关键词。这些关键词很可能是专利检索的起点。

不过,专利毕竟是一场残酷的商业游戏,很多权利人会尽可能使用宽泛、抽象的关键词,一方面尽量避免限缩自己的权利,另一方面也让专利隐藏在茫茫大海之中,故意让别人查不到,以便碰瓷。

另一个类似的例子是论文检索。论文开头也有关键词和摘要,而相较于专利,论文更希望被人发现、被人引用,因此它们所用的关键词也更规范、更可取。在较为成熟的领域,关键词根本不是任意的,你得从领域中的“受控关键词”中挑选,免得别人不知道你在说什么。

Alt text
论文开头通常都有关键词可供参考

部分网络文章也有关键词,有些还会将其写入网页元数据,DEVONthink 甚至有个将关键词元数据转换为文件标签的设置,如果你用 DEVONthink 抓取 RSS 文章,抓到的文件都会自动打上标签。也有的文章直接使用标签,我自己写的杂文就会打标签,而不是辛辛苦苦设置元数据。不过,就像有人所观察到的那样,标签是自下而上的,每个人都可以给出一套主观的标签,因此其参考意义比不上论文关键词或者专利关键词。但无论如何,你至少有了一个立足点。

……

本文选自拙作《直达鹄的:在线搜索指津》,限时试读已结束,欢迎选购完整栏目。
直达鹄的:在线搜索指津
直达鹄的:在线搜索指津

author_avatar

Lawyer, macOS/iOS Automation Amateur