article_image

本文选自拙作《直达鹄的:在线搜索指津》,欢迎选购完整栏目
直达鹄的:在线搜索指津
直达鹄的:在线搜索指津

搜索的工具层面似乎有太多的知识,几乎每一个网站或者软件的搜索细节都有所差异,而人工智能更是走向了完全不同的交互,这一切都把工具学习者推到一个帕斯卡赌局中:今天学的东西,明天就很有可能过期,因此,明天学永远比今天学来更划算,但结果就是永远也不会系统性地学习搜索技术。在这一原理的腐殖质上,结出了普通人司空见惯的现象:拖延症。

对于搜索工具,长期以来存在两个误解。一个误解在前几篇文章里已经澄清了,那就是搜索绝不只是工具层面的事情,看似复杂的搜索工具,其实只是搜索这做冰山的小小一角,在更深层次还有一系列的方法论和思维方式,而无论冰山表面如何变化,深层次的东西都不会那么稍纵即逝,进言之,掌握更同样的道或术,则无惧于器的千变万化。另一个误解则是把搜索技术纯粹看作一系列零散技巧的拼凑,事实上,如果我们穿透复杂的交互界面,搜索的工具层面无非就是三件事情:关键词搜索语法以及URL Scheme,而最后一者又是前两者的综合。易言之,只要掌握关键词搜索语法的规律,基本就掌握了搜索技术,剩下的主要是继续扩充词汇量,熟悉具体的搜索工具而已。

某种程度上,上述结论甚至适用于非文字的搜索工具,例如图片搜索或声音搜索。目前 Google 已经把图片搜索往前推了一大步,继承了关键词和搜索语法;而声音搜索尚处于起步阶段,但可以想见,如果其方向与图片搜索类似,那么本章所介绍的通用技术同样适用于这些非文字媒介。

从现有关键词开始

没有任何一个专业领域要求你凭空编造关键词。

在专业性的搜索培训中,无论是学术检索、知识产权检索还是法律检索——出人意料——关键词都不是第一步,也就是说,没有任何一个专业领域要求你凭空编造关键词。非常可惜,绝大多数通俗搜索指南都忽略了这一点。

几个领域的现有关键词

拿专利检索来说,第一步通常是了解一个技术主题和所属领域,对潜在的搜索信息源有个大概认识。而在初步探索阶段,除了摸索信息源的大致地形,还有一个重要意义:圈定初步关键词。关键词并不是无中生有,相反,总有起点。在检索专利时,最有效的起点是一两件代表性的产品1,如果你能够从产品包装盒中找到专利号就再好不过(我国法律要求标明,一般不是大问题),可以马上确定一两篇专利文献,接着,你在文献开头就能看到关键词。这些关键词很可能是专利检索的起点。

不过,专利毕竟是一场残酷的商业游戏,很多权利人会尽可能使用宽泛、抽象的关键词,一方面尽量避免限缩自己的权利,另一方面也让专利隐藏在茫茫大海之中,故意让别人查不到,以便碰瓷。

另一个类似的例子是论文检索。论文开头也有关键词和摘要,而相较于专利,论文更希望被人发现、被人引用,因此它们所用的关键词也更规范、更可取。在较为成熟的领域,关键词根本不是任意的,你得从领域中的“受控关键词”中挑选,免得别人不知道你在说什么。

Alt text
论文开头通常都有关键词可供参考

部分网络文章也有关键词,有些还会将其写入网页元数据,DEVONthink 甚至有个将关键词元数据转换为文件标签的设置,如果你用 DEVONthink 抓取 RSS 文章,抓到的文件都会自动打上标签。也有的文章直接使用标签,我自己写的杂文就会打标签,而不是辛辛苦苦设置元数据。不过,就像有人所观察到的那样,标签是自下而上的,每个人都可以给出一套主观的标签,因此其参考意义比不上论文关键词或者专利关键词。但无论如何,你至少有了一个立足点。

更日常的例子中,同样很容易确定初始关键词。例如网上购物,只需要找到一款相对令人满意的商品,看看它的标题和描述,通常就能总结出一组关键词。接下来,无论是找同款、找代工产品还是找类似的替代品,都有章可循。

辅助线:没有答案时就考察问题

别说是想法,前人连我的问题都偷得一干二净。

有时候,你可能确实找不到参照物,但如果你观察一下别人在相关领域如何提问,也有助于从中找到关键词。一个没有被解决的问题并不意味着提问者很糟糕,他可能只是在错误的时间或在错误的地方发布了问题。

例如,关于电子书、尤其是 Calibre 的疑难杂症,放在国内大半是白搭,因为国内没有形成讨论开源电子书的文化氛围,大家都忙着装插件和搞美化,仿佛是某种赛博朋克版的中年危机,2但印度的网站和社区则不然,其技术性讨论非常丰富,而且提问者和继续盖楼的回答者之间常常有来有往,互相都知道对方在说什么。

更多时候,他人的提问可能还会直接粉碎我的问题。提出前置问题可能比解决问题更重要,盖因我认定的一个问题,兴许只是水中捞月。我曾经执着于搞清 AppleScript double quote 的语法细节,但 Stackoverflow 上的成员大多在 Shell 主题下交流,我方才意识到,完全可以倒转过来、在 Shell 中运行 AppleScript,进而就能避开烦人的符号转义问题。诚如爱因斯坦所言,他会用绝大部分的时间搞清楚问题是什么,然后花上几分钟解决它。

总之,在搜索前,不妨先看看别人怎样讨论和我相似的问题,你很可能发现,别说是想法,前人连我的问题都偷得一干二净。

至于具体值得考察哪些人的问题,可以参考前几篇关于信息源的文章。而面对不同语言的信息源,也可以参考本文后面的方法,相应调整搜索关键词。

调整关键词

搜索并非一蹴而就,相反,要不断根据当前结果调整策略,而调整关键词恐怕是其中最有趣的一步,也是最锻炼人的环节,兼有逻辑和经验两方面的挑战。

有人可能以为,搜索无非就是列出一堆关键词,然后不停碰运气、胡乱组合,其实斟酌关键词完全有章法可依,最起码可以列出四五条非常实用的变化规则。

上位关键词

首先是放大关键词的范围。如果初次检索时结果太少,或者根本没有结果,那很可能是关键词太过于细致(不考虑选错关键词的情况),此时不妨把关键词调得粗放一些,试试上位概念

把这个规则放到第一条,是因为在我的工作环境中,大部分的人其实都过于专业了,往往一枪命中某个晦涩的术语,但是却忘了其上位概念。在处理某案件时,对方当事人总是拒绝交流又不还钱,我的搭档马上想到这可能涉及代位权,进一步还要考虑撤销权(怕对方转移财产),于是他们围绕这两个关键词各自检索一番。其实,两个概念都有共同的上位概念——债的保全(合同保全),在法学院时民法老师一定讲过,而且《民法典》目录上也可以看出这种层级关系,只可惜实际操作时就容易漏掉上位概念。

Alt text
带层级的目录可以提示上位关键词

不少现成资料都可以提供上位概念,前面提到的《民法典》目录即为适例,我国《民法典》汲取德国民法典体系化的优点,有长足进步,各概念之间的层级关系相对稳固,看目录就能找出不少上位概念。若熟背上千条法律条文却忘了法典体系,那就是明朝秋毫却不见舆薪了吧。

知识产权检索领域也有关键词表,比如专利和商标,就有大小类的层级。也可以找几本权威专著,看看后面的索引(Index),不过很多索引按照字母顺序排列,不一定有层级关系。

下位关键词

第二条规则和上一条相反:适当缩小关键词范围,尝试下位概念,提高其精度。当你发现搜索结果太多,或者总是掺着如同人工智能生成的万金油答案时,就应该尝试限缩关键词,或者进一步添加更多关键词,从而缩小搜索范围。

这条建议可能更适合日常搜索,比如本作多次提及的网上购物。说来讽刺,我们理论上应该最熟悉的种种日常商品和生活技巧,实际上很难用语言精确表述,此时反而要考验细化关键词的功力了。设想一下,如果你不慎把厕所清洁剂抹到手指上,怎么洗都洗不干净,估计很多人会泛泛地搜索“厕所清洁剂沾到手上怎么办”,实际上清洁剂种类很多,如果你不看一眼包装袋、弄清楚成分就胡乱尝试,那些貌似无害的建议反倒很可能弄伤皮肤。3

等位关键词

既然有朝上、朝下,那么也应该有平行的关键词变化方式。等位关键词变换规则又分两种情形,一种是语义层面的,你可以换一些同义词或近义词,比如说,如果你想找五星级酒店的同款枕头——就是那种一沾上就像打了一针镇定剂一样超级舒服的枕头——就不能老老实实用“化纤”或“聚酯纤维”这些关键词,因为这些厂商更喜欢用“羽绒棉”“羽绒丝”或“羽丝”“银丝”之类的雅称。

Alt text
某高档品牌将化纤改称为“羽丝”

显然,你需要一些经验才能熟悉等位关键词,不过仍然有辅助搜索渠道——接着前文关于购物的例子,你不妨去知乎、哔哩哔哩、什么值得买等地方看看测评文章怎么描述相关产品,然后从中提炼关键词。

另一种等位关键词变换是纯符号层面的,例如从简体中文换到繁体中文,或换到英文等外语,从而找到境外的相关信息。考虑到中文互联网的质量,这绝对值得一试——反过来,在外语查无结果时,也可以返回中文。

还有一种比较高级的变形,是换用反义词,同时结合否定的前缀。例如,如果你想找“轻量”的中性笔但结果不理想,不妨试试“零重力”;在查找环保商品时,你还可以结合前几条规则,把“节能”细化并替换为“不插电”或“低技术”。惟需注意,不少人用“非某某”时,仍然意在攀附,尤其在电商网站,这一技巧有所局限。

搜索要素表

排出关键词组合,再一一尝试,不怕遗漏,也不担心重复。

我在专业检索训练中学到的最有用的技巧,却朴实得让人发笑:检索要素表(关键词表)。这个名字听上去貌似专业,操作起来却非常简单,无非就是将关键词分组,适当排列,并尝试穷尽所有可能的关键词组合。当然,在一些支持高级检索表达式的软件——例如法律和专利数据库中——你不需要一次一次手动检索,而是可以向编写数学公式一样一次性检索多种可能的关键词组合(只要数据库的服务器以及你的账户余额允许)。

但要素表真正厉害之处在于通用,即便你只是想搜一款商品,即便你所用的搜索引擎不支持任何高级功能,你也可以另列一个表格,排出关键词组合,再一一尝试,不怕遗漏,也不担心重复

比如说,如果我想检索夫妻一方私自转移财产对财产分割有何影响,那么至少可以列出以下三到四组关键词(并不是每组都必须有),先全部用上,再根据初步结果的精度与广度调整关键词。

  1. 关于财产的定性:夫妻共同财产
  2. 关于行为的定性:隐匿、隐藏、转移……
  3. 可能存在的受让方:朋友、股东、债权人、子女、儿子、女儿、父母、父亲、母亲……

以上各组关键词组合有几十种组合,在不支持高级检索表达式的数据库中——法律数据库的话,多数都不支持——我只需逐个尝试,下载相关案例,最后去掉重复项,快速扫一各案例的摘要或主旨,大概就能确定有意义的参考案例。

Alt text
检索要素表示意图

在专业的团队检索工作中,检索要素表还是协作的基础,如果工作量巨大,成员们可以各自负责一部分,有要素表作为参照的话,不容易做重复工作,也不至于出现无人负责的区域——或至少知道哪些方向暂无人负责,不会手忙脚乱。有些合作方甚至会要求披露关键词,以便重新检索、核对检索结果是否可靠。

我相信多数读者接触到的搜索工具都不支持高级检索表达式,因此要素表这种看似最笨的方法,恐怕反倒最有用。不过,手动写下所有组合仍然容易有错漏,因此我写了一个简单的脚本,只需用 Numbers 列出各组要素(恕我暂不考虑 Excel,我根本没空用它),再运行脚本,即可得到一列可能的关键词组合。(因很难塞进现有的 GitHub 仓库,还请需要的读者直接联系我获取脚本)

Alt text
从搜索要素表生成所有关键词组合

从最日常的淘宝购物到专业的文献检索,都不妨引入要素表和配套工具,这就像是临时的搜索导航图(或者说护身符),可避免数字世界的探险者被信息洪流冲散注意力。

小结

从找到初始关键词、逐步调整到制作检索要素表(关键词表),搜索的手艺属性或工艺属性逐渐显露出来,你不再是一个凭空瞎猜关键词的麻瓜,错把搜索高手当作难以企及的魔法师;相反,你只是在掌握一门踏踏实实的技术,就像油画、素描或烹饪一样,总有一个起点,在其基础上一步一步调整。

采取上述视角之后,无论是本就提供复杂选项的专业数据库,还是自定义空间小得可怜的软件内部搜索,均可站在工具之外,打磨好关键词,有的放矢。


  1. 如果你连一个代表性产品都想不出来,这说明你最好不要从事此方向的检索工作,因为专利检索非常考验一个人的经验性知识,如果你对一个行业一窍不通,那你最好转向其他更擅长的行业。
  2. 中国人的典型状态:在365天中,366天都有邻居搞装修,前仆后继。
  3. 网上很多答案都出于酸碱中和原理,但是很多清洁剂本来就是中性的,用醋或者肥皂都洗不干净。我个人发现,反而用牙膏偶有奇效,可能是因为牙膏里含有大量碳酸钙(或者增加摩擦力的成分),牙膏能够去除清洁剂染色的原理恐怕和它能够刷干净牙齿的理由如出一辙。

author_avatar

Lawyer, macOS/iOS Automation Amateur