9. WordNet 和 WordWeb

WordNet,是普林斯顿大学的心理学教授乔治•米勒(George A. Miller)于 1985 年开始领导开发维护的一套英语词汇数据库(English lexical database)。截至 2006 年,WordNet 数据库中大小已经超过 12M,包括 15 万词,总计 11.5 万个同义集合,含有 20.7 万个词义条目。这个数据库里的词主要分为四种:名词(nouns)、动词(verbs)、形容词(adjectives)、和副词(adverbs)。数据库的主要结构是以词义(而非以词汇本身为线索)为线索的关系数据库。

1985 年这个项目刚刚启动的时候,获得了 300 万美元的资助。米勒教授后来的职业生涯大多都与 WordNet 有关。1998 年前后,布朗大学(Brown University)的一群教授和学生,用 WordNet 创建了一个 “disambiguator”(用来消除语义分析使所遇到的模棱两可的情况)。以 Jeff Stibel 为首的这群人聘用米勒教授作为董事会顾问,创建了 Simpli 搜索引擎。2000 年,Simpli 被 NetZero 公司以 2350 万美元的价格收购。2003 年,另外一家基于 WordNet 技术而创建的公司 Applied Semantics(这家公司 1998 年的时候叫做 “Oingo”)被 Google 以 1 亿零 200 万美元的价格收购。而后 Google 就拥有了今天它赖以生存的 AdSence 广告业务……

以下是 Wikipedia 上对该数据库结构的简要描述:

  • Nouns
    • hypernyms: Y is a hypernym of X if every X is a (kind of) Y (canine is a hypernym of dog) (这个相当于中文中所说的 “上义词”)
    • hyponyms: Y is a hyponym of X if every Y is a (kind of) X (dog is a hyponym of canine)(这个相当于中文中所说的 “下义词”)
    • coordinate terms: Y is a coordinate term of X if X and Y share a hypernym (wolf is a coordinate term of dog, and dog is a coordinate term of wolf)
    • holonym: Y is a holonym of X if X is a part of Y (building is a holonym of window)
    • meronym: Y is a meronym of X if Y is a part of X (window is a meronym of building)
  • Verbs
    • hypernym: the verb Y is a hypernym of the verb X if the activity X is a (kind of) Y (to perceive is an hypernym of to listen)
    • troponym: the verb Y is a troponym of the verb X if the activity Y is doing X in some manner (to lisp is a troponym of to talk)
    • entailment: the verb Y is entailed by X if by doing X you must be doing Y (to sleep is entailed by to snore)
    • coordinate terms: those verbs sharing a common hypernym (to lisp and to yell)
  • Adjectives
    • related nouns
    • similar to
    • participle of verb
  • Adverbs
    • root adjectives

对于英语学习者来说,这个数据库并不是很容易直观理解。因为它不是传统意义上的 “词典”(dictionary),也非传统意义上的 “辞典”(Thesaurus),准确地来说,原本是为了英语自动语义识别而打造的一个巨型词义关联数据库。

网上还能找到一个操作界面非常酷、非常炫的 “Thinkmap® Visual Thesaurus”,也是基于 WordNet 数据库的。

不过,这个 TVT 除了酷和炫之外,我个人认为对大多数英语学习者来说并不实用,不方便,没效率。