55rpg吧 关注:39贴子:572
  • 0回复贴,共1

译外星人文字浅谈

只看楼主收藏回复

如果让你破译“三体”人文字你会怎么办?我们试着开一下脑洞:假如你有一个优盘,里面存了大量“三体”人(刘慈欣小说中的高智能外星人)的网络文本信息,你会怎样通过这些信息去了解外星文明并从中获取有价值的技术情报?当然,“三体”人的文字都长这样儿: 三体文字“全是乱码,根本摸不着头脑!”好吧,的确是这样。其实在计算机的眼中,人类的语言跟外星人的语言也没什么两样。让计算机“理解”人类语言中的种种信息,甚至像人类一样做出反应,这些是自然语言处理的主要内容。那我们怎么分析呢?首先,我们尝试找出最小观察对象,发现外星人文字好像是一块一块的方块字,每一个方块字可以作为我们的一个分析的基本语言单位。我们对这些方块字做一些基本的统计,大致就能知道“三体”人语言的基本词汇量、常用词、罕见词、常用固定搭配等等。可见统计方法是一个比较有用的利器。而且,我们发现,有些方块字直接由一个空格将其隔开。因此将方块字区分成不同的区域,每一个区域是否可以理解成一句话?这个工作就是“断句”,也是自然语言处理当中的一个典型问题。然后空行可以作为分段。按照人类语言的经验,可能段首第一句话会包含更多的信息。还能继续分析吗?似乎比较难了。可是后来你发现,这个优盘中的外星人语料库有些是“标记”了的。比如有些信息是像在豆瓣网站中那样被组织的。里面每段话都有一些类似“好评”“差评”的标记。基于这些标记,你可以统计出某些词在好评中出现的概率比差评的更高,这些词可能就是“褒义词”。类似的,你也可以统计出一些“贬义词”。基于这些褒、贬义词,可以去判断其他文本的褒贬性。这就是自然语言处理中的“褒贬分析”过程。……由此可见,当面对一种一无所知的语言的时候,似乎最直接的方法就是掌握大量的语料库,而且这些语料最好是经过各种方式标注了的。然后对其进行各种各样的统计,发掘一些有价值的信息。这是传说中自然语言处理的经验主义视角。


1楼2016-12-01 12:14回复