冯志伟谈计算语言学

jhz001 发表于 2021-7-30 15:44:23

　　计算语言学是近年日益受到重视的前沿交叉学科。教育部语言文字应用研究所研究员冯志伟主要研究计算语言学、语言学流派、语料库语言学、术语学，他是我国最早从事计算语言学的学者之一，从20世纪50年代末在北京大学求学期间踏上计算语言学的学术道路，为我国计算语言学的发展作出了突出贡献。作为中国计算语言学的主要开创者和发展见证者之一，已届望九之年的冯志伟研究员仍治学不辍，为学科发展持续贡献力量。在他看来，要让下一代学者做好创新的准备，把基于语言大数据的经验主义方法和基于语言规则的理性主义方法巧妙地结合起来，从而把计算语言学的研究推向深入。　　中国社会科学网：您是我国最早从事计算语言学的学者之一，请您介绍下什么是计算语言学，其跨学科特点主要体现在哪些方面？　　冯志伟：计算语言学（computational linguistics）是用计算机研究和处理自然语言的一门新兴的交叉学科。由于计算语言学的研究对象是自然语言，因此，语言学家把它算为语言学的一个分支；由于计算语言学采用先进的计算机科学技术来研究和处理自然语言，因此，计算机科学家把它算为计算机科学的一个分支；由于计算语言学要研究自然语言的形式结构和自然语言处理的算法，因此，数学家把它算为应用数学的一个分支。这种情况说明，计算语言学不是一门单纯的学科，而是一门交叉学科，具有明显的跨学科特点。　　为什么计算语言学会出现这样的跨学科特点呢？这是由计算语言学的研究目标决定的。计算语言学的目标既然是研究和处理自然语言，那么，它必定要认真地研究计算机处理自然语言的整个过程，提出行之有效的理论和方法。　　一般地说，计算机对自然语言的研究和处理应当经过如下四个方面的过程：　　第一，把需要研究的问题在语言学上加以形式化，建立语言的形式化模型，使之能以一定的数学形式，严密而规整地表示出来，这个过程可以叫做“形式化”。　　第二，把这种严密而规整的数学形式表示为算法，这个过程可以叫做“算法化”。　　第三，根据算法编写计算机程序，使之在计算机上加以实现，建立各种实用的自然语言处理系统，这个过程可以叫做“程序化”。　　第四，对于所建立的自然语言处理系统进行评测，使之不断地改进质量和性能，以满足用户的要求，这个过程可以叫做“实用化”。　　因此，为了从事计算语言学的研究，研究人员不仅要具备语言学知识，而且还要具备数学和计算机科学方面的知识，这样，计算语言学就成为了介乎于语言学、数学和计算机科学之间的边缘性的交叉学科，它同时涉及到文科、理科和工科三大领域，使得它具有跨学科的性质。　　中国社会科学网：请简要介绍下计算语言学的发展历程。您从50年代末就开始接触计算语言学，60多年过去了，现在回顾审视计算语言学的历史与现状您有哪些感受和认识？　　冯志伟：1946年制造出第一台电子计算机，3年之后，美国洛克菲勒基金会自然科学部主任韦弗（Weaver）于1949年7月15日发表了关于《翻译》的备忘录，提出用计算机来进行机器翻译的思想，至今已经有71年了。　　不过，计算语言学（computational linguistics）这个术语是1962年才出现的。早期的计算语言学研究主要是基于规则的，也就是根据语言学规则来编写程序，带有理性主义的色彩，用这种方法研制出来的系统难以应用于大规模的真实文本的自然语言处理。20世纪80年代后期计算语言学开始战略转移，采用经验主义的方法，从大规模的真实的语料库中获取语言知识，提高了自然语言处理的效果，进入21世纪之后，计算语言学使用神经网络的方法，不再用手工获取自然语言的特征，而是通过深度学习，让计算机自动地从语料库中获取自然语言的特征，自然语言处理的效果进一步提高。　　我是1957年考入北京大学地球化学专业的，入学之后在北大图书馆看到了一篇使用数学方法研究自然语言的文章，产生了浓厚的兴趣，于是毅然从理科转到中文系学习语言学，后来又考上了研究生，走上了计算语言学研究的道路。我研究计算语言学已经63年的时间了。　　我们这一代人正在一天天地变老；然而，我们如痴如醉地钟爱着的计算语言学事业却是一个新兴的学科，她还非常年轻，充满了青春的活力，尽管她还不够成熟，但是她无疑地有着光辉的发展前景。我们个人的生命是有限的，而科学知识的探讨和研究却是无限的。我们个人渺小的生命与科学事业这棵常青的参天大树相比较，有如沧海之一粟。我们应当加倍努力，在计算语言学的研究中实现自己渺小生命的价值。　　中国社会科学网：计算语言学是否契合当前推进的“新文科”建设。　　冯志伟：所谓“新文科”，是指在传统文科的基础之上进行的学科中不同专业的重组，形成文理交叉，把现代信息技术引入到文科的课程中，为学生提供跨学科学习，培养创新性的思维。计算语言学很自然地把语言学、数学和计算机科学结合在一起，是最为典型的“新文科”，而且早就存在了。在一定程度上讲，加强计算语言学研究也就是加强了新文科的建设。　　中国社会科学网：计算语言学的研究成果主要有哪些应用？　　冯志伟：计算语言学的研究成果可以用于机器翻译、信息自动检索、信息抽取、自动文摘、自动阅读理解、文本数据挖掘、智能问答、人机接口、计算机辅助语言教学、用户偏好分析等领域，有很大的实用价值。所以，我们可以说：“大哉计算语言学之为用！”　　中国社会科学网：您近期在做哪些相关研究工作？　　冯志伟：我过去主要从事机器翻译系统的研制，1978-1981年在法国格勒诺布尔大学应用数学研究所（法文Institut de Mathematique Appliquée de Grenoble，简称IMAG）研制过汉语翻译为法语、英语、日语、俄语、德语5种语言的机器翻译系统，把20多篇汉语的短文自动地翻译成5种外语，这是世界上第一个把汉语自动地翻译成多种外语的机器翻译系统。此后我又分别研制了若干个外语翻译成汉语的机器翻译系统和中文术语数据库，做了一些应用系统的开发研究。现在我已经进入望九之年，不再做应用系统的开发了。　　近年来我的主要精力用于总结计算语言学的理论和方法，写作专著和教材。我在2017年出版了《自然语言形式分析的理论与方法》一书，是113万多字的大部头专著。我还编写计算语言学教材，出版了《自然语言处理简明教程》，是87万字的大部头教材。　　此外，我还把国外优秀的计算语言学著作翻译成中文，翻译过《自然语言处理综论》《统计语言学习》等专著。　　我已经出版专著38部，发表论文400多篇，著书立说成为我主要的工作内容。有朋友说我是“著作等身”了！　　中国社会科学网：可否举例介绍一些当前国际上计算语言学的前沿研究。　　冯志伟：当前国际上计算语言学研究在机器翻译方面取得了很大的成就，机器翻译经历了基于规则的机器翻译、统计机器翻译、神经机器翻译等阶段，现在正在实用化和商品化，机器翻译已经从学者的梦想变成了活生生的现实。　　计算语言学还可以分析用户的偏好，促进商品的销售。文本分析公司根据用户在互联网论坛和用户群体组织中表现出来的意见、偏好、态度的自动测试结果，对用户提供智能化、个性化的服务，帮助用户在市场上挑选到符合他们要求的商品。　　计算语言学的另一个前沿研究是文本的自动阅读理解。在电影《她（HER）》中有这样一幕：主人公是一位信件撰写人，叫做萨曼莎的计算机自动阅读理解系统在得到主人公的允许后阅读他的电子邮件资料，总结出需要保留和删除的电子邮件，帮助他修改信件草稿中的错字，并且与他探讨信件的片段。萨曼莎通过阅读主人公的海量信息来了解信件撰写人，也通过阅读互联网上的海量数据来了解世界。　　这些计算语言学前沿研究的问题都很有趣，可以造福人类。　　中国社会科学网：在您看来我国计算语言学学科发展目前主要存在哪些问题？　　冯志伟：计算语言学越来越重要，很多语言学家也想参与到计算语言学的研究中来。但是，由于他们大多数是文科背景，不太懂数学和计算机科学，一旦他们参与计算语言学研究，往往感到力不从心。这种情况，也引起理工科背景的计算语言学家的不满，他们感到很失望。这是我国计算语言学存在的一个主要问题。　　著名语音识别专家、美国工程院院士贾里尼克（F.Jelinek）于1988年12月7日在自然语言处理评测讨论会上的发言中曾经说过这样的话：“每当一个语言学家离开我们的研究组，语音识别率就提高一个台阶。”根据一些参加这次会议的人回忆，当时贾里尼克的原话更为尖刻，他说：“每当我解雇一个语言学家，语音识别系统的性能就会得到一些改善。”贾里尼克的这些话在我国语言学界广为传播，使得很多语言学家感到很茫然，觉得尽管信息时代对语言学的发展寄予厚望，但是自己在信息时代没有什么用处，有些灰溜溜的感觉。　　贾里尼克的这段名言说明，在信息网络时代，如果语言学家不更新知识，仍然恪守于自己原来的知识领域故步自封，将有被时代抛弃的危险。　　面对信息网络时代的新要求，不少语言学家努力学习计算机自然语言处理的技术，不断进行更新知识的再学习，成为兼通语言学、数学和计算机科学的新一代语言学家。　　语言学家更新知识之后，贾里尼克也改变了对于语言学家的成见。他在2004年发表了一次演讲，演讲的题目是“我的一些最好的朋友是语言学家”，他在演讲的最后说：“物理学家研究物理现象，语言学家研究语言现象。工程师要学会利用物理学家的真知灼见，而我们则要学会利用语言学家的真知灼见。”可见贾里尼克在16年前奚落的并不是所有的语言学家，而是那些故步自封并且不愿意更新知识的语言学家。　　由此看来，为了从事计算语言学的研究，语言学家很有必要更新知识，很有必要学习数学和计算机科学的知识。我觉得，这是语言学家从事计算语言学研究的最主要的问题。我希望对于计算语言学感兴趣的语言学家应当与时俱进，进行更新知识的再学习，使自己适应计算语言学研究的要求。　　中国社会科学网：您认为今后一个时期学界应从哪些方面进一步推进计算语言学研究？　　冯志伟：目前，在计算语言学研究中，深度学习（神经网络）方法成为了主流的方法，几乎在计算语言学研究的所有领域都采用了深度学习（神经网络）的方法，这是一种基于语言大数据的经验主义方法，语言规则受到忽视。不过，我认为，深度学习（神经网络）应当与语言学研究结合起来，基于语言大数据的经验主义方法应当与基于语言规则的理性主义方法结合起来，相互促进，相得益彰，这样才能推动计算语言学的进一步发展。　　我们这一代学者赶上了基于语言大数据的经验主义盛行的黄金时代，我们应当告诫下一代的学者，不要过分地迷信目前广为流行的基于语言大数据的经验主义方法，不要轻易地忽视目前受到冷落的基于语言规则的理性主义方法，要做好创新的准备，把基于语言大数据的经验主义方法和基于语言规则的理性主义方法巧妙地结合起来，从而把计算语言学的研究推向深入。　　图灵奖获得者辛顿（Hinton）认为，“深度学习的下一个大的进展应当是让神经网络真正理解文档的内容”，他明确地指出了自然语言理解是深度学习（神经网络）的发展方向，他的看法是语重心长的，值得我们深思。

深度语义 发表于 2021-7-30 16:07:39

图灵奖获得者辛顿（Hinton）认为，“深度学习的下一个大的进展应当是让神经网络真正理解文档的内容”

非常同意！但是难度很大。

jhz001 发表于 2021-8-10 13:45:54

Third Person Data

语料库是为一个或多个应用目标而专门收集的、有一定结构的、有代表性的、可被计算机程序检索的、具有一定规模的语料的集合。语料库应该按照一定的语言学原则，运用随机抽样方法，收集自然出现的连续的语言运用文本或话语片段来建立。从其本质上讲，语料库实际上是通过对自然语言运用的随机抽样，以一定大小的语言样本来代表某一研究中所确定的语言运用总体。

从语料库研究的实际情况看来，语料库技术是不可忽视的。我曾经说过，为了适应信息时代语言学研究的新发展，语言研究者有必要进行更新知识的再学习，努力完善自己的知识结构，这应当是信息时代的语言研究者责无旁贷的任务。人文科学背景的语言研究者可以先通过学习利用一些编程手段和技术，从语料获取入手，逐渐获得利用计算机计算语言的能力，使自己成为文理兼通、博学多才的语言学一代新人。

如果搞语言研究不使用语料库或概率，很可能就只能使用自己根据“内省”（introspection）得到的数据，这是“第一人称数据”（first person data），在使用第一人称数据时，语言研究者既是语言数据的分析者，又是语言数据的提供者。“第一人称数据”主观性很强，往往见仁见智。

使用根据“问卷调查”之类的“诱导”（elicitation）得到的数据，这是“第二人称数据”（second person data）。在使用第二人称数据时，语言研究者不充当数据的提供者，数据需要通过“作为第二人称的旁人”的诱导才能得到。

如果使用语料库的数据作为语言研究的数据来源，那么，语言研究者就不再充当数据的提供者或诱导者，而是充当数据的观察者或检验者了，这种通过“观察”（observation）和“检验”（verification）得到的数据是“第三人称数据”（third person data）。这是2000年Widdowson在他的论文The limitation of Linguistics applied中提出的看法，值得我们借鉴。

当然，如果使用第三人称的观察数据，语言学研究者同时也可以充当数据的“内省者”或“诱导者”，所以，第一人称和第二人称与第三人称是难以分开的，第三人称方法显然是比较科学的获取数据的手段。我们认为，语言学的一切知识，不论是过去通过“内省”或“诱导”得到的知识，最终都有必要放到语料库中来“观察”和“检验”，决定其是正确的，还是片面的，还是错误的，甚至是荒谬的，从而决定其存在的必要性，决定其是继续存在，还是放弃其存在，我们这一代语言研究者别无选择。

在大数据（big data）时代，尤其是近年来的互联网（web）技术的日新月异，丰富的语料资源变得唾手可及。然而，使用传统的基于“内省”或“诱导”的方法来获取语言知识，犹如以管窥豹，以蠡测海。这种获取语言知识的方法不仅效率极低，而且带有很大的主观性和片面性。语料库语言学提倡建立语料库，在计算机的辅助下，使用统计的方法或机器学习的方法，自动或半自动地从浩如烟海的语料库中获取准确的语言知识。随着互联网日新月异的发展，互联网上有着无比丰富的文本语言数据，其中有经过标注的结构化的语言数据，也有未经过标注的非结构化的语言数据，我们可以从互联网上，使用语料库技术，从这些大量的语言数据中自动或半自动地获取客观而全面的语言知识。这是语言学获取语言知识方式的巨大变化，在语言学的发展历史上具有革命性的意义。

摘自：《语料库技术与应用:基于Python3的语料自动获取与分析》序言 2020年11月

jhz001 发表于 2022-10-19 13:30:00

本帖最后由 jhz001 于 2022-10-19 13:34 编辑

关于机器翻译行业发展的三点建议

机器翻译这个工作，现在已经是发展得不错了。机器翻译大概起源于1954年，美国乔治敦大学在IBM公司支持下进行了第一次机器翻译，把俄语翻译成英语，当时翻译了六十多个句子。这些句子是挺复杂的句子，是通过语言学规则来翻译的。在这以后我们中国也有很多探索，其实机器翻译发展得很早，也许机器翻译家的工作，启发了一些专家想到了人工智能，人工智能是比机翻还晚两年的概念，但是现在把机器翻译作为人工智能的一个分支来看，根本上说机器翻译是比较先进的。但是后来人们实践了以后发现这个问题很大，因为是用计算语言做的，语言是人类非常复杂的技能，所以整个的效果不好。在1959年我们中国语言所跟计算所合作，把俄语翻译成中文作为国庆十周年的献礼，当时翻译了九个句子，九个句子已经不容易了，因为是计算机而不是人来翻译的。从此以后，机器翻译进入历史舞台，它是不是有社会价值？这本来是学者们作为一种研究方向来看待的。这个东西能不能为人民服务，能不能够反映社会价值？实际结果看来并不太好，而且译文质量太差。翻译家起码是我们根据已有的语料有关的句子，然后通过这个句子进行语言分析，然后形成公式来做。但另一方面，语言是无穷无尽的，所以根据有限的语料翻译家要准备几百几千句来翻译，是不是能够覆盖其他的语言还是一个问题。所以在这种情况下，机器翻译的长期应用就是很大的研究问题了。

在很早以前，我自己研究机器翻译也是完全出于兴趣，人类语言障碍那么严重，能不能做些事情，也没有想到机器翻译的社会价值和将来能够成功，成为新译公司的项目。基本上，对研究机翻的应用也有些成绩，我也曾经跟一个公司合作过，80年代在中国成立了一些翻译公司，他们以机器翻译为业，但这些公司最后失败的很多，成功的很少，个别的公司有些成功的，但都是依靠其他项目。现在的机器翻译长期以来处在一种徘徊的状态。虽然后来有了统计办法，就是我们不再通过语言学家的规则来翻译，而是用统计方法来做，这个思想在上世纪90年代，IBM公司实践过，结果是正确率可以达到70%左右。70%的正确率显然是不行的，因为有30%的错误，翻译结果是不可行的。到了2012年到2014年的阶段，在计算机基础上有个重大的进步，就是神经网络，加拿大一个学者他提出叫做神经语言模型，用神经网络来翻译，把零散的语言符号变成词组进行运算，效果比较好。机器翻译的正确率一下子提升到百分之八十，像法语西班牙语到英语能够达到90%以上，一般来说，因为语言是个复杂的问题，能够达到90%很好了，人工翻译、专家翻译，也不是都对，仍然是有错误的，所以像法语、西班牙语，我认为机翻在一般情况下就表现不错。

前一段时间，我在德国教书，我在德国学校里面做的事，包括我讲的话有学习相关的问题，当时是用德文讲的。有一些记录在网上传播，有人就说冯老师你讲的德文能不能翻译成中文？我当时讲了一个多小时，太长了，我都八十多岁了，翻译不动了。但是后来我试一试用机器翻译来做，用一个微软的德汉翻译系统，翻译的结果确实很好，后来再花了五分钟改改，大致可以看了。所以我认为机器翻译到现在这个时代，是真正的产业了。新译研究院在这种情况下成立，从产业的关系来看，其实是抓住了一个时机，我觉得是非常好的。现在国际上很多这些机器翻译公司已经可以为用户服务了，机器翻译主要应用于英法、法英互译，汉英互译的正确率在国际机器翻译大赛评测会上达到83%左右，还达不到英法、法英互译的水平，但是83%我认为已经很了不起了。小语种有很多问题，比如土耳其语到英语的翻译，起码一半是错的，关键的是语料缺乏，至于说正常的语种可能错误就更多。

机器翻译是从语料库当中通过机器学习的方法获取知识，重点在中间环节的错误跟错误的积累。中国也有很多公司关注这个问题，包括讯飞等，在这样的情况下，成立新译研究院来关注这个问题，提供一些技术上和标准方面上的支持是非常好的。要做的事情刚才谢院长也做了一个报告，其中有几项我觉得是需要关注的，一个是评测的问题。

机器翻译的评测长期以来没有一个比较好的标准，我因为长期从事这个工作，参与过813、973的国家标准项目，当时的评测基本上采取人工评测的方法，也就是专家来打分。这样的评测不太准确，而且带有主观性，因为专家的思想、要求不一样。那么后来就出现BLEU，这个指标是美国人提出来的，作为机器翻译的一个评测指标，基本上完全自动化，把原文和译文拿来就能评，可能测算的结果跟我们人的感觉评测的结果也是差不多，好的翻译不会出现坏的评分，坏的翻译也不会出现好的评分。当时这种评测我觉得有的时候还是会出现一些问题，可能会把结果搞错。那么如何来做评测？大部分人其实在2007年左右采取了BLEU跟人工评测相结合的方法，刚才谢院长说我们要关注评测，提出一些比较好的，能够得到世界公认的评测标准，以后如果世界各国都同意，说中国这个办法不错，这个就很好。从国际评测上看，我认为评测还是很大的问题，这是一个问题。

另外一个问题就是少数民族语言，这个问题现在还是非常严重，因为现在英语翻译到汉语，我们翻译的正确率基本上还可以。但是在我们国内像我们藏语到汉语、维吾尔语到汉语的翻译总是有需求的。因为有民族问题，而且习近平总书记的指导思想也需要翻译成少数民族语言，技术也有些问题，我跟中宣部的人曾经商量派两个人到新疆去谈，这里面有好多事情要做。少数民族语言，关键是我们得想办法收集标准的少数民族语言资源，在这方面我们要想法填补一下空白。

另外我觉得在做机器翻译的时候，人的因素可能还是很大，不要太相信机器，因为它是从数据上面算出来的，其实他是没有智慧的，它根本不知道内容。机器翻译是先设置好，然后整个程序不出错，完全靠机器运行，机器根本就不懂语料，这个时候可能会出现很多错误，甚至是一些比较严重的错误，这是由于机器没有智慧造成的，是通过算法翻译出来的。所以这个时候我觉得人工因素要考虑，比如说一个是译前编辑，例如中文翻译成英文，我们介入加工，根据我们的过去的经验，中文里面往往没有主语，我们把主语填平，因为外语没有主语动词就编不出来，没法解决。而中文可以没有主语，中文中出现动词我们就知道什么意思。所以我们要把主语加进去，我觉得在这一方面可以提高。另外英文是有复合性，例如汉语的“一看就会、一用就错”，这样的句型翻译成英文是很难的复合句型，所以把这个汉语的紧缩复合句扩充成英语的正常的次序（”if…., then….”）。还有就是译后编辑（Post Editing, PE），就是翻译完以后我们给它修改一下，提高他的效果，所以我们在相信这种神经网络机器翻译的同时，还要适当地注意人工因素。我想这点可能跟技术界想得不太一样，我跟一些技术界的人探讨，他们感觉这个就是全自动的。但语言还跟智慧有关系，他们不考虑这个，就按普通的算法翻译。所以这个问题需要我们也适当地考虑译前和译后编辑做哪个方向好。

现在我认为翻译确实是个很大的产业。据有关报告，国际翻译市场大概有五百亿美元的价值。中国的翻译市场大概是三百亿人民币。我的想法是我们可以做一些事情：一个是我参与讨论标准的制定，能不能提出一个比较好的标准；另外就是在语料的收集方面，我们增加收集语料的工作量，而且注意收集一些小语种的语料；最后，我们可以考虑把人的智慧加进去。

摘自冯志伟在新译研究院新春座谈会上的讲话。

jhz001 发表于 2023-2-22 12:42:44

Large language models (LLMs) are computer programs for natural language processing that use deep learning and neural networks, like GPT-3.

大型语言模型（LLM）是用于自然语言处理的计算机程序，使用深度学习和神经网络，如GPT-3。

页: [1]

中国语言文字论坛's Archiver

冯志伟谈计算语言学