自然語言處理

自然語言處理（英語：Natural Language Processing，缩写作 NLP）是人工智慧和語言學領域的分支學科。此領域探討如何處理及運用自然語言；自然語言處理包括多方面和步骤，基本有认知、理解、生成等部分。

自然語言認知和理解是讓電腦把输入的語言变成有意思的符号和关系，然后根据目的再處理。自然語言生成系統则是把計算機數據轉化為自然語言。

自然语言处理要研制表示语言能力和语言应用的模型, 建立计算框架来实现并完善语言模型，并根据语言模型设计各种实用系统及探讨这些系统的评测技术^[1]。

歷史

自然語言處理大體是從1950年代開始，雖然更早期也有作為。1950年，图灵發表論文「計算機器與智能（英语：Computing Machinery and Intelligence）」，提出現在所謂的「圖靈測試」作為判斷智能的條件。

1954年的乔治城-IBM实验涉及全部自動翻譯（英语：automatic translation）超過60句俄文成為英文。研究人員聲稱三到五年之內即可解決機器翻譯的問題。^[2]不過實際進展遠低於預期，1966年的ALPAC報告（英语：ALPAC report）發現十年研究未達預期目標，機器翻譯的研究經費遭到大幅削減。一直到1980年代末期，統計機器翻譯系統發展出來，機器翻譯的研究才得以更上一層樓。

1960年代發展特別成功的NLP系統包括SHRDLU——一個詞彙設限、運作於受限如「積木世界」的一種自然語言系統，以及1964-1966年约瑟夫·维森鲍姆模擬「個人中心治療」而設計的ELIZA——幾乎未運用人類思想和感情的訊息，有時候卻能呈現令人訝異地類似人之間的互動。「病人」提出的問題超出ELIZA 極小的知識範圍之時，可能會得到空泛的回答。例如問題是「我的頭痛」，回答是「為什麼說你頭痛？」

1970年代，程式設計師開始設計「概念本體論」（conceptual ontologies）的程式，將現實世界的資訊，架構成電腦能夠理解的資料。實例有MARGIE、SAM、PAM、TaleSpin、QUALM、Politics以及Plot Unit。許多聊天機器人在這一時期寫成，包括PARRY（英语：PARRY）、Racter（英语：Racter）以及Jabberwacky（英语：Jabberwacky）。

一直到1980年代，多數自然語言處理系統是以一套複雜、人工訂定的規則為基礎。不過從1980年代末期開始，語言處理引進了機器學習的演算法，NLP產生革新。成因有兩個：運算能力穩定增加（參見摩爾定律）；以及喬姆斯基語言學理論漸漸喪失主導（例如轉換-生成文法）。該理論的架構不傾向於語料庫——機器學習處理語言所用方法的基礎。有些最早期使用的機器學習演算法，例如決策樹，是硬性的、「如果-則」規則組成的系統，類似當時既有的人工訂定的規則。不過詞性標記（英语：part-of-speech tagging）將隱馬爾可夫模型引入NLP，並且研究日益聚焦於軟性的、以機率做決定的統計模型，基礎是將輸入資料裡每一個特性賦予代表其份量的數值。許多語音識別現今依賴的快取語言模型（英语：cache language model）即是一種統計模型的例子。這種模型通常足以處理非預期的輸入數據，尤其是輸入有錯誤（真實世界的數據總免不了），並且在整合到包含多個子任務的較大系統時，結果比較可靠。

許多早期的成功屬於機器翻譯領域，尤其歸功IBM的研究，漸次發展出更複雜的統計模型。這些系統得以利用加拿大和歐盟現有的語料庫，因為其法律規定政府的會議必須翻譯成所有的官方語言。不過，其他大部分系統必須特別打造自己的語料庫，一直到現在這都是限制其成功的一個主要因素，於是大量的研究致力於從有限的數據更有效地學習。

近來的研究更加聚焦於非監督式學習和半監督學習（英语：semi-supervised learning）的演算法。這種演算法，能夠從沒有人工註解理想答案的資料裡學習。大體而言，這種學習比監督學習困難，並且在同量的數據下，通常產生的結果較不準確。不過沒有註解的數據量極巨（包含了全球資訊網），彌補了較不準確的缺點。

2011年以来，深度學習技巧紛紛出爐^[3]^[4] 在自然語言處理方面獲得最尖端的成果，例如語言模型^[5]、語法分析^[6]^[7]等等。2016年，AlphaGo打败李世石^[8]；2017年Transformer模型诞生^[9]；2018年BERT模型推出，提出了预训练的方法^[10]。

2022年底，随着ChatGPT等大语言模型的推出，自然语言处理的重点从自然语言理解转向了自然语言生成。

用途

在許多情況下，學者們需要通過許多不同的數據庫來確定新的研究方向，以識別研究差距並確定迄今為止尚未研究的領域。檢查所有電子數據庫很麻煩，而且經常會遺漏重要的部分。通過使用網絡抓取和自然語言處理來縮短識別研究差距所需的時間。在Google學術搜索上索引的出版物的標題, 自然语言处理標記化(Tokenization)從最高頻率到最低頻率對搭配進行排序。因此，自然语言处理標記化(Tokenization)確定了標題中未提及的關鍵字集，並將最初的想法確定為研究空白 ^[11]。

任務和限制

理論上，NLP是一種很吸引人的人機交互方式。早期的语言处理系统如SHRDLU，当它们处于一个有限的“积木世界”，运用有限的词汇表会话时，工作得相当好。这使得研究员们对此系统相当乐观，然而，当把这个系统拓展到充满了现实世界的含糊与不确定性的环境中时，他们很快丧失了信心。

由於理解（understanding）自然語言，需要關於外在世界的廣泛知識以及運用操作這些知識的能力，自然語言認知，同時也被視為一個人工智慧完備（AI-complete）的問題。同時，在自然語言處理中，“理解”的定義也變成一個主要的問題。

實際問題

一些NLP面臨的問題實例：

句子“我們把香蕉給猴子，因為（牠們）餓了”和“我們把香蕉給猴子，因為（它們）熟透了”有同樣的結構。但是代詞“它們”在第一句中指的是“猴子”，在第二句中指的是“香蕉”。如果不了解猴子和香蕉的屬性，無法區分。（简体中文和英文的它/it沒有區分，但在正體中文裡「牠」和「它」是有區別的，只是代詞在中文裡常常被省略，因此需區別屬性並且標示出來）

不少的中文相關笑話即是利用類似結構的中文造句而成，此類笑話通常帶有“中文博大精深”之類的詞彙，敘述多以老外參加考試為背景。例子如下：

“

某老外苦學漢語10年，到東方參加漢語考試。試題為「請解釋下列句子」：阿呆給長官送紅包時，兩個人的對話頗有意思。長官：「你這是什麼意思？」阿呆：「沒什麼意思，意思意思。」長官：「你這就不夠意思了。」阿呆：「小意思，小意思。」長官：「你這人真有意思。」阿呆：「其實也沒有別的意思。」長官：「那我就不好意思了。」阿呆：「是我不好意思。」

老外淚流滿面，交白卷回國了。

”

自然語言處理研究的難點

單詞的邊界界定

在口語中，詞與詞之間通常是連貫的，而界定字詞邊界通常使用的辦法是取用能讓給定的上下文最為通順且在文法上無誤的一種最佳組合。在書寫上，漢語也沒有詞與詞之間的邊界。

詞義的消歧

許多字詞不單只有一個意思，因而我們必須選出使句意最為通順的解釋。

句法的模糊性

自然語言的文法通常是模稜兩可的，針對一個句子通常可能會剖析（Parse）出多棵分析树（Parse Tree），而我們必須要仰賴語意及前後文的資訊才能在其中選擇一棵最為適合的剖析樹。

有瑕疵的或不規範的輸入

例如語音處理時遇到外國口音或地方口音，或者在文本的處理中處理拼寫，語法或者光學字元識別（OCR）的錯誤。

语言行为与计划

句子常常并不只是字面上的意思；例如，“你能把盐递过来吗”，一个好的回答应当是動手把盐递过去；在大多数上下文环境中，“能”将是糟糕的回答，虽说回答“不”或者“太远了我拿不到”也是可以接受的。再者，如果一门课程去年没开设，对于提问“这门课程去年有多少学生没通过？”回答“去年没开这门课”要比回答“没人没通过”好。

当前自然语言处理研究的发展趋势

第一，传统的基于句法-语义规则的理性主义方法过于复杂，随着语料库建设和语料库语言学的崛起，大规模真实文本的机器学习处理成为自然语言处理的主要选择。

第二，统计数学方法越来越受到重视，自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。

第三，浅层处理与深层处理并重，统计与规则方法并重，形成混合式的系统。

第四，自然语言处理中越来越重视词汇的作用，出现了强烈的“词汇主义”的倾向。词汇知识库的建造成为了普遍关注的问题。^[12]

統計自然語言處理

統計自然語言處理運用了推測學、機率、統計的方法來解決上述，尤其是針對容易高度模糊的長串句子，當套用實際文法進行分析產生出成千上萬筆可能性時所引發之難題。處理這些高度模糊句子所採用消歧的方法通常運用到語料庫（Corpus）以及馬可夫模型（Markov models）。統計自然語言處理的技術主要由同樣自人工智慧下與學習行為相關的子領域：機器學習及資料採掘所演進而成。

主要範疇

文本朗讀（Text to speech）
語音合成（Speech synthesis）
語音識別（Speech recognition）
斷詞／分詞（Text segmentation/Word tokenization）
中文自动分词（Chinese word segmentation）
語法分析／剖析（Syntactic analysis/Parsing）
漢語自動句法分析
詞彙標示框架（Lexical Markup Framework）
n元语法（n-gram）
詞嵌入（Word2vec）
词性标注（Part-of-speech tagging）
文檔分類（Document classification）
自然語言生成（Natural language generation）
文本分类（Text categorization）
信息检索（Information retrieval）
信息抽取（Information extraction）
文字校對（Text-proofing）
問答系統（Question answering）

給一句人類語言的问句，決定其答案。典型問題有特定答案（像是加拿大的首都叫什麼？），但也考慮些開放式問句（像是人生的意義是是甚麼？）

聊天機器人（ChatBot）
对话系统（Dialogue system）
機器翻譯（Machine translation）

將某種人類語言自動翻譯至另一種語言

自動摘要（Automatic summarization）

產生一段文字的大意，通常用於提供已知領域的文章摘要，例如產生報紙上某篇文章之摘要

文字蘊涵（Textual entailment）
命名实体识别（Named entity recognition, NER）
主题模型（Topic Model）
文本情感分析（Sentiment analysis）
語意分析（Semantic analysis）
潛在語義學（Latent Semantic Analysis）
詞袋模型（Bag-of-words model）
標籤雲（Tag Cloud）
自然语言理解（Natural Language Understanding）
形态分析

参见

萬能翻譯機（英语：universal translator）
電腦語言學
受限自然語言
信息抽取
資訊檢索
词嵌入
自然語言理解
潛在語義索引
潜在语义学
隨機文法（英语：Stochastic grammar）
機器記者
寫作自動評分（英语：Automated essay scoring）
生物醫學文件探勘系統（英语：Biomedical text mining）
複合詞處理（英语：Compound term processing）
计算语言学
電腦輔助審查（英语：Computer-assisted reviewing）
深度学习
深度語言處理（英语：Deep linguistic processing）
輔助外文閱讀（英语：Foreign language reading aid）
輔助外文寫作（英语：Foreign language writing aid）
語言科技（英语：Language technology）
隐含狄利克雷分布（LDA）
母语识别（英语：Native-language identification）
自然語言編程（英语：Natural language programming）
自然語言使用者界面（英语：Natural language user interface）
擴展查詢
具體化 (語言學)（英语：Reification (linguistics)）
語義折疊（英语：Semantic folding）
语音处理
口語對話系統（英语：Spoken dialogue system）
校對
文字简化（英语：Text simplification）
Thought vector（英语：Thought vector）
Truecasing（英语：Truecasing）
問答系統
Word2vec
BERT

参考文献

^ Manaris, Bill. Natural Language Processing: A Human-Computer Interaction Perspective. Advances in Computers. 1998, 47: 1–66. doi:10.1016/S0065-2458(08)60665-8.
^ Hutchins, J. The history of machine translation in a nutshell. 2005 [2017-11-13]. （原始内容存档于2018-06-14）. ^{[自述来源]}
^ Goldberg, Yoav (2016). https://www.jair.org/media/4992/live-4992-9623-jair.pdf （页面存档备份，存于互联网档案馆） A Primer on Neural Network Models for Natural Language Processing. Journal of Artificial Intelligence Research 57 (2016) 345–420
^ Ian Goodfellow, Yoshua Bengio and Aaron Courville. http://www.deeplearningbook.org/ （页面存档备份，存于互联网档案馆） Deep Learning]. MIT Press.
^ Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, and Yonghui Wu (2016). https://arxiv.org/abs/1602.02410 （页面存档备份，存于互联网档案馆） Exploring the Limits of Language Modeling
^ Do Kook Choe and Eugene Charniak (EMNLP 2016). http://www.aclweb.org/website/old_anthology/D/D16/D16-1257.pdf （页面存档备份，存于互联网档案馆） Parsing as Language Modeling
^ Vinyals, Oriol, et al. (NIPS2015). https://papers.nips.cc/paper/5635-grammar-as-a-foreign-language.pdf （页面存档备份，存于互联网档案馆）
^ DeepMind, Match 1 - Google DeepMind Challenge Match: Lee Sedol vs AlphaGo, 2016-03-08 [2017-03-09], （原始内容存档于2017-03-29）
^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia. Attention Is All You Need. 2017. doi:10.48550/arXiv.1706.03762.
^ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2018. doi:10.48550/arXiv.1810.04805.
^ Li(2021)Building Updated Research Agenda by Investigating Papers Indexed on Google Scholar: A Natural Language Processing Approach, Advances in Intelligent Systems and Computing book series, volume 1213, pp 298-305
^ 存档副本 (PDF). [2016-01-03]. （原始内容 (PDF)存档于2021-05-04）.

延伸閱讀

Bates, M. Models of natural language understanding. Proceedings of the National Academy of Sciences of the United States of America. 1995, 92 (22): 9977–9982. doi:10.1073/pnas.92.22.9977.
Steven Bird, Ewan Klein, and Edward Loper (2009). Natural Language Processing with Python. O'Reilly Media. ISBN 978-0-596-51649-9.
Daniel Jurafsky and James H. Martin (2008). Speech and Language Processing, 2nd edition. Pearson Prentice Hall. ISBN 978-0-13-187321-6.
Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze (2008). Introduction to Information Retrieval. Cambridge University Press. ISBN 978-0-521-86571-5. Official html and pdf versions available without charge. （页面存档备份，存于互联网档案馆）
Christopher D. Manning and Hinrich Schütze (1999). Foundations of Statistical Natural Language Processing. The MIT Press. ISBN 978-0-262-13360-9.
David M. W. Powers and Christopher C. R. Turk (1989). Machine Learning of Natural Language. Springer-Verlag. ISBN 978-0-387-19557-5.

外部連結

人類語言技術當前發展情況概覽
哥倫比亞大學自然語言處理研究組（页面存档备份，存于互联网档案馆）
卡内基梅隆大学語言技術研究院（页面存档备份，存于互联网档案馆）
斯坦福大學自然語言處理研究小組（页面存档备份，存于互联网档案馆）
中文自然語言處理開放平臺（页面存档备份，存于互联网档案馆）
ACL（美國電腦語言學協會）提供的相關雜誌以及研討會的論文
GATE: a Java Library for Text Engineering （页面存档备份，存于互联网档案馆）
LTP:语言技术平台（简体中文）
Python編程語言的自然語言處理工具包教程（页面存档备份，存于互联网档案馆）
fastNLP （页面存档备份，存于互联网档案馆）

[1] Manaris, Bill. Natural Language Processing: A Human-Computer Interaction Perspective. Advances in Computers. 1998, 47: 1–66. doi:10.1016/S0065-2458(08)60665-8.

[2] Hutchins, J. The history of machine translation in a nutshell. 2005 [2017-11-13]. （原始内容存档于2018-06-14）. ^{[自述来源]}

[goldberg:nnlp17-3] Goldberg, Yoav (2016). https://www.jair.org/media/4992/live-4992-9623-jair.pdf （页面存档备份，存于互联网档案馆） A Primer on Neural Network Models for Natural Language Processing. Journal of Artificial Intelligence Research 57 (2016) 345–420

[goodfellow:book16-4] Ian Goodfellow, Yoshua Bengio and Aaron Courville. http://www.deeplearningbook.org/ （页面存档备份，存于互联网档案馆） Deep Learning]. MIT Press.

[jozefowicz:lm16-5] Rafal Jozefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, and Yonghui Wu (2016). https://arxiv.org/abs/1602.02410 （页面存档备份，存于互联网档案馆） Exploring the Limits of Language Modeling

[choe:emnlp16-6] Do Kook Choe and Eugene Charniak (EMNLP 2016). http://www.aclweb.org/website/old_anthology/D/D16/D16-1257.pdf （页面存档备份，存于互联网档案馆） Parsing as Language Modeling

[vinyals:nips15-7] Vinyals, Oriol, et al. (NIPS2015). https://papers.nips.cc/paper/5635-grammar-as-a-foreign-language.pdf （页面存档备份，存于互联网档案馆）

[8] DeepMind, Match 1 - Google DeepMind Challenge Match: Lee Sedol vs AlphaGo, 2016-03-08 [2017-03-09], （原始内容存档于2017-03-29）

[9] Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia. Attention Is All You Need. 2017. doi:10.48550/arXiv.1706.03762.

[10] Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2018. doi:10.48550/arXiv.1810.04805.

[11] Li(2021)Building Updated Research Agenda by Investigating Papers Indexed on Google Scholar: A Natural Language Processing Approach, Advances in Intelligent Systems and Computing book series, volume 1213, pp 298-305

[12] 存档副本 (PDF). [2016-01-03]. （原始内容 (PDF)存档于2021-05-04）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

查论编自然语言处理
一般术语	语料库口语语料库停用词词袋完全人工智慧（英语：AI-complete） n元语法（双字母组、三元语法（英语：Trigrams））
文本挖掘	文本分割词性标注（英语：Part-of-speech tagging）拆句处理（英语：Shallow parsing）复合词处理（英语：Compound term processing）搭配提取（英语：Collocation extraction）词干提取词形还原命名实体识别指代文本情感分析概念挖掘（英语：Concept mining）语法分析词义消歧术语提取（英语：Terminology extraction）真实大小写处理（英语：Truecasing）
自动摘要（英语：Automatic summarization）	多文档摘要（英语：Multi-document summarization）句子抽取（英语：Sentence extraction）文本简化（英语：Text simplification）
分佈語義（英语：Distributional semantics）模型	潜在语义学 Seq2Seq模型 Word2vec 語言模型大型语言模型基础模型 LLaMA ChatGPT GPT-4 文心一言词嵌入
机器翻译	電腦輔助翻譯基于实例（英语：Example-based machine translation）基于规则（英语：Rule-based machine translation）
自动识别与数据采集	语音识别语音合成光学字符识别自然语言生成提示工程
主题模型	弹珠分布（英语：Pachinko allocation）隐含狄利克雷分布潜在语义索引
计算机辅助审查（英语：Computer-assisted reviewing）	自动作文评分（英语：Automated essay scoring）语料库检索工具（英语：Concordancer）文法检查器（英语：Grammar checker）预测文本（英语：Predictive text）拼寫檢查语法猜测（英语：Syntax guessing）
自然语言用户界面（英语：Natural language user interface）	自动在线助手聊天機器人文字冒险游戏問答系統

查论编计算机科学的主要领域
注：该模板大致遵循ACM 电脑分类系统。
计算机硬件	印刷电路板外部设备集成电路超大规模集成电路绿色计算電子設計自動化
系统架构组织	電腦系統架構嵌入式系统实时计算
网络	网络传输协议路由网络拓扑网络服务
软件组织	直譯器中间件虛擬機器操作系统软件质量
软件符号和工具	编程范型编程语言編譯器领域特定语言軟體框架集成开发环境软件配置管理函式庫
软件开发	软件开发过程需求分析软件设计软件部署軟體維護开源模式
计算理论	自动机可计算性理论計算複雜性理論量子计算数值计算方法计算机逻辑形式语义学
算法	算法分析算法设计算法效率随机化算法计算几何
计算数学	离散数学信息与计算科学统计学数学软件数理逻辑集合论数论图论类型论范畴论信息论数值分析数学分析
信息系统	数据库管理系统電腦數據企业信息系统社会性软件地理信息系统决策支持系统过程控制数据挖掘數位圖書館系统平台數位行銷万维网信息檢索
安全	密码学形式化方法入侵检测系统网络安全信息安全
人机交互	计算机辅助功能用户界面可穿戴计算机普适计算虚拟现实聊天機器人
并发性	并发计算并行计算分布式计算多线程多元處理
人工智能	自动推理计算语言学计算机视觉进化计算专家系统自然语言处理机器人学
机器学习	監督式學習無監督學習强化学习交叉驗證
计算机图形学	计算机动画可视化渲染修飾照片圖形處理器混合现实虚拟现实图像处理图像压缩实体造型
应用计算	电子商务企业级软件计算数学计算物理学计算化学计算生物学計算社會科學医学信息学数字艺术電子出版網絡戰电子游戏文字处理器運籌學教育技术学生物信息学认知科学文件管理系统（英语：Document management system）
分类主题专题维基共享