光學字元辨識

可攜式掃描器利用光學字元辨識，將紙本資料紀錄至電腦的過程

光学字符识别（英語：Optical Character Recognition，縮寫：OCR）是指对包含文本内容的图像或视频进行处理和识别，并提取其中所包含的文字及排版信息的过程。例如，一个常见的应用是将包含文档图像的不可编辑状态的 PDF 文档通过 OCR 技术识别后，转换为可编辑状态的 Word 格式文档^[1]。

通常来说，根据不同文本内容的特性而言，OCR 技术的应用场景大致可分为以下几类：

印刷文本识别：印刷文本通常指报刊、杂志、文档、小票等使用现代计算机字体编排并印刷的文本内容。这类文本内容通常具有清晰一致的字体、间距等，因此识别技术相对成熟，并被广泛应用于纸质档案、报刊的数字化上^[2]。
手写文本识别：相较于具有固定字体的印刷文本而言，手写文本往往根据不同的书写者以及书写工具会具有极大的变化，因此其识别难度相较于印刷文本而言要更高。手写体识别可以帮助用户快速将手写的笔记内容数字化输入到计算机中，也被用在一些电子备忘录中来对用户的手写笔记内容进行检索^[3]。此外，由手写文本识别进一步衍生的一个应用则是签名笔迹认证，这类方法用于比对签名的真实性。
公式文本识别：数学公式通常由大量符号及数字组成，由于根式，分式等规则的存在，数学公式往往存在二维结构，即并不能保证识别的顺序一定符合固定的阅读顺序。因此，数学公式的 OCR 模型往往显著有别于常规的自然语言文本 OCR 处理技术。通常来说，数学公式的 OCR 识别需要借助使用 LaTeX 等结构化的文档标记语言来实现，即，OCR 给出的输出是一组 LaTeX 标记符号^[4]。
场景文本识别：场景文本识别，有时也被称作通用文本识别技术。这类识别技术能够对任意场景下的图片中包含的任意形式的文本进行识别，包括但不仅限于：街边商铺的招牌、超市内商品中的文本、合影中人物衣着上的文本、城市建筑上的商标名称等等。这类技术已经被应用到了许多应用中，例如智能手机中允许搜索或提取相册中带有文本内容的图像^[5]^[6]，聊天软件中允许直接复制对方发送图片中的文本内容等^[7]。
古籍文本识别：古籍文档与现代印刷的排版和布局通常具有很大的差别，例如，阅读顺序可能自上而下，自右向左等。因此，使用基于现代文档数据开发的 OCR 技术和模型在包含这些内容的图像上的识别效果往往不够好。因此，在对大量古籍进行数字化保护的过程中，催生了专门针对该类型文档内容进行识别的 OCR 技术^[8]。

过程

输入

对于不同的图像格式，有着不同的存储格式、不同的压缩方式，目前有OpenCV、CxImage等。

前期处理

二值化

如今数码摄像头拍摄的图片，大多数是彩色图像，彩色图像所含信息量巨大，较为不适用于OCR技术。

对于图片的内容，我们可以简单的分为前景与背景，为了让计算机更快的、更好地进行OCR相关计算，我们需要先对彩色图进行处理，使图片只剩下前景信息与背景信息。二值化也可以简单地将其理解为“黑白化”。

图像降噪

对于不同的图像，噪点的定义可能不同，根据噪点的特征进行去噪的过程，稱為降噪。

倾斜校正

由于一般用户，在拍照文档时，难以拍摄得完全符合水平平齐与竖直平齐，因此拍照出来的图片不可避免的产生倾斜，这就需要图像处理软件进行校正。

中期处理

版面分析

将文档图片分段落，分行的过程稱為版面分析，由于实际文档的多样性、复杂性，此步骤目前仍待优化。

字符切割

由于拍照、书写条件的限制，经常造成字符粘连、断笔，直接使用此类图像进行OCR分析将会极大限制OCR性能。因此需要进行字符切割，即：将不同字符之间分割开。

字符识别

早期以模板匹配为主，后期以特征提取为主。由于文字的位移、笔画的粗细、断笔、粘连、旋转等因素的影响，极大地影响特征提取难度。

版面還原

人们希望识别后的文字，仍然像原始文档图片那样排列，段落、位置、顺序不变地输出到Word文档、PDF文档等，这一过程稱為版面还原。

后期处理

根据特定的语言上下文的关系，对识别结果进行校正。

输出

将识别出的字符以某一格式的文本输出。

发展历史

OCR的概念是在1929年由德国科学家Tausheck最先提出来，并申请了专利。^{[來源請求]}后来美国科学家Handel也提出了利用技术对文字进行识别的想法。^{[來源請求]}中国最早的OCR商业应用是由科学家王庆人教授在南开大学开发出来的，并在美国市场投入商业使用。^{[來源請求]}日本在20世纪60年代开始研究OCR识别理论，开发了邮政编码识别系统。^{[來源請求]}

主流实现

CNN+RNN+CTC^[9]
CNN+RNN 基于 Attention ^[10]的方法。

参考来源

^ 什么是OCR？如何使用OCR文字识别软件？_文本_文件_图片. www.sohu.com. [2023-10-06].
^ 人工智能技术在档案OCR工作中的应用. app.yunxiqu.gov.cn. [2023-10-06].
^ 手写笔记软件评测Notability、GoodNotes、MarginNote、OneNote_支持_功能_编辑器. www.sohu.com. [2023-10-06].
^ Synced. ‘Snip’ Converts Math Screenshots Into LaTeX | Synced. syncedreview.com. 2019-04-09 [2023-10-06]. （原始内容存档于2023-03-23）（美国英语）.
^ Google 相册现在能让你搜索照片里的文字. 爱范儿. 2019-08-23 [2023-10-06]. （原始内容存档于2022-12-08）（中文（中国大陆））.
^ 瘋先生. iOS 15原況文字怎麼用？教你6招iPhone相機實現OCR文字辨識 - 瘋先生. mrmad.com.tw. 2021-06-11 [2023-10-06]. （原始内容存档于2022-04-05）（中文（臺灣））.
^ 虽迟但到，微信也可以「提取图片内文字」了？. 爱范儿. 2021-03-23 [2023-10-06]. （原始内容存档于2022-11-29）（中文（中国大陆））.
^ 繁体字识别_应用_技术_古籍. www.sohu.com. [2023-10-06].
^ 存档副本. [2018-02-19]. （原始内容存档于2018-02-19）.
^ 存档副本 (PDF). [2018-02-19]. （原始内容存档 (PDF)于2018-03-04）.

[1] 什么是OCR？如何使用OCR文字识别软件？_文本_文件_图片. www.sohu.com. [2023-10-06].

[2] 人工智能技术在档案OCR工作中的应用. app.yunxiqu.gov.cn. [2023-10-06].

[3] 手写笔记软件评测Notability、GoodNotes、MarginNote、OneNote_支持_功能_编辑器. www.sohu.com. [2023-10-06].

[4] Synced. ‘Snip’ Converts Math Screenshots Into LaTeX | Synced. syncedreview.com. 2019-04-09 [2023-10-06]. （原始内容存档于2023-03-23）（美国英语）.

[5] Google 相册现在能让你搜索照片里的文字. 爱范儿. 2019-08-23 [2023-10-06]. （原始内容存档于2022-12-08）（中文（中国大陆））.

[6] 瘋先生. iOS 15原況文字怎麼用？教你6招iPhone相機實現OCR文字辨識 - 瘋先生. mrmad.com.tw. 2021-06-11 [2023-10-06]. （原始内容存档于2022-04-05）（中文（臺灣））.

[7] 虽迟但到，微信也可以「提取图片内文字」了？. 爱范儿. 2021-03-23 [2023-10-06]. （原始内容存档于2022-11-29）（中文（中国大陆））.

[8] 繁体字识别_应用_技术_古籍. www.sohu.com. [2023-10-06].

[9] 存档副本. [2018-02-19]. （原始内容存档于2018-02-19）.

[10] 存档副本 (PDF). [2018-02-19]. （原始内容存档 (PDF)于2018-03-04）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

查论编自然语言处理
一般术语	语料库口语语料库停用词词袋完全人工智慧（英语：AI-complete） n元语法（双字母组、三元语法（英语：Trigrams））
文本挖掘	文本分割词性标注（英语：Part-of-speech tagging）拆句处理（英语：Shallow parsing）复合词处理（英语：Compound term processing）搭配提取（英语：Collocation extraction）词干提取词形还原命名实体识别指代文本情感分析概念挖掘（英语：Concept mining）语法分析词义消歧术语提取（英语：Terminology extraction）真实大小写处理（英语：Truecasing）
自动摘要（英语：Automatic summarization）	多文档摘要（英语：Multi-document summarization）句子抽取（英语：Sentence extraction）文本简化（英语：Text simplification）
分佈語義（英语：Distributional semantics）模型	潜在语义学 Seq2Seq模型 Word2vec 語言模型大型语言模型基础模型 LLaMA ChatGPT GPT-4 文心一言词嵌入
机器翻译	電腦輔助翻譯基于实例（英语：Example-based machine translation）基于规则（英语：Rule-based machine translation）
自动识别与数据采集	语音识别语音合成光学字符识别自然语言生成提示工程
主题模型	弹珠分布（英语：Pachinko allocation）隐含狄利克雷分布潜在语义索引
计算机辅助审查（英语：Computer-assisted reviewing）	自动作文评分（英语：Automated essay scoring）语料库检索工具（英语：Concordancer）文法检查器（英语：Grammar checker）预测文本（英语：Predictive text）拼寫檢查语法猜测（英语：Syntax guessing）
自然语言用户界面（英语：Natural language user interface）	自动在线助手聊天機器人文字冒险游戏問答系統

查论编紙式資料儲存（英语：Paper data storage）媒體
古代	在莎草纸上写作 (c.3000 BCE) 纸 (105 CE)
近代	穿孔纸带 (1846) 书形乐曲（英语：Book music） (1863) 电报纸条（英语：Ticker tape） (1867) 钢琴卷帘（英语：Piano roll） (1880s) 打孔卡 (1890) 边缘穿孔卡（英语：Edge-notched card） (1896) 光學劃記符號辨識 (1930s) 光学字符识别 (1929) 条形码 (1948) 纸制光盘（英语：Paper disc） (2004)

规范控制数据库
各地	法国 2 BnF data 2 德国以色列美国捷克
学术	AAT
其他	IdRef 2