终于到了👴自己的4.5学分专业课了。 痛苦。 所以这门课到底在讲什么?
一些定义
- NLP:一门以计算机为手段,通过建立语言现象的计算模型对自然语言进行研究和处理的学科
- 学术会议不接受语言起源的论文(因为无法证明)
- 语言和言语:个别和一般
- 言语:说话的行为,具体的话
- 语言:从言语概括出来的综合,约定俗成的体系
- 语言符号性
- 符号
- 能指(指代物)是所指(被指物)的符号
语言的主要性质
- 任意性:约定俗成
- 稳定性:短期,局部
- 渐变性:长期,全局
- 线性:书写口述理解都有先后
语言符号
- 音义结合的统一体
- 来自社会约定俗成
语言系统
- 组合关系-横向句子
- 聚合关系-纵向,互可替换的语言单位
文字
起源于图画
- 表意文字:不能存在
- 表音文字:拼音文字
- 意音文字
汉字:
- 词语文字
- 意音文字
- 语素文字
- 不是象形或表意文字
语法单位
- 句子
- 词组
- 词
- 语素
汉语的语法基于语序和虚词
语料库
- 自然语言的采样
- 大量的文本,通常经过整理,具有既定格式与标记
分类
- 共时语料库与历时语料库
- 共时研究一个平面
- 通用语料库与专用语料库
加工
- 杂质过滤
- 大小写
- 标记化
- 句子边界
- 格式标注
- 数据标注
统计
- 频率方法
- 均值和方差
Zipf
语料库中某个词的词频和它的词频排序有关系
粗糙的特性。
频率方法
如果两个词在一起出现很多次,它们很有可能是搭配;然而仅仅选择最频繁出现的二元组,结果并不 理想。因此需要设置一定的词性过滤器来进行过滤。
均值和方差方法
考虑 两个词之间距离变量的方差和均值,如果方差较小,那么它们很可经常一起出现。
句子对齐
- 句子对齐就是给定双语文本S,T,获取一个句珠序列的问题
- 最小、唯一、无交叉
基于长度
基本思想:源语言和目标的句子长度存在一定关系
构造随机变量X:S中任意字符在T中对应的字符数。X服从正态分布,期望为c,方差
从而构造随机变量来度量双语中句子长度的关系。
- 不依赖具体的语言
- 速度快
- 效果好
词法分析
分词
基础问题
分词歧义
- 交集型切分歧义:AJB待切分,但是AJ和JB都成词
- 组合型切分歧义:AB待切分,但A,B,AB都成词
分词质量评价
- 准确率precision
- 召回率recall
- F评价
基于词典和匹配
- FMM/BMM正反向最大匹配
- 双向最大匹配:结合FMM与BMM的结果
- 最少分词法:分词结果中含词数最少;等价于最短路径。DP。
提高性能:
- 增加知识、局部修改(增加歧义词表,排歧规则)