最新消息:20210917 已从crifan.com换到crifan.org

【整理】ML NLP DL 常见词汇 术语 概念 逻辑

逻辑 crifan 669浏览 0评论
TODO:
  • fxsjy/jieba: 结巴中文分词

【聚类】
  • 属于:统计数据分析的一门技术
  • 含义:
    • 相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset)
    • 让在同一个子集中的成员对象都有相似的一些属性
      • 常见的包括在坐标系中更加短的空间距离等
  • 应用领域
    • 机器学习
    • 数据挖掘
    • 模式识别
    • 图像分析
    • 生物信息
  • 应用举例
    • 商务上,帮助市场分析人员从客户基本库中发现不同的客户群,用购买模式来刻画不同的客户群的特征
    • 生物学上,推导植物和动物的分类,对基因进行分类,获得对种群中固有结构的认识
    • 地球观测数据库中相似地区的确定
    • 汽车保险单持有者的分组
    • 根据房子的类型、价值和地理位置对一个城市中房屋的分组
    • 对Web上的文档进行分类,以发现信息
  • 常见算法
    • K-means聚类算法
【NLP vs NLU vs ASR】
NLP=Natural Language Processing
NLU=Natural Language Understanding
NLU相关任务:
【神经网络】
  • 别名:人工神经网络
  • 起源:20 世纪 50 年代的监督式机器学习模型
  • 核心思路:
    • 模拟人脑结构,构思了感知器(perceptron)的想法
      • 该领域的研究者通常称为:联结主义者(Connectionist)
  • 训练方式
    • 通过反向传播算法应用梯度下降训练的
  • 类型
    • 监督学习
      • 前馈神经网络
        • 卷积神经网络 CNN
        • 循环神经网络 RNN
          • 长短期记忆 LSTM
          • 门控循环单元 GRU
    • 无监督学习
      • 自动编码器
      • 生成对抗网络 GAN
  • 相关
    • 深度学习是一种主要应用于神经网络帮助其取得更好结果的技术
【动态规划】
  • 别称:动态优化
  • 含义:把原复杂问题分解为相对简单的子问题
    • 的方式求解复杂问题的方法
      • 只解决一次子问题并存储它的解决方案(solution)
      • 下一次遇到同样的子问题时,无需重新计算它的解决方案,而是简单地查找先前计算的解决方案,从而节省计算时间
  • 应用领域
    • 数学
    • 管理科学
    • 计算机科学
    • 经济学
    • 生物信息学
  • 适用于问题类型
    • 有最优子结构(Optimal Substructure)
    • 重叠子问题(Overlapping Subproblems)
【词法分析】
  • 含义:
    • 一个过程
      • 字符序列 -》 标记序列
  • 相关
    • 词法分析器:进行词法分析的程序或者函数
      • 别名:扫描器
      • 存在形式:函数
      • 用途:供(后续的)语法分析器调用
【过拟合】
  • 含义:是指为了得到一致假设而使假设变得过度严格
  • 相关
    • 避免过拟合是分类器设计中的一个核心任务
    • 常见做法
      • 增大数据量和测试样本集的方法对分类器性能进行评价
【知识图谱】
  • 本质
    • 语义网络
      • 一种基于图的数据结构
        • 组成
          • 节点=Point
            • 现实世界中存在的“实体”
          • 边=Edge
            • 实体与实体之间的“关系”
    • 通俗地讲
      • 把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络
  • 思路
    • 从“关系”的角度去分析问题
  • 历史
    • 提出概念:Google
  • 目的
    • 优化搜索引擎
      • 之前:传统搜索引擎:基于关键词搜索
      • 优化后:基于知识图谱
        • 从语义层面理解用户意图,改进搜索质量
          • 更好地查询复杂的关联信息
        • 举例
          • 输入:Google搜 Bill Gates
          • 输出:
            • 搜索结果页面的右侧显示相关的信息
              • 比如
                • 出生年月,家庭情况
  • 应用
    • 是关系的最有效的表示方式
【MT=机器翻译】
  • 利用机器的力量
    • 自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)
  • 方法
    • 三大类
      • RBMT=基于规则的机器翻译
      • SMT=统计机器翻译
      • NMT=神经机器翻译
【IR=信息检索】
  • 基于用于查询检索信息的任务。
  • 流行的信息检索模型
    • 布尔模型
    • 向量空间模型
    • 概率模型
    • 语言模型
  • 典型应用
    • 搜索引擎
【ASR=Automatic Speech Recognition=语言识别=自动语言识别】
  • 又称
    • 语音识别=Speech Recognition
    • 计算机语音识别=Computer Speech Recognition
  • 一句话描述:将口头语音转换为实时可读文本的技术
  • 特点
    • 多学科交叉的领域
      • 声学
      • 语音学
      • 语言学
      • 数字信号处理理论
      • 信息论
      • 计算机科学
    • 语音信号
      • 多样性
      • 复杂性
  • 现状
    • 只能在一定的限制条件下获得满意的性能
      • 只能应用于某些特定的场合
  • 地位
    • 在人工智能领域占据着极其重要的位置
【CV=Computer Vision=计算机视觉】
  • -》cv领域=计算机视觉领域
    • 一句话总结:机器感知环境的能力
    • 经典任务
      • 图像形成
      • 图像处理
      • 图像提取
      • 图像三维推理
    • 典型研究领域
      • 目标识别
      • 面部识别
【corpus 语料库】
【CWS】
【pos=POS=Part-Of-Speech=词性】
举例:
  • 词性标注=POS tagging
  • 词性还原
【EOS=End Of Sentence=句尾=句末】
【BOW=bag-of-word=词袋】
【One Hot Encoding=独热编码】
【FM算法=Factorization Machine算法=因子分解机算法】
【未登录词】
jieba中文分词中说的:OOV
【分词期间的位置状态标记】
  • BEMS
    • B是开始begin位置
    • E是end, 是结束位置
    • M是middle, 是中间位置
    • S是single, 单独成词的位置
【长距离依赖】
  • 又称
    • 长距离调序
  • 含义
    • 在机器翻译中,比如中英文翻译,其语言结构差异比较大,词语顺序存在全局变化,不容易被捕捉
【正则化】
  • 当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;
    • 而测试误差会先减小,达到最小值后又增大。
  • 当选择的模型复杂度过大时,过拟合现象就会发生。
  • 这样,在学习时就要防止过拟合。进行最优模型的选择
    • 即选择复杂度适当的模型,以达到使测试误差最小的学习目的

参考资料:
WordNet Interface
NLP Lemmatisation(词性还原) 和 Stemming(词干提取) NLTK pos_tag word_tokenize – 心之所向 – CSDN博客
NLP vs. NLU: from Understanding a Language to Its Processing
K-means聚类算法研究

转载请注明:在路上 » 【整理】ML NLP DL 常见词汇 术语 概念 逻辑

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
97 queries in 0.197 seconds, using 23.38MB memory