深入理解 NLP 的中文分词:从原理到实践

你会学到什么?

中文分词经历了20多年的发展,从最开始的蛮荒阶段,到现在的趋于成熟,过程中克服了种种艰难险阻,产生了大量思想和方法,我会取其精华,并深入浅出地讲述给大家,大家会学到:

  1. 少量的中文语言学,帮助理解中文分词所要面对的难题
  2. Python的编程知识,用于算法的实践和开源项目的源码讲解
  3. 统计学和信息论,中文分词的算法里使用了很多这两方面的知识
  4. 机器学习知识,主要涉及HMM、CRF、Word2vec等模型
  5. 业务案例分析,结合实际业务场景,介绍各种解决方案

课程简介

随着人工智能技术的发展,越来越多的互联网公司开始重视机器学习在其业务中的价值。就拿近些年大火的字节跳动来说,其旗下的今日头条、抖音、西瓜视频,都是依靠着其强大的智能推荐系统,将海量的内容以个性化的方式分发给用户,最终赢得了大量的忠实用户,这背后自然是离不开NLP的功劳。

NLP是Natural Language Processing的缩写,中文意思是自然语言处理,是人工智能的一个子领域。由于深度学习的发展,机器在图像识别、语音识别方面已经取得了巨大的进步,达到了惊人的准确率。而让机器能够理解人类语言的这个问题上,还有很大的发展空间,所以掌握NLP的基础知识就非常有必要。

在中文的语言环境里,中文分词是NLP最基础,也是最核心的问题,几乎影响着所有NLP任务最后结果的质量。想必做过全文搜索、关键词挖掘的同学,都切身的感受过中文分词那满满的恶意,大量的专有名词切分不出来,或者切分出来很多的歧义词。这时候只能是无奈的手动一个一个往分词词典里添加或者调整词频,但这样不仅耗时耗力,而且治标不治本,无法跟上业务的发展速度。

本小册的核心是希望通过深入讲解中文分词的原理及实践经验,来帮助大家彻底掌握中文分词技术,以便能够灵活应对各种分词难题。同时中文分词背后所涉及到的算法和模型,都是机器学习最重要的基础,有助于大家从事其它机器学习的相关工作。

课程目录

开篇:深入理解中文分词原理及实现的意义
已学完
基础知识:中文分词的四大难题
基础知识:N-Gram简单易懂的切词法
已学完
基础知识:解决中文分词歧义问题(上)
基础知识:解决中文分词歧义问题(下)
基础知识:解决未登录词问题(上)
基础知识:解决未登录词问题(下)
进阶知识:HMM — 隐马尔可夫模型
进阶知识:CRF — 条件随机场(上)
进阶知识:CRF — 条件随机场(下)
应用实践:中文分词评测方法
应用实践:jieba — 使用说明
应用实践:jieba — 源码分析(上)
应用实践:jieba — 源码分析(中)
应用实践:jieba — 源码分析(下)
业务案例:关键词挖掘
业务案例:文本相似度
业务案例:自动摘要
彩蛋:Word2vec
后记:终有一天,你会为今天的努力而感到骄傲

讲师介绍

周兴博,互联网行业十年从业者,出于对全栈工程师头衔的渴望,从事过多种技术岗位,信息安全、基础网络服务、服务端架构、机器学习、NLP等,积累了丰富的经验,对各种技术有着深刻理解,熟练使用Python,Golang,Java等开发语言,在亿级日活的互联网公司设计并开发过搜索系统、推荐系统。

(0)
上一篇 2023年4月9日 下午12:11
下一篇 2023年5月9日 上午9:33

相关推荐

发表回复

登录后才能评论