深入理解NLP的中文分词：从原理到实践-nigaeanigaea

你会学到什么？

中文分词经历了20多年的发展，从最开始的蛮荒阶段，到现在的趋于成熟，过程中克服了种种艰难险阻，产生了大量思想和方法，我会取其精华，并深入浅出地讲述给大家，大家会学到：

少量的中文语言学，帮助理解中文分词所要面对的难题
Python的编程知识，用于算法的实践和开源项目的源码讲解
统计学和信息论，中文分词的算法里使用了很多这两方面的知识
机器学习知识，主要涉及HMM、CRF、Word2vec等模型
业务案例分析，结合实际业务场景，介绍各种解决方案

课程简介

随着人工智能技术的发展，越来越多的互联网公司开始重视机器学习在其业务中的价值。就拿近些年大火的字节跳动来说，其旗下的今日头条、抖音、西瓜视频，都是依靠着其强大的智能推荐系统，将海量的内容以个性化的方式分发给用户，最终赢得了大量的忠实用户，这背后自然是离不开NLP的功劳。

NLP是Natural Language Processing的缩写，中文意思是自然语言处理，是人工智能的一个子领域。由于深度学习的发展，机器在图像识别、语音识别方面已经取得了巨大的进步，达到了惊人的准确率。而让机器能够理解人类语言的这个问题上，还有很大的发展空间，所以掌握NLP的基础知识就非常有必要。

在中文的语言环境里，中文分词是NLP最基础，也是最核心的问题，几乎影响着所有NLP任务最后结果的质量。想必做过全文搜索、关键词挖掘的同学，都切身的感受过中文分词那满满的恶意，大量的专有名词切分不出来，或者切分出来很多的歧义词。这时候只能是无奈的手动一个一个往分词词典里添加或者调整词频，但这样不仅耗时耗力，而且治标不治本，无法跟上业务的发展速度。

本小册的核心是希望通过深入讲解中文分词的原理及实践经验，来帮助大家彻底掌握中文分词技术，以便能够灵活应对各种分词难题。同时中文分词背后所涉及到的算法和模型，都是机器学习最重要的基础，有助于大家从事其它机器学习的相关工作。

课程目录

开篇：深入理解中文分词原理及实现的意义
已学完
基础知识：中文分词的四大难题
基础知识：N-Gram简单易懂的切词法
已学完
基础知识：解决中文分词歧义问题（上）
基础知识：解决中文分词歧义问题（下）
基础知识：解决未登录词问题（上）
基础知识：解决未登录词问题（下）
进阶知识：HMM — 隐马尔可夫模型
进阶知识：CRF — 条件随机场（上）
进阶知识：CRF — 条件随机场（下）
应用实践：中文分词评测方法
应用实践：jieba — 使用说明
应用实践：jieba — 源码分析（上）
应用实践：jieba — 源码分析（中）
应用实践：jieba — 源码分析（下）
业务案例：关键词挖掘
业务案例：文本相似度
业务案例：自动摘要
彩蛋：Word2vec
后记：终有一天，你会为今天的努力而感到骄傲

讲师介绍

周兴博，互联网行业十年从业者，出于对全栈工程师头衔的渴望，从事过多种技术岗位，信息安全、基础网络服务、服务端架构、机器学习、NLP等，积累了丰富的经验，对各种技术有着深刻理解，熟练使用Python，Golang，Java等开发语言，在亿级日活的互联网公司设计并开发过搜索系统、推荐系统。

深入理解 NLP 的中文分词：从原理到实践

你会学到什么？

课程简介

课程目录

讲师介绍

发表回复

深入理解 NLP 的中文分词：从原理到实践

你会学到什么？

课程简介

课程目录

讲师介绍

相关推荐

发表回复