nlp中⽂⽂本纠错_常见30种NLP任务的练⼿项⽬
经常有⼈问我:⽼⼤让我完成xxx,我不会,他也不会,但是很着急。这个任务怎么实现啊?这个任务需要什么技术啊?这种情况我遇到有100+次了,⽽且很多时候问得问题跟具体需要简直是驴唇不对马嘴。所以今天整理了常见的30种NLP任务⾮常适合练⼿的Project,我觉得有俩作⽤:研究+练⼿,加深理解,做到更专业;收藏起来,以备不时之需,不敢保证涵盖⼯业界所有NLP业务场景,但是涵盖95+%以上是完全没问题的。
华硕中国⾸先声明下,今天发的这些Project都是类似论⽂实现那样的demo级的,也不是传统的⼯程实现,⽤的⽅法⼀般⽐⼯业界的⾼端,⾮常适合练⼿⽤。
1.分词 Word Segmentation日语输入
chqiwang/convg ,基于CNN做中⽂分词,提供数据和代码。
对应的论⽂Convolutional Neural Network with Word Embeddings for Chine Word Segmentation IJCNLP2017.
2.词预测 Word Prediction
平安树的养殖方法和注意事项Kyubyong/word_prediction ,基于CNN做词预测,提供数据和代码。
3. ⽂本蕴涵 Textual Entailment感染的近义词
Steven-Hewitt/Entailment-with-Tensorflow,基于Tensorflow做⽂本蕴涵,提供数据和代码。
4. 语⾳识别 Automatic Speech Recognition
buriburisuri/speech-to-text-wavenet,基于DeepMind WaveNet和Tensorflow做句⼦级语⾳识别。
5. ⾃动摘要 Automatic Summarisation
PKULCWM/PKUSUMSUM,北⼤万⼩军⽼师团队的⾃动摘要⽅法汇总,包含了他们⼤量paper的实现,⽀持单⽂档摘要、多⽂档摘要、topic-focud多⽂档摘要。
6. ⽂本纠错 Text Correct
atpaino/deep-text-corrector,基于深度学习做⽂本纠错,提供数据和代码。
7.字⾳转换 Grapheme to Phoneme
cmusphinx/g2p-q2q,基于⽹红transformer做, 提供数据和代码。
8. 复述检测 Paraphra Detection 和 问答 Question Answering
Paraphra-Driven Learning for Open Question Answering, 基于复述驱动学习的开放域问答。
9. ⾳汉互译 Pinyin-To-Chine
Kyubyong/neural_chine_transliterator,基于CNN做⾳汉互译。
10. 情感分析 Sentiment Analysis
11. ⼿语识别 Sign Language Recognition
Home - SignAll, 该项⽬在⼿语识别做的⾮常成熟。
12 - 16. 词性标注(POS)、 命名实体识别(NER)、 句法分析(parr)、 语义⾓⾊标注(SRL) 等。
HIT-SCIR/ltp, 保护代码、模型、数据,还有详细的⽂档,⽽且效果还很好。
cpu安装17. 词⼲ Word Stemming
snowballstem/snowball, 实现的词⼲效果还不错。
18. 语⾔识别 Language Identification
干瞪眼游戏19. 机器翻译 Machine Translation
OpenNMT/OpenNMT-py, 基于PyTorch的神经机器翻译,很适合练⼿。
20. 复述⽣成 Paraphra Generation
vsuthichai/paraphrar,基于Tensorflow的句⼦级复述⽣成,适合练⼿。
芒果作用
21. 关系抽取 Relationship Extraction
ankitp94/relationship-extraction,基于核⽅法的关系抽取。
22. 句⼦边界消歧 Sentence Boundary Disambiguation
23.事件抽取 Event Extraction
liuhuanyong/ComplexEventExtraction, 中⽂复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。
24. 词义消歧 Word Sen Disambiguation
alvations/pywsd,代码不多,⽅法简单,适合练⼿。
25. 命名实体消歧 Named Entity Disambiguation
dice-group/AGDISTIS,实体消歧是很重要的,尤其对于实体融合(⽐如知识图谱中多源数据融合)、实体链接。
26. 幽默检测 Humor Detection
pln-fing-udelar/pghumor
感谢的英语27. 讽刺检测 Sarcasm Detection
AniSkywalker/SarcasmDetection,基于神经⽹络的讽刺检测。
28. 实体链接 Entity Linking
hasibi/EntityLinkingRetrieval-ELR, 实体链接⽤途⾮常⼴,⾮常适合练⼿。
29. 指代消歧 Coreference Resolution
huggingface/neuralcoref,基于神经⽹络的指代消歧。
30. 关键词/短语抽取和社会标签推荐 Keyphra Extraction and Social Tag Suggestion
thunlp/THUTag, ⽤多种⽅法 实现了多种关键词/短语抽取和社会标签推荐。