Spacy，自然语言处理的神器Python库！

想要计算机理解人类的语言吗？那么，你应当熟悉Spacy这个功能强大的自然语言处理工具。它在自然语言处理领域展现出许多独特之处。

基础信息与安装

Spacy是一个开源的、性能卓越的自然语言处理工具库，专为实际应用场景设计。它能够处理多种语言，并提供了一个简便的API接口。无论在哪个地区、哪种人群使用的电脑上，用户只需通过pip进行安装即可轻松使用。此外，用户还需下载预训练的语言模型，许多人会根据自身需求下载特定的模型，以便更便捷地使用。Spacy内置了多种语言模型，功能十分强大。

初学者在安装时可能会感到困惑，但只要遵循官方指南的操作，无论身处何地，只要有网络，都能顺利完成安装。

pip install spacy

python -m spacy download en_core_web_sm

分词功能





import spacy
# 加载预训练的英语模型
nlp = spacy.load(“en_core_web_sm”)
# 分析文本
doc = nlp(“Hello， world！ Spacy is an amazing NLP library.”)
# 输出每个token
for token in doc：
print(token.text)

Hello

，

world

！

Spacy

amazing

NLP

library

Spacy能够将文本分解为多个组成部分，诸如单个词语、标点等。在处理文本任务时，无论何时何地，只要遇到需要分解文本的情况，它都能派上用场。举例来说，在分析新闻报道时，它能迅速将长句切割成单个单词。

众多项目，比如开发文本解析工具，其分词功能显著提升了工作效率，使原本混乱的文本变得条理清晰。

词性标注

Spacy自带词性标注功能，这在文本分析中极为关键。词性标注能帮助我们解析句子结构。比如，在研究学术论文时，若能精确标注每个词的词性，便能更深入地理解论文的实质。





for token in doc：
print(f“{token.text} - {token.pos_}”)

在具体业务操作中，无论是分析用户输入的表述，还是对海量的文本资料进行初步处理，词性标注的成果对于后续步骤至关重要。

Hello - INTJ

， - PUNCT

world - NOUN

！ - PUNCT

Spacy - PROPN

is - AUX

an - DET

amazing - ADJ

NLP - PROPN

library - NOUN

. - PUNCT

命名实体识别

NER技术擅长于识别特定名称，诸如人物名字、地理位置、企业名称等。它在处理不同文本资料时发挥着重要作用。以商务合同为例，它能够准确辨别出公司名字、地点等关键信息，这对于合同内容的解读大有裨益。





for ent in doc.ents：
print(f“{ent.text} - {ent.label_}”)

新闻媒体在编辑稿件时，通过NER技术能够迅速识别并标注新闻中的关键人物和地点等要素，这样做既节省了时间，又大大降低了出错的可能性。

Spacy - ORG

NLP - ORG

依存句法分析

Spacy能让我们明白词语间的相互联系。通过建立语法树，我们能更清晰地看到句子的组织结构，这在研究复杂句子时尤为关键。就像解读法律文件时，必须细致地分析每个词的关联。





for token in doc：
print(f“{token.text} - {token.dep_} - {token.head.text}”)

翻译任务中，剖析句子构造能更精确地完成语意转换，进而提升翻译品质。

Hello - intj - Hello

， - punct - Hello

world - ROOT - world

！ - punct - world

Spacy - nsubj - is

is - ROOT - is

an - det - library

amazing - amod - library

NLP - compound - library

library - attr - is

. - punct - is

自定义处理管道

Spacy支持用户自行设定处理流程。比如，在特定任务中，可以用来辨别特定的缩略语。这些自定义模块可以在多个步骤中发挥作用。因此，在处理特定文本时，能够根据个人需求进行灵活操作。

针对某些特定领域的文献，常常会出现不少在别处不多见的简称，在这种情况下，运用自定义的处理流程便能大显身手。





def custom_component(doc)：
# 查找自定义的缩写词
for token in doc：
if token.text == “NLP”：
print(“识别到缩写词：NLP”)
return doc
# 将自定义组件添加到pipeline中
nlp.add_pipe(custom_component， before=“ner”)
doc = nlp(“I love studying NLP！”)

你觉得Spacy很厉害吗？若你要从事自然语言处理领域，你打算先试哪项Spacy功能？不妨点赞、转发，并在评论区分享你的见解。

识别到缩写词：NLP

上一篇： INTJ人格类型的暗黑面：你真的了解吗？

下一篇：与INTJ相近的人格对比系列之四，INTJ与INTP（判断VS知觉）

TAG： Spacy / NLP / 自然语言处理 / pip / en_core_web_sm /

MBTI推荐文章

enfp infj不合适 ENFP和INFJ，到底是…

揭秘ISFJ - T人格：从热点事件看特质…

INFJ金牛：那个在3月30日终于和自己…

isfj mbti meaning ISFJ人格深度解…

免费测MBTI，别乱选！2026新版64型人格…

揭秘ESTP型人格：从热点行业风云看这…

ESTJ型女生谈恋爱，到底有多难搞？…

我是INTJ，你是ENTP？别再乱花钱测了！这…