spaCy是一款提供给编程人员使用的句法解析器软件,这款软件可以对Python和Cython高级自然语言进行解析处理,然后我们就可以快速分析这些代码语言中是否存在错误和漏洞了。
spaCy 是一个 Python 和 CPython 的 NLP 自然语言文本处理库。它建立在最新的研究基础上,从设计的第一天起就被用于实际产品中。
spaCy 自带预训练的管道,目前支持 60 多种语言的标记化和训练。它具有最先进的速度和神经网络模型,可用于标记、解析、命名实体识别、文本分类等,使用 BERT 等预训练的变换器进行多任务学习,以及生产就绪的训练系统和简单的模型打包、部署和工作流管理。
非破坏性标记化
指定实体的确认
预训练的统计模型和单词向量
迅猛的速度
强大的、经过严格评估的精度
简单的深度学习集成
语音部分标签
标签化依赖性解析
方便的字符串到哈希值映射
句法驱动的句子分割
内置的语法和NER的可视化工具。
高效的二进制序列化
Numpy数据数组导出
简单的模型包装和部署
支持50多种语言
en_core_web_sm:英语多任务CNN,在OntoNotes上训练,大小为11 MB
en_core_web_md:英语多任务CNN,在OntoNotes上训练,并且使用Common Crawl上训练的GLoVe词嵌入,大小为91 MB
en_core_web_lg:英语多任务CNN,在OntoNotes上训练,并且使用Common Crawl上训练的GLoVe词嵌入,大小为789 MB