《开源精选》是我们分享Github、Gitee等开源社区中优质项目的栏目,包括技术、学习、实用与各种有趣的内容。本期推荐的是一款轻量级的自然语言处理(NLP)工具包——fastNLP。
fastNLP是一款由复旦大学自然语言处理团队发起的国产自然语言处理开源项目,面向自然语言处理(NLP)的轻量级框架,目标是快速实现NLP任务以及构建复杂模型。
fastNLP具有如下的特性:
- 统一的Tabular式数据容器,简化数据预处理过程;
- 内置多种数据集的Loader和Pipe,省去预处理代码;
- 各种方便的NLP工具,例如Embedding加载(包括ELMo和BERT)、中间数据cache等;
- 部分数据集与预训练模型的自动下载;
- 提供多种神经网络组件以及复现模型(涵盖中文分词、命名实体识别、句法分析、文本分类、文本匹配、指代消解、摘要等任务);
- Trainer提供多种内置Callback函数,方便实验记录、异常捕获等。
安装:
fastNLP 依赖如下包:
numpy>=1.14.2 torch>=1.0.0 tqdm>=4.28.1 nltk>=3.4.1 requests spacy prettytable>=0.7.2
其中torch的安装可能与操作系统及 CUDA 的版本相关,请参见 PyTorch 官网 。 在依赖包安装完成的情况,您可以在命令行执行如下指令完成安装
>>> pip install fastNLP >>> python -m spacy download en
详细教程:
- 使用DataSet预处理文本
fastNLP中的DataSet — fastNLP 0.6.0 文档
- 使用Vocabulary转换文本与index
fastNLP中的Vocabulary — fastNLP 0.6.0 文档
- 使用Embedding模块将文本转成向量
使用Embedding模块将文本转成向量 — fastNLP 0.6.0 文档
- 使用Loader和Pipe加载并处理数据集
使用Loader和Pipe加载并处理数据集 — fastNLP 0.6.0 文档
- 使用Trainer和Tester快速训练和测试
使用Loader和Pipe加载并处理数据集 — fastNLP 0.6.0 文档
- 使用DataSetIter实现自定义训练过程
使用DataSetIter实现自定义训练过程 — fastNLP 0.6.0 文档
- 使用Metric快速评测你的模型
使用Metric快速评测你的模型 — fastNLP 0.6.0 文档
- 使用Modules和Models快速搭建自定义模型
使用Modules和Models快速搭建自定义模型 — fastNLP 0.6.0 文档
- 使用Callback自定义你的训练过程
使用 Callback 自定义你的训练过程 — fastNLP 0.6.0 文档
- 拓展阅读1:BertEmbedding的各种用法
BertEmbedding的各种用法 — fastNLP 0.6.0 文档
- 拓展阅读2:分布式训练简介
Distributed Parallel Training — fastNLP 0.6.0 文档
- 拓展阅读3:使用fitlog 辅助 fastNLP 进行科研
使用fitlog 辅助 fastNLP 进行科研 — fastNLP 0.6.0 文档
更多内容大家可自行前往阅读。
开源地址:gitee.com/fastnlp/fastNLP
如需项目推荐、获取资源请私信作者
到此这篇开源精选 | 一款轻量级的自然语言处理(NLP)工具包的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/rgzn-zryycl/4683.html