腾讯NeuralClassifier之文本分类

NeuralClassiﬁer是腾讯开源的一款基于pytorch的深度学习文本分类工具，该框架的特色是提供了一种层次多标签分类方法，同时也支持文本的二分类、多分类、层次多标签分类。框架自带的数据集为英文的层次多标签分类数据集。如何跟换自带数据集进行我们自己的数据集的训练和测试呢？下面以文本二分类为例进行说明：（1）首先，将数据集转化为框架支持的json格式。这里选用酒店评论数据，部分数据格式如下.

manbuyunduanLML

979人浏览 · 2019-12-26 16:37:25

manbuyunduanLML · 2019-12-26 16:37:25 发布

NeuralClassiﬁer是腾讯开源的一款基于pytorch的深度学习文本分类工具，该框架的特色是提供了一种层次多标签分类方法，同时也支持文本的二分类、多分类、多标签分类。框架自带的数据集为英文的层次多标签分类数据集。如何跟换自带数据集进行我们自己的数据集的训练和测试呢？下面以文本二分类为例进行说明：

（1）首先，将数据集转化为框架支持的json格式。这里选用酒店评论数据，部分数据格式如下：
在这里插入图片描述
（2）框架自带的数据为英文数据集，若要进行中文文本的训练和测试，要注意编码问题，需要将所有涉及文件读入的地方添加encoding=‘utf-8’
（3）下面需要修改配置文件参数：这里需要注意的一个问题，框架中配置文件也是json格式，json格式文件是不支持注释的，否则程序在读取json配置文件时候会出现错误。
（4）除了修改配置文件中的"label_type"、“hierarchical”、“data”、"model_name"等，还需要特别注意的地方有如下：
（5）“num_worker”: 4，修改为 “num_worker”: 0
（6）损失函数问题:选择适合single_label的损失函数，否则会出现以下错误：

ValueError: Target size (torch.Size([64])) must be the same as input size (torch.Size([64, 2]))

（7）最后注意层次结构：.taxonomy文件，这里只有二分类，所以文件只有根标签
Root pos ner

AtomGit 开源协作平台测评赛

瓜分20万奖金获得内推名额丰厚实物奖励易参与易上手

更多推荐

ChatGPT 提示词：2024最新AIGC提示词大全

开放原子开发者工作坊

项目实战9—企业级分布式存储应用与实战MogileFS、FastDFS

企业级分布式存储应用与实战-mogilefs　　环境：公司已经有了大量沉淀用户，为了让这些沉淀用户长期使用公司平台，公司决定增加用户粘性，逐步发展基于社交属性的多样化业务模式，决定开展用户讨论区、卖家秀、买家秀、用户试穿短视频等业务，因此，公司新的业务的业务特征将需要海量数据存储，你的领导要求基于开源技术，实现对公司海量存储业务的技术研究和实现，你可以完成任务吗？总项目流程图，详见...

开放原子开发者工作坊

.NET Core开源API网关 – Ocelot中文文档

.NET Core开源API网关 – Ocelot中文文档原文:.NET Core开源API网关 – Ocelot中文文档Ocelot是一个用.NET Core实现并且开源的API网关，它功能强大，包括了：路由、请求聚合、服务发现、认证、鉴权、限流熔断、并内置了负载均衡器与Service Fabric、Butterfly Tracing集成。...