前言

今天在.Net Core中对外网新闻进行爬虫抓取,最初抓取到的新闻中出现了乱码,后来通过GB2312进行了编码,结果报错“ Unhandled Exception: System.ArgumentException: 'GB2312' is not a supported encoding name. For information on defining a custom encoding, see the documentation for the Encoding.RegisterProvider method.”,解决方法如下

报错信息 

为了解决中文乱码问题,使用了如下代码

byte[] response1 = await client.GetByteArrayAsync(url1);
string temp = Encoding.GetEncoding("GB2312").GetString(response1);

 报错如下

Unhandled Exception: System.ArgumentException: 'GB2312' is not a supported encoding name. For information on defining a custom encoding, see the documentation for the Encoding.RegisterProvider method.

解决方案 

1、在NuGet包中安装包System.Text.Encoding.CodePages

2、在使用编码方法(Encoding.GetEncoding("GB2312"))之前,对编码进行注册( Encoding.RegisterProvider(CodePagesEncodingProvider.Instance);),代码如下 

var url1 = "需要抓取新闻列表的url";
//以byte[]获取html
byte[] response1 = await client.GetByteArrayAsync(url1);
//将byte[]重新编码成GB2312;
Encoding.RegisterProvider(CodePagesEncodingProvider.Instance);
string temp = Encoding.GetEncoding("GB2312").GetString(response1);

修改完成后重新编译成功

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐