之前已经整理了:
现在继续折腾。
1.有空再去试试:
2.搜
C# beautifulSoup
而找到:
BeautifulSoup similar for C# [closed]
3.去试试:
参考官网代码,把示例代码添加进来了:
using Sgml;
using System.Xml;
using System.IO;
XmlDocument FromHtml(TextReader reader)
{
// setup SgmlReader
Sgml.SgmlReader sgmlReader = new Sgml.SgmlReader();
sgmlReader.DocType = "HTML";
sgmlReader.WhitespaceHandling = WhitespaceHandling.All;
sgmlReader.CaseFolding = Sgml.CaseFolding.ToLower;
sgmlReader.InputStream = reader;
// create document
XmlDocument doc = new XmlDocument();
doc.PreserveWhitespace = true;
doc.XmlResolver = null;
doc.Load(sgmlReader);
return doc;
}4.然后再去参考:
去看看如何使用。
最后,经过简单修改,就可以将html转换为xml的document了:
using Sgml;
using System.Xml;
using System.IO;
XmlDocument htmlToXmlDoc(string html)
{
// setup SgmlReader
Sgml.SgmlReader sgmlReader = new Sgml.SgmlReader();
sgmlReader.DocType = "HTML";
sgmlReader.WhitespaceHandling = WhitespaceHandling.All;
sgmlReader.CaseFolding = Sgml.CaseFolding.ToLower;
//sgmlReader.InputStream = reader;
sgmlReader.InputStream = new StringReader(html);
// create document
XmlDocument doc = new XmlDocument();
doc.PreserveWhitespace = true;
doc.XmlResolver = null;
doc.Load(sgmlReader);
return doc;
}
5.后来,分别遇到并解决了:
【已解决】C#中对于XmlNode,去用SelectNodes或SelectSingleNode查找,结果找不到(子节点)
6.
7.
【已解决】网页中的图片,一张(png)图片包含多张图片,如何通过css去定位对应的子png图片
转载请注明:在路上 » 【记录】C#中的HTML解析