我想下载存储在 html(网页)中的所有图像,我不知道将下载多少图像,并且我不想使用“HTML AGILITY PACK”
我在谷歌中搜索,但所有网站都让我更加困惑,
我尝试了正则表达式,但只有一个结果......,
人们给了你正确的答案——你也不能挑剔和懒惰。 ;-)
如果您使用不成熟的解决方案,您将处理很多边缘情况。这是一个工作示例,它使用以下命令获取 HTML 文档中的所有链接HTML 敏捷包 http://htmlagilitypack.codeplex.com/SourceControl/changeset/view/33420#52167(它包含在 HTML Agility Pack 下载中)。
这是一篇博客文章,展示了如何使用 HTML Agility Pack 和 LINQ 抓取 HTML 文档中的所有图像 http://matthew-marksbury.blogspot.com/2009/07/screen-scraping-with-htmlagilitypack.html
// Bing Image Result for Cat, First Page
string url = "http://www.bing.com/images/search?q=cat&go=&form=QB&qs=n";
// For speed of dev, I use a WebClient
WebClient client = new WebClient();
string html = client.DownloadString(url);
// Load the Html into the agility pack
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(html);
// Now, using LINQ to get all Images
List<HtmlNode> imageNodes = null;
imageNodes = (from HtmlNode node in doc.DocumentNode.SelectNodes("//img")
where node.Name == "img"
&& node.Attributes["class"] != null
&& node.Attributes["class"].Value.StartsWith("img_")
select node).ToList();
foreach(HtmlNode node in imageNodes)
{
Console.WriteLine(node.Attributes["src"].Value);
}
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)