用正则表达式截取字串

luoyong · 发表于 2008-4-26 15:08:02

我有一个HTML文件，要找出里面链接的页面，所链接的文档名暂且只有字母和下划线，扩展名都是“.html”，而且路径不需要取出来，比如取出“intro.html”、“company.html”这样的结果就可以，请问在shell下面用什么工具可以做到这个？awk可不可以做到？

我只用过perl，不知道怎么用shell做这个。

多谢了。

troll · 发表于 2008-4-26 20:53:11

html太过灵活了，用正则表达很难，如果可能还是用lynx -dump吧。

Cherife · 发表于 2008-4-27 01:35:19

一个笨方法，

$ sed -n 's/[^\/]*\.html\b/|&|/p' {HTML_FILE} | awk -F\| '{print $2}'

谁知道sed如何只显示被替换的内容？那样就会简单一点了。

luoyong · 发表于 2008-4-29 13:47:46

解决了，多谢

		自动登录	找回密码
密码			注册

用正则表达式截取字串

浏览过的版块