LinuxSir.cn,穿越时空的Linuxsir!

 找回密码
 注册
搜索
热搜: shell linux mysql
查看: 1138|回复: 3

用正则表达式截取字串

[复制链接]
发表于 2008-4-26 15:08:02 | 显示全部楼层 |阅读模式
我有一个HTML文件,要找出里面链接的页面,所链接的文档名暂且只有字母和下划线,扩展名都是“.html”,而且路径不需要取出来,比如取出“intro.html”、“company.html”这样的结果就可以,请问在shell下面用什么工具可以做到这个?awk可不可以做到?

我只用过perl,不知道怎么用shell做这个。

多谢了。
发表于 2008-4-26 20:53:11 | 显示全部楼层
html太过灵活了,用正则表达很难,如果可能还是用lynx -dump吧。
回复 支持 反对

使用道具 举报

发表于 2008-4-27 01:35:19 | 显示全部楼层
一个笨方法,
$ sed -n 's/[^\/]*\.html\b/|&|/p' {HTML_FILE} | awk -F\| '{print $2}'

谁知道sed如何只显示被替换的内容?那样就会简单一点了。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2008-4-29 13:47:46 | 显示全部楼层
解决了,多谢      
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部 返回列表