设为首页
收藏本站
用户名
Email
自动登录
找回密码
密码
登录
注册
快捷导航
平台
Portal
论坛
BBS
文库
项目
群组
Group
我的博客
Space
搜索
搜索
热搜:
shell
linux
mysql
本版
用户
LinuxSir.cn,穿越时空的Linuxsir!
»
论坛
›
Linux 综合讨论区 —— LinuxSir.cn
›
shell进阶应用、shell编程
›
用正则表达式截取字串
返回列表
查看:
1138
|
回复:
3
用正则表达式截取字串
[复制链接]
luoyong
luoyong
当前离线
积分
735
IP卡
狗仔卡
发表于 2008-4-26 15:08:02
|
显示全部楼层
|
阅读模式
我有一个HTML文件,要找出里面链接的页面,所链接的文档名暂且只有字母和下划线,扩展名都是“.html”,而且路径不需要取出来,比如取出“intro.html”、“company.html”这样的结果就可以,请问在shell下面用什么工具可以做到这个?awk可不可以做到?
我只用过perl,不知道怎么用shell做这个。
多谢了。
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
显身卡
troll
troll
当前离线
积分
3053
IP卡
狗仔卡
发表于 2008-4-26 20:53:11
|
显示全部楼层
html太过灵活了,用正则表达很难,如果可能还是用lynx -dump吧。
回复
支持
反对
使用道具
举报
显身卡
Cherife
Cherife
当前离线
积分
156
IP卡
狗仔卡
发表于 2008-4-27 01:35:19
|
显示全部楼层
一个笨方法,
$ sed -n 's/[^\/]*\.html\b/|&|/p' {HTML_FILE} | awk -F\| '{print $2}'
谁知道sed如何只显示被替换的内容?那样就会简单一点了。
回复
支持
反对
使用道具
举报
显身卡
luoyong
luoyong
当前离线
积分
735
IP卡
狗仔卡
楼主
|
发表于 2008-4-29 13:47:46
|
显示全部楼层
解决了,多谢
回复
支持
反对
使用道具
举报
显身卡
返回列表
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
注册
本版积分规则
发表回复
回帖后跳转到最后一页
浏览过的版块
BSD 讨论专题
内核与驱动开发
小企鹅新闻图书馆
Archlinux讨论区
Redhat/Fedora/CentOS Linux
Linux 基础讨论区(新手速成)
网络技术\网络安全讨论
Java 程序设计开发讨论
Linux 输入开发与研究
Gentoo Linux
Copyright © 2002-2023
LinuxSir.cn
(http://www.linuxsir.cn/) 版权所有 All Rights Reserved.
Powered by
RedflagLinux!
技术支持:
中科红旗
|
京ICP备19024520号
快速回复
返回顶部
返回列表