QQ登录

只需一步,快速开始

 找回密码
 注册

QQ登录

只需一步,快速开始

查看: 970|回复: 5

如何编写脚本来实现在某网站搜索并下载结果

[复制链接]
发表于 2004-12-1 11:19:17 | 显示全部楼层 |阅读模式
对于某个数据库网站,里面有若干搜索选项,
我现只能一个一个地把各个选项填进去再点搜索,然后再把结果下载下来


那能不能编写一个shell脚本,让它在一个文件中读取我要查询的内容,然后到该网站搜索,并把结果保存到机器上呢?


理论上是可以的,俗话说只有想不到,没有做不到,呵呵,那如何实现,还望大侠们指教!!
发表于 2004-12-1 11:26:37 | 显示全部楼层
可能还要看网站是用什么语言写的吧,给搜索页面传参数才能搜索啊。
回复

使用道具 举报

 楼主| 发表于 2004-12-1 11:47:39 | 显示全部楼层
搞定了,呵呵
回复

使用道具 举报

发表于 2004-12-1 11:57:06 | 显示全部楼层
请不吝分享经验
回复

使用道具 举报

 楼主| 发表于 2004-12-1 14:36:35 | 显示全部楼层
举一个例子吧:
比如我想从
http://nedwww.ipac.caltech.edu/forms/byname.html中寻找ngc 2128这个源
                                                                                   
先打开这个网页----查看----页面信息---表单,可以看到有一个(表单动作),而下面的小窗口内有 (字段名称),(类型),(当前值)
                                                                                 

这样我们就可以在行命令下实现所想任务了:
                                                                                   
wget 表单动作?字段名称=ngc+2128

在这个具体例子中就是:
wget http://nedwww.ipac.caltech.edu/cgi-bin/nph-objsearch?objname=ngc+2128
                                                                                   
在这只用了一个选项,即网页中的Object Name,而且表单动作与字段名称之间有一个问号,ngc与2128之间的空格在执行任务需换为+

如果再用一个搜索选项比如Equinox,那就执行:
wget http://nedwww.ipac.caltech.edu/cgi-bin/nph-objsearch?objname=ngc+2128&out_equinox=J2000.0
                                                                                   
也就是各个选项之间用&隔开.
                                                                                   
至于页面信息中的字段名称对应着网页上的哪个选项,可查看页面源代码的Input Parameters.
                                                                                   
现在我们就可以写shell脚本来对大量的源进行下载了.对wget的语法比如递归,代理什么的 可man wget得到.
回复

使用道具 举报

发表于 2004-12-1 14:41:03 | 显示全部楼层
哦,这样。谢谢
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

GMT+8, 2024-11-6 11:16 , Processed in 0.039986 second(s), 15 queries .

© 2021 Powered by Discuz! X3.5.

快速回复 返回顶部 返回列表