实验指导
1. 安装相关文件
将nutch-0.9,tomcat, paoding-analysis-2.0.4-alpha2,apache-ant-1.8.3 拷到D:\test\目录还要对Tomcat\webapps\nutch-0.9\WEB-INF\classes中的nutch-site.xml文件进行修改,其中value=D:\test\nutch-0.9\crawl\的值必须对应你所采集到的文件,并且环境变量的配置也必须改变),并配置环境变量(右击我的电脑----高级-----环境变量,如下图)
如果没有安装jdk 需要先安装jdk 安装目录为:C:\Program Files\Java\jdk1.7.0
在用户变量中,编辑PATH,变量值D:\test\apache-ant-1.8.3\bin;C:\Program Files\Java\jdk1.7.0\bin
在系统变量中,新建ANT_HOME,变量值D:\test\apache-ant-1.8.3
在系统变量中,新建CATALINA_HOME,变量值D:\test\Tomcat
在系统变量中,编辑CLASSPATH,变量值
D:\test\nutch-0.9\src\plugin\lib-paoding-analyzers\paoding-analysis.jar; C:\Program Files\Java\jdk1.7.0\lib
在系统变量中,新建NUTCH_JAVA_HOME,变量值C:\Program Files\Java\jdk1.7.0
在系统变量中,新建PAODING_DIC_HOME,变量值D:\test\paoding-analysis-2.0.4-alpha2\dic
在系统变量中,新建JAVA_HOME,变量值C:\Program Files\Java\jdk1.7.0
运行tomcat,进入tomcat\bin文件夹,双击startup.bat.。打开浏览器,输入http://127.0.0.1:8080/nutch-0.9,出现如下画面说明nutch 运行成功:
2. 数据检索
下面我们就可以进行检索了,如输入“北京邮电大学”就可以看到检测结果。点击“评分详解”,还可以看到分词的结果,如下图所示:
3. 查看索引分词结果
我们还可以用luke查看索引分词的结果,进入CMD,输入cd D: \test\nutch-0.9\ 回车
再输入 D: 回车 输入java -jar lukeall-3.5.0.jar
就可以看到如下画面;或者去D:\test\nutch-0.9\ lukeall-3.5.0.jar(点击)
点击“browse”,选择D:\test\nutch-0.9\crawl, 我们就可以看到索引分词结果了。我们也可以在luke中进行检索,选择“search”选项卡,输入“北京”就可以看到检索结果:
4. 采集数据
如果想自己采集数据,还要安装cygwin软件。安装过程如下:
4.1. 选择install from local directory
安装到的目录D:/cygwin
选择已经下载的安装文件所在的目录(安装包目录)
选择全部安装(install)
安装完成........
4.2. 配置抓取的起始网站地址
建立文本文件D:\test\nutch-0.9\ urls.txt,内容为:
该文本定义的是你要抓取的网站,可以自己选取
4.3. 抓取
首先删除nutch-0.9中的crawl文件夹,双击Cygwin快捷方式,启动Cygwin
或者
l urls 就是刚才我们创建的url文件,存放我们要抓取的网址
l -dir crawl 指定抓取内容所存放的目录,如上存在crawl中
l -threads 4 指定并发的线程数
l -depth 3 表示以要抓取网站顶级网址为起点的爬行深度
l -topN 50 表示获取前多少条记录,可省
l >crawl.log 日志文件的存储地址,省略则将相关运行信息全部在控制台显示。
5. 说明: 观察抓取后生成的目录
抓取后,在nutch目录下生成一个crawl文件夹,里面包含如下目录:
6. 布尔检索
大多数的搜索引擎都会提供布尔操作符让用户可以组合查询,典型的布尔操作符有 AND, OR, NOT。Lucene 支持 5 种布尔操作符,分别是 AND, OR, NOT, 加(+), 减(-)。每个操作符的用法如下。
OR: 如果你要搜索含有字符 A 或者 B 的文档,那么就需要使用 OR 操作符。需要记住的是,如果你只是简单的用空格将两个关键词分割开,其实在搜索的时候搜索引擎会自动在两个关键词之间加上 OR 操作符。例如,“Java OR Lucene” 和 “Java Lucene” 都是搜索含有 Java 或者含有 Lucene 的文档。
AND: 如果你需要搜索包含一个以上关键词的文档,那么就需要使用 AND 操作符。例如,“Java AND Lucene” 返回所有既包含 Java 又包含 Lucene 的文档。
NOT: Not 操作符使得包含紧跟在 NOT 后面的关键词的文档不会被返回。例如,如果你想搜索所有含有 Java 但不含有 Lucene 的文档,你可以使用查询语句 “Java NOT Lucene”。但是你不能只对一个搜索词使用这个操作符,比如,查询语句 “NOT Java” 不会返回任何结果。
加号(+): 这个操作符的作用和 AND 差不多,但它只对紧跟着它的一个搜索词起作用。例如,如果你想搜索一定包含 Java和 Lucene 的文档,就可以使用查询语句“Java+Lucene”。
减号(-): 这个操作符的功能和 NOT 一样,查询语句 “Java -Lucene” 返回所有包含 Java 但不包含 Lucene 的文档。
本次检索中,由于只配置了中文,nutch不识别or and not操作符,在此只给出用+ -操作符的例子。
另外,对于如大学这类词语,检索时可以分成大 大学两个词,在分词时可以使用""来限定。
Q&A
1.
Q:将 nutch-0.9,tomcat, paoding-analysis-2.0.4-alpha2,apache-ant-1.8.3 拷到C 盘根目录,并配置好环境变量后,为何搜索出0项选择结果?
A:0项查询结果说明数据检索库没加载,通过检查nutch-0.9目录发现crawl目录被删除了,重新拷入crawl,重启计算机。
2.
Q:用 luke 查看索引分词的结果,进入CMD,输入cd C:\nutch-0.9>java –jar lukeall-3.5.0.jar,看到如下画面:
A:命令输入过程中出现错误,改变输入命令方式如图:
第二篇:信息检索实验报告样例
实验报告(样例)
课程名称: 文献检索
授课教师: 郑 德 俊
学生学号:
学生姓名:
完成时间:20##年7月1日
检索题名称:
竞争情报用于企业危机预警的有效模式研究
一、题目内涵分析:
本题主要是研究用竞争情报方法进行危机预警的有效性
根据题目,在具体检索之前,先要弄明白以下三个问题:
1) 竞争情报方法是什么
2) 企业危机有哪些类型、
3) 一般说来,企业危机预警的管理过程是什么
4) 如何进行有效性分析
经使用搜索引擎和阅读相关性文献,对以上列举的四个问题得到以下的初步理解
1、 竞争情报
竞争情报简称CI,即Competitive Intelligence,也有人称之为BI,即Business Intelligence。竞争情报是指关于竞争环境、竞争对手和竞争策略的信息和研究,是一种过程,也是一种产品。过程包括了对竞争信息的收集和分析;产品包括了由此形成的情报和谋略。
竞争情报具有三大核心功能: ●预警系统(监测、跟踪、预期、发现) ●决策支持(竞争方式、生产决策、新市场、技术研发)●学习系统(借鉴、比较、管理方法和工具、避免僵化)
竞争情报工作的一般步骤
(1)规划与定向就是是了解情报需求、建立情报目标的步骤,包括三个基本问题:我们需要什么?为什么要知道这些?一旦知道,要作出什么决策、采取什么行动?
(2)信息搜集是耗费时间和资源最多的步骤。在这一阶段要解决的问题是:要搜集哪些信息?信息源在何处?用什么方法获取?
(3)信息加工是一个初步鉴别、整理、序化的步骤,或者说是信息情报化的过程,没有分析的信息是毫无价值的。分析的目的就是要把从各方面搜集的信息置于竞争战略的考虑中去。:
分析以上的内容,在竞争情报采集工作中,最重要的是明确信息源,在竞争情报分析工作中,最重要的是采用什么样的分析方法
竞争情报信息源主要有:公共信息源、企业内部信息源、人际网络信息源等
竞争情报分析方法有:定标比超方法、SWOT方法、
2、 企业危机及危机预警
企业危机是指威胁企业生存与发展的危险事件。企业组织面临的危机主要有八种:信誉危机、决策危机、经营管理危机、灾难危机、财务危机、法律危机、人才危机、媒介危机
而企业危机预警是根据企业危机前兆,查找导致前兆的根源,控制危险事态的进一步发展或将危险事件扼杀于萌芽状态,以减少危机的发生或降低危机危害程度的过程。危机预警的研究现状可以总结为两类:(1)在定量研究方面,研究者选择预警指标,赋予每个指标权重,进行加权平均,以最终的数值反映危机程度。(2)在定性研究方面,研究者阐述了危机前的某些征兆,然后给出一些预防建议。这些学者为危机预警研究都作了一定的贡献,同时也存在一些不足:(1)危机征兆分析方法上,割裂了定性分析和定量分析,影响了预测结果的准确性。需要采用定性与定量相结合的研究方法,这样才能准确的反应预防危机。(2)危机预警指标的选择不能灵敏、准确地反映企业的危机征兆;指标体系的计算比较繁琐,难以实施。指标体系的建立要具有针对性和覆盖性,不能片面地反映某一方面。面对激烈的竞争、复杂多变的市场环境,企业必须建立一套预警系统。这可以帮助企业防范与化解危机,并帮助企业在危机妥善防范与处理中总结经验,以便为未来类似问题提供前车之鉴和从根本上消除类似危机再次发生的隐患,实现企业的可持续发展。
3、 有效性研究的重点
通过对以上内容的分析,我们可以发现,本题目就是研究使用什么样的竞争情报信息源、使用什么样的竞争情报分析方法能更有效地完成危机预警过程,改进原有危机预警过程中定性研究和定量研究的不足。
二、检索策略分析
1、检索关键词的选择
与竞争情报有关的检索词:
竞争情报采集方面(公共信息、企业内部信息、人际网络、危机征兆)
竞争情报分析方面(定标比超、SWOT)
竞争情报管理(竞争情报管理机制 、竞争情报系统)
与危机预警有关的检索词:
危机类型方面(信誉危机、决策危机、经营管理危机、灾难危机、财务危机、法律危机、人才危机、媒介危机)
危机预警方面(预警指标、预警系统、危机防范、危机预防、危机预警)
相应的英文检索词:
Early warning indicators, early warning systems, crisis prevention, crisis prevention, crisis warning
Credibility crisis, decision-making crisis, crisis management, disaster crisis, financial crisis, legal crisis, talent crisis, media crisis
Management mechanism of competitive intelligence, competitive intelligence system
Public information, internal information, social network, crisis sign
Benchmarking, SWOT
2、检索策略
首先在“标题途径”选择与竞争情报有关的检索词和与危机预警有关的检索词采用“逻辑与组配”的方式检索
如果检索结果太少,可以在“标题途径”中选择其中一类的检索词,在“关键词途径”选择另一类的检索词,两个途径采用“逻辑与组配”
如果检索结果还是太少,可以在“标题途径”或“关键词途径”中选择其中一类的检索词,在“全文途径”选择另一类的检索词,两个途径采用“逻辑与组配”
如果以上结果还是少,可以在“标题途径”或“关键词途径”中选择其中一类的检索词,在“参考文献途径”选择另一类的检索词,两个途径采用“逻辑与组配”
如果以上方面均不行,可以在“标题途径”或“关键词途径”中用“逻辑或”的方式组配检索这两类检索词,阅读检索结果,选择与本题目最相关的检索资料
三、检索结果
1、中文期刊资料检索
1.1 检索途径和信息源
根据前文的分析,比较重要的检索途径有:标题(题名)、关键词、
辅助检索途径有:主题、分类号、全文
信息源:中国学术期刊网,维普数据库,万方数据库
1.2中国学术期刊网检索策略:
(1)先选择“题名”途径,进行逻辑组配检索
检索式1:题名(竞争情报) AND 题名(危机预警) AND 题名(企业)
结果:10条
(2)检索结果数量不多,进一步扩大检索范围,在“题名”和“关键词”途径中查找,修改检索式
检索式2题名(竞争情报) AND 关键词(危机预警)
检索式3关键词(竞争情报) AND 题名(危机预警)
由检索式2,得结果21
由检索式3 得结果12
(3)合并检索式1,检察式2,检索式3的检索结果,得到不重复的结果18条
列表如下:
1.3维普数据库检索策略:
(1)先选择“题名”和“关键词”途径,进行逻辑组配检索
检索式1:题名(竞争情报) AND 关键词(危机预警)
检索式2关键词(竞争情报) AND 题名(危机预警)
两者合并去重后得结果:183条
(2)检索结果过多,需进一步缩小检索范围,仅从“题名”途径进行查找,修改检索式
检索式3:题名(竞争情报) AND 题名(危机预警) AND 题名(企业)
得结果21
(3)依检索式3的结果为主,并适当吸取检索式1和检索式2中的最相关的结果,得到不重复的结果30条。列表如下:
1.3万方数据库检索策略
2、中文图书资料检索
3、外文期刊资料检索
4、外文图书资料检索
4.1 在Sprnger中查找,检索式如下:title( ),得到结果3,最相关电子图书结果如下:
4.2 在google图书中查找
5、其它资料检索
在中国学术期刊网中,还得到学位论文10篇,其中硕士学位论文6篇,博士学位论文4篇,列表如下
四、检索过程总结与评价
1、本次检索共得到期刊全文资料?篇,其中中文?篇,英文?篇
查找到有全文的电子图书?本,其中中文?本,英文?本
查找到文献线索?条,其中图书?本,期刊?篇,获取这些文献线索的全文资料方法是:
2、进一步的检索改进设想
(1)、关于如何提高查全率
2)、关于如何提高查准率
五、参考文献
[1]刘国钧,陈绍业.图书馆目录[M].北京:高等教育出版社,1957:15-18.
[2]罗曼.20世纪图书馆效用评估[M].北京:社科文献出版社,2000
[3]Rust R T, Oliver R L. Service quality: New directions in theory and Practice[M]. New York: Sage Publications Inc, 1994
[4]何龄修.读南明史[J].中国史研究,1998,(3):167-173.
[5]OU J P,SOONG T T,et al.Recent advance in research on applications of passive energy dissipation systems[J].Earthquack Eng,1997,38(3):358-361.
[6]王玉林.论图书馆效益评价[J].图书情报工作,2002,10(2):52-55
[7] Oliver R L, Linda G. Effect of Satisfaction and Its Antecedents on Consumer Preference and Intention[J]. Advances in Consumer Research ,1981(8): 88-93
[8]钟文发.非线性规划在可燃毒物配置中的应用[A].赵炜.运筹学的理论与应用——中国运筹学会第五届大会论文集[C].西安:西安电子科技大学出版社,1996.468.
[9]谢希德.创造学习的新思路[N].人民日报,1998-12-25(10).
[10]王明亮.关于中国学术期刊标准化数据库系统工程的进展[EB/OL].http://www.cajcd.edu.cn/pub/wml.html,1998-08-16/1998-10-01.
[11]万锦.中国大学学报文摘(1983-1993).英文版[DB/CD].北京:中国大百科全书出版社,1996