信息检索实验报告

时间:2024.3.19

实验指导

1.       安装相关文件

将nutch-0.9,tomcat, paoding-analysis-2.0.4-alpha2,apache-ant-1.8.3 拷到D:\test\目录还要对Tomcat\webapps\nutch-0.9\WEB-INF\classes中的nutch-site.xml文件进行修改,其中value=D:\test\nutch-0.9\crawl\的值必须对应你所采集到的文件,并且环境变量的配置也必须改变),并配置环境变量(右击我的电脑----高级-----环境变量,如下图)

如果没有安装jdk 需要先安装jdk 安装目录为:C:\Program Files\Java\jdk1.7.0

在用户变量中,编辑PATH,变量值D:\test\apache-ant-1.8.3\bin;C:\Program Files\Java\jdk1.7.0\bin

在系统变量中,新建ANT_HOME,变量值D:\test\apache-ant-1.8.3

在系统变量中,新建CATALINA_HOME,变量值D:\test\Tomcat

在系统变量中,编辑CLASSPATH,变量值

D:\test\nutch-0.9\src\plugin\lib-paoding-analyzers\paoding-analysis.jar; C:\Program Files\Java\jdk1.7.0\lib

在系统变量中,新建NUTCH_JAVA_HOME,变量值C:\Program Files\Java\jdk1.7.0

在系统变量中,新建PAODING_DIC_HOME,变量值D:\test\paoding-analysis-2.0.4-alpha2\dic

在系统变量中,新建JAVA_HOME,变量值C:\Program Files\Java\jdk1.7.0

运行tomcat,进入tomcat\bin文件夹,双击startup.bat.。打开浏览器,输入http://127.0.0.1:8080/nutch-0.9,出现如下画面说明nutch 运行成功:

2.       数据检索

下面我们就可以进行检索了,如输入“北京邮电大学”就可以看到检测结果。点击“评分详解”,还可以看到分词的结果,如下图所示:

3.       查看索引分词结果

我们还可以用luke查看索引分词的结果,进入CMD,输入cd D: \test\nutch-0.9\ 回车

再输入 D: 回车 输入java -jar lukeall-3.5.0.jar

 就可以看到如下画面;或者去D:\test\nutch-0.9\ lukeall-3.5.0.jar(点击)

点击“browse”,选择D:\test\nutch-0.9\crawl, 我们就可以看到索引分词结果了。我们也可以在luke中进行检索,选择“search”选项卡,输入“北京”就可以看到检索结果:

4.       采集数据

如果想自己采集数据,还要安装cygwin软件。安装过程如下:

4.1.    选择install from local directory

安装到的目录D:/cygwin

选择已经下载的安装文件所在的目录(安装包目录)

选择全部安装(install)

安装完成........

4.2.    配置抓取的起始网站地址

建立文本文件D:\test\nutch-0.9\ urls.txt,内容为:

该文本定义的是你要抓取的网站,可以自己选取

4.3.    抓取

首先删除nutch-0.9中的crawl文件夹,双击Cygwin快捷方式,启动Cygwin

或者

l  urls 就是刚才我们创建的url文件,存放我们要抓取的网址

l  -dir crawl 指定抓取内容所存放的目录,如上存在crawl中

l  -threads 4 指定并发的线程数

l  -depth 3 表示以要抓取网站顶级网址为起点的爬行深度

l  -topN 50 表示获取前多少条记录,可省

l  >crawl.log 日志文件的存储地址,省略则将相关运行信息全部在控制台显示。

5.       说明: 观察抓取后生成的目录

抓取后,在nutch目录下生成一个crawl文件夹,里面包含如下目录:

6.       布尔检索

大多数的搜索引擎都会提供布尔操作符让用户可以组合查询,典型的布尔操作符有 AND, OR, NOT。Lucene 支持 5 种布尔操作符,分别是 AND, OR, NOT, 加(+), 减(-)。每个操作符的用法如下。

OR: 如果你要搜索含有字符 A 或者 B 的文档,那么就需要使用 OR 操作符。需要记住的是,如果你只是简单的用空格将两个关键词分割开,其实在搜索的时候搜索引擎会自动在两个关键词之间加上 OR 操作符。例如,“Java OR Lucene” 和 “Java Lucene” 都是搜索含有 Java 或者含有 Lucene 的文档。

AND: 如果你需要搜索包含一个以上关键词的文档,那么就需要使用 AND 操作符。例如,“Java AND Lucene” 返回所有既包含 Java 又包含 Lucene 的文档。

    NOT: Not 操作符使得包含紧跟在 NOT 后面的关键词的文档不会被返回。例如,如果你想搜索所有含有 Java 但不含有 Lucene 的文档,你可以使用查询语句 “Java NOT Lucene”。但是你不能只对一个搜索词使用这个操作符,比如,查询语句 “NOT Java” 不会返回任何结果。

加号(+): 这个操作符的作用和 AND 差不多,但它只对紧跟着它的一个搜索词起作用。例如,如果你想搜索一定包含 Java和 Lucene 的文档,就可以使用查询语句“Java+Lucene”。

减号(-): 这个操作符的功能和 NOT 一样,查询语句 “Java -Lucene” 返回所有包含 Java 但不包含 Lucene 的文档。

本次检索中,由于只配置了中文,nutch不识别or and not操作符,在此只给出用+ -操作符的例子。

另外,对于如大学这类词语,检索时可以分成大 大学两个词,在分词时可以使用""来限定。

Q&A

1.

Q:将 nutch-0.9,tomcat, paoding-analysis-2.0.4-alpha2,apache-ant-1.8.3 拷到C 盘根目录,并配置好环境变量后,为何搜索出0项选择结果?

A:0项查询结果说明数据检索库没加载,通过检查nutch-0.9目录发现crawl目录被删除了,重新拷入crawl,重启计算机。

2.

Q:用 luke 查看索引分词的结果,进入CMD,输入cd C:\nutch-0.9>java –jar lukeall-3.5.0.jar,看到如下画面:

A:命令输入过程中出现错误,改变输入命令方式如图:


第二篇:信息检索实验报告样例


 

实验报告(样例)

课程名称      

授课教师:           

学生学号:                 

学生姓名:                 

完成时间:20##年7月1日

检索题名称:

竞争情报用于企业危机预警的有效模式研究


一、题目内涵分析:
本题主要是研究用竞争情报方法进行危机预警的有效性
根据题目,在具体检索之前,先要弄明白以下三个问题:
1) 竞争情报方法是什么
2) 企业危机有哪些类型、
3) 一般说来,企业危机预警的管理过程是什么
4) 如何进行有效性分析
经使用搜索引擎和阅读相关性文献,对以上列举的四个问题得到以下的初步理解
1、 竞争情报
竞争情报简称CI,即Competitive Intelligence,也有人称之为BI,即Business Intelligence。竞争情报是指关于竞争环境、竞争对手和竞争策略的信息和研究,是一种过程,也是一种产品。过程包括了对竞争信息的收集和分析;产品包括了由此形成的情报和谋略。
竞争情报具有三大核心功能: ●预警系统(监测、跟踪、预期、发现) ●决策支持(竞争方式、生产决策、新市场、技术研发)●学习系统(借鉴、比较、管理方法和工具、避免僵化)
竞争情报工作的一般步骤
  (1)规划与定向就是是了解情报需求、建立情报目标的步骤,包括三个基本问题:我们需要什么?为什么要知道这些?一旦知道,要作出什么决策、采取什么行动?
  (2)信息搜集是耗费时间和资源最多的步骤。在这一阶段要解决的问题是:要搜集哪些信息?信息源在何处?用什么方法获取?
  (3)信息加工是一个初步鉴别、整理、序化的步骤,或者说是信息情报化的过程,没有分析的信息是毫无价值的。分析的目的就是要把从各方面搜集的信息置于竞争战略的考虑中去。:
分析以上的内容,在竞争情报采集工作中,最重要的是明确信息源,在竞争情报分析工作中,最重要的是采用什么样的分析方法
竞争情报信息源主要有:公共信息源、企业内部信息源、人际网络信息源等
竞争情报分析方法有:定标比超方法、SWOT方法、
2、 企业危机及危机预警
企业危机是指威胁企业生存与发展的危险事件。企业组织面临的危机主要有八种:信誉危机、决策危机、经营管理危机、灾难危机、财务危机、法律危机、人才危机、媒介危机
而企业危机预警是根据企业危机前兆,查找导致前兆的根源,控制危险事态的进一步发展或将危险事件扼杀于萌芽状态,以减少危机的发生或降低危机危害程度的过程。危机预警的研究现状可以总结为两类:(1)在定量研究方面,研究者选择预警指标,赋予每个指标权重,进行加权平均,以最终的数值反映危机程度。(2)在定性研究方面,研究者阐述了危机前的某些征兆,然后给出一些预防建议。这些学者为危机预警研究都作了一定的贡献,同时也存在一些不足:(1)危机征兆分析方法上,割裂了定性分析和定量分析,影响了预测结果的准确性。需要采用定性与定量相结合的研究方法,这样才能准确的反应预防危机。(2)危机预警指标的选择不能灵敏、准确地反映企业的危机征兆;指标体系的计算比较繁琐,难以实施。指标体系的建立要具有针对性和覆盖性,不能片面地反映某一方面。面对激烈的竞争、复杂多变的市场环境,企业必须建立一套预警系统。这可以帮助企业防范与化解危机,并帮助企业在危机妥善防范与处理中总结经验,以便为未来类似问题提供前车之鉴和从根本上消除类似危机再次发生的隐患,实现企业的可持续发展。
3、 有效性研究的重点
通过对以上内容的分析,我们可以发现,本题目就是研究使用什么样的竞争情报信息源、使用什么样的竞争情报分析方法能更有效地完成危机预警过程,改进原有危机预警过程中定性研究和定量研究的不足。
二、检索策略分析
1、检索关键词的选择
与竞争情报有关的检索词:
竞争情报采集方面(公共信息、企业内部信息、人际网络、危机征兆)
竞争情报分析方面(定标比超、SWOT)
竞争情报管理(竞争情报管理机制 、竞争情报系统)
与危机预警有关的检索词:
危机类型方面(信誉危机、决策危机、经营管理危机、灾难危机、财务危机、法律危机、人才危机、媒介危机)
危机预警方面(预警指标、预警系统、危机防范、危机预防、危机预警)
相应的英文检索词:
Early warning indicators, early warning systems, crisis prevention, crisis prevention, crisis warning
Credibility crisis, decision-making crisis, crisis management, disaster crisis, financial crisis, legal crisis, talent crisis, media crisis
Management mechanism of competitive intelligence, competitive intelligence system
Public information, internal information, social network, crisis sign
Benchmarking, SWOT
2、检索策略
首先在“标题途径”选择与竞争情报有关的检索词和与危机预警有关的检索词采用“逻辑与组配”的方式检索
如果检索结果太少,可以在“标题途径”中选择其中一类的检索词,在“关键词途径”选择另一类的检索词,两个途径采用“逻辑与组配”
如果检索结果还是太少,可以在“标题途径”或“关键词途径”中选择其中一类的检索词,在“全文途径”选择另一类的检索词,两个途径采用“逻辑与组配”
如果以上结果还是少,可以在“标题途径”或“关键词途径”中选择其中一类的检索词,在“参考文献途径”选择另一类的检索词,两个途径采用“逻辑与组配”
如果以上方面均不行,可以在“标题途径”或“关键词途径”中用“逻辑或”的方式组配检索这两类检索词,阅读检索结果,选择与本题目最相关的检索资料

三、检索结果

1、中文期刊资料检索

1.1 检索途径和信息源

根据前文的分析,比较重要的检索途径有:标题(题名)、关键词、

辅助检索途径有:主题、分类号、全文

    信息源:中国学术期刊网,维普数据库,万方数据库

1.2中国学术期刊网检索策略:

(1)先选择“题名”途径,进行逻辑组配检索

  检索式1:题名(竞争情报) AND 题名(危机预警) AND 题名(企业)

  结果:10条

 (2)检索结果数量不多,进一步扩大检索范围,在“题名”和“关键词”途径中查找,修改检索式

   检索式2题名(竞争情报) AND 关键词(危机预警)

检索式3关键词(竞争情报) AND 题名(危机预警)

由检索式2,得结果21

由检索式3  得结果12

(3)合并检索式1,检察式2,检索式3的检索结果,得到不重复的结果18条

列表如下:

1.3维普数据库检索策略:

(1)先选择“题名”和“关键词”途径,进行逻辑组配检索

  检索式1:题名(竞争情报) AND 关键词(危机预警)

检索式2关键词(竞争情报) AND 题名(危机预警)

  两者合并去重后得结果:183条

 (2)检索结果过多,需进一步缩小检索范围,仅从“题名”途径进行查找,修改检索式

检索式3:题名(竞争情报) AND 题名(危机预警) AND 题名(企业)

得结果21

 (3)依检索式3的结果为主,并适当吸取检索式1和检索式2中的最相关的结果,得到不重复的结果30条。列表如下:

1.3万方数据库检索策略

 

 

2、中文图书资料检索

 

3、外文期刊资料检索

 

4、外文图书资料检索

4.1 在Sprnger中查找,检索式如下:title( ),得到结果3,最相关电子图书结果如下:

4.2 在google图书中查找 

5、其它资料检索

 在中国学术期刊网中,还得到学位论文10篇,其中硕士学位论文6篇,博士学位论文4篇,列表如下

 

四、检索过程总结与评价

1、本次检索共得到期刊全文资料?篇,其中中文?篇,英文?篇

             查找到有全文的电子图书?本,其中中文?本,英文?本

             查找到文献线索?条,其中图书?本,期刊?篇,获取这些文献线索的全文资料方法是:

2、进一步的检索改进设想

(1)、关于如何提高查全率

2)、关于如何提高查准率

 

五、参考文献

[1]刘国钧,陈绍业.图书馆目录[M].北京:高等教育出版社,1957:15-18.
[2]罗曼.20世纪图书馆效用评估[M].北京:社科文献出版社,2000
[3]Rust R T, Oliver R L. Service quality: New directions in theory and Practice[M]. New York: Sage Publications Inc, 1994

[4]何龄修.读南明史[J].中国史研究,1998,(3):167-173.

[5]OU J P,SOONG T T,et al.Recent advance in research on applications of passive energy dissipation systems[J].Earthquack Eng,1997,38(3):358-361.
[6]王玉林.论图书馆效益评价[J].图书情报工作,2002,10(2):52-55
[7] Oliver R L, Linda G. Effect of Satisfaction and Its Antecedents on Consumer Preference and Intention[J]. Advances in Consumer Research ,1981(8): 88-93

[8]钟文发.非线性规划在可燃毒物配置中的应用[A].赵炜.运筹学的理论与应用——中国运筹学会第五届大会论文集[C].西安:西安电子科技大学出版社,1996.468.

[9]谢希德.创造学习的新思路[N].人民日报,1998-12-25(10).

[10]王明亮.关于中国学术期刊标准化数据库系统工程的进展[EB/OL].http://www.cajcd.edu.cn/pub/wml.html,1998-08-16/1998-10-01.

[11]万锦.中国大学学报文摘(1983-1993).英文版[DB/CD].北京:中国大百科全书出版社,1996

更多相关推荐:
文献检索报告范文

科技信息检索检索报告级专业班学号姓名说明利用所学的文献信息检索知识和检索方法,结合自己的专业,自定检索课题,从多方面广泛收集有关资料,并完成该课题的综合检索报告。一、数据库选择要求1.中文数据库:CNKI系列资…

信息检索报告

信息检索报告班级工程管理姓名马永丽学号120xx6117信息检索发展信息是人类生存与发展的三大支柱之一我们正处于信息爆炸时代每天都有海量的数据并且急速增长面对这样一个庞大无比动态变化的网络信息如何有效地获取管理...

信息检索综合报告

信息检索综合报告姓名学号学院年06月0120xx日1课题名称中文图书馆个性化信息服务现状研究课题名称英文Researchstatusofpersonalizedinformationserviceoftheli...

信息检索学习总结报告

一、自我评价对于本学期的信息检索课程,我自认为自己认真积极,从不缺课、迟到、早退,学习尽心尽力。对于老师讲解的知识也掌握的较为清楚,并且积极与同学交流讨论、互换经验。对上机操作也较为熟悉,信息系意识得到增强,熟…

科技信息检索与技术综合报告

科技信息检索与技术综合报告上课时间周四第89节第18周组员80后与90后大学生比较研究quot80quotandquot90quotComparativeStudyofCollegeStudents一检索12研...

信息检索课题报告

课题检索报告学号XXXX姓名XXX课题名称3D打印技术对社会的影响一课题分析1文献类型期刊论文2文献语种中文3文献范围无特别要求4检索词按照检索词切分法以及检索词筛选原则本课题检索词初定为3D打印影响5预期的文...

信息检索报告格式及范例

信息检索报告格式检索课题题目一分析课题分析课题是实施检索最重要的一步也是检索效率高低或成败的关键课题分析中要注意如下三点a弄清课题研究的目的性和重要性明确课题所属的学科范围b掌握与课题有关的专业知识c明确课题的...

关于中文数据库信息检索的检索报告

关于中文数据库信息检索的检索报告班学号姓名摘要在此次实验中运用360浏览器搜索进入运城学院校园网首页第一页出现9条搜索结果点击欢迎访问运城学院网站进入学院网首页然后通过电子期刊进入中国知网依次完成实验内容关键词...

信息检索与利用综合检索报告

班级姓名学号一检索课题概况一检索课题名称中英文说明检索课题名称结合自己专业自拟会计学专业学生的研究和就业方向Accountingcollegemajor39sresearchandemploymentdirec...

信息检索综述报告

信息检索综合检索报告10级自动化1班学号1062510101姓名陈淑远一检索课题名称基于MPPT的太阳能充电器设计ThedesignofsolarchargerontheMaximumPowerPointTra...

环境污染的信息检索报告

信息检索检索报告学号20xx1250122420xx级法学专业三班姓名刘洁梅说明利用所学的文献信息检索知识和检索方法结合自己的专业自定检索课题从多方面广泛收集有关资料并完成该课题的综合检索报告一数据库选择要求1...

《信息检索》综合检索报告-撰写规范与题目

信息检索综合检索报告1说明利用所学的文献信息检索知识和检索方法结合自己的专业在附录中选定一个课题也可以自定检索课题从多方面广泛收集有关资料并完成该课题的综合检索报告11数据库选择要求1中文数据库CNKI系列资源...

信息检索检索报告(42篇)