总结的数据空间

时间:2024.5.14

Dong X, Halevy A, Madhavan J. Reference reconciliation in complex information spaces. In: Proc. of the 25th Int’l Conf. on Management of Data (SIGMOD 20xx). New York: ACM Press, 20xx. 85?96.

(1) 0xx年针对数据空间的演化集成、查询优化等问题进行了研究

(2) 数据空间模型、数据集成和数据查询是数据空间研究中的三个基本问题

(3) 在维基百科中,任务定义为旨在完成特定目标的一系列行为的集合。在信息检索领域, 人们很早就对于任务的概念、分类及特征进行了研究。随着信息技术的发展,计算机日益成 为一个帮助人们解决问题、完成任务的重要工具,从而为任务管理带来新的特点。由此我们 希望在相关工作基础上,从数据管理的角度对任务给出一个形式化的定义。

我们将任务定义为:用户具有明确目标的一系列数据操作的集合。静态的看,任务是一 个与特定目标相关的数据集合;动态的看,任务是针对这一数据集合的操作序列。在完成任 务目标的过程中,用户一方面会创造出新的数据对象,同时也会参阅许多已存在的数据文件。 例如,当用户写一个项目报告时,任务目标可以看作最终的项目报告文件,在书写过程中, 可能需要引用其他文档(网页、邮件等)上的一些内容(数字、图片、表格,等)。基于这 一观察,我们将任务目标物化为用户生成的数据对象,并将与任务相关的数据集合分为两个 子集:目标数据集和参考数据集。目标数据集是指用户在完成任务过程中生成的目标文件集 合;参考数据集是指用户生成目标数据过程中参考过的数据文件。

(4) 在任务定义的基础上,我们进一步提出了任务空间的概念。任务空间定义为一个图,节

点表示任务,边表示任务之间的关系,理论上可以定义多种任务关系,定义任务关系的目的 是为了提高数据管理的效率。研究表明,内容和时间是人们基于任务查询个人数据时经常参 考的两个因素。基于此提出并定义了两种任务关系:内容关系和时间关系。内容关系表示两 个任务内容的相似性,可以支持基于内容的任务查询,如“查询与数据空间相关的所有任务”; 时间关系表示两个任务的并行性,可以支持基于时间的任务查询,如“查询去年所完成的一 些任务”、“查询准备SIGMOD20xx 论文期间所做生成的一些文件”等。任务空间为我们提供了一种用户任务描述数据的方法,基于此模型,用户可以执行基于任务的数据操作。 数据空间查询的特点:?

核心数据空间:

(5)核心数据空间是一个用户曾经访问过的数据对象构成的数据集合。由于人们对 个人数据信息的访问是一种“重访问“,因此我们提出只将用户曾经访问过的数据对 象作为核心数据空间的内容。

核心数据空间是基于用户记忆规律的多维视图。基于诸葛海研究员提出的资源

空间模型,我们提出利用多维空间描述个人数据对象集合。其中每个数据轴对应一个 数据属性,每个数据轴的坐标对应数据对象在该数据轴的取值。

数据轴上坐标的确定基于人的记忆规律。例如,研究表明,“随着时间推移,

人们对于数据特征的记忆不断减弱”,基于此我们将最近访问时间属性区分为{今天, 本周,本月,本年,一年以前},等等。

(6)数据空间演化:

数据空间本质上可以看作一个语义链网络,其中每个节点是一个数据对象,两个数据对 象之间的边称之为语义链。数据演化就是指系统能够自动地更新这个语义链网络,使之真实 准确的反应数据空间的状态。例如,当用户访问了新的数据对象的时候,数据空间能够自动 将该数据对象加入到该语义链网络中,并自动与相关的数据对象建立语义关联。数据空间中 的语义链可以根据用户的需要建立很多种,例如,具有参考关系的文件之间可以建立语义链: 曾经合作过的两个人可以建立语义链;同属于一个任务的两个数据对象可以建立语义链,等 等。我们提出了基于用户行为的数据空间演化策略:基于用户操作,及时补充新的数据对象 和语义关联,及时更新现有的语义链信息,从而使数据空间保持高数据质量。例如,当用户 访问一个新的数据对象的时候,该数据对象会自动增加到核心数据空间中,会自动与相关的 数据对象建立关联。

(7)


第二篇:自己总结的数据库指南


科研论文下载总结(1)——欢迎大家补充,以共勉之

1、先上两个免费下载的网站 :

(1)FOAS:http://foas.gytec.net/Main.aspx

收录重要外文学术期刊共14202种,其中被SCI、SSCI、EI收录,以及核心期刊、同行评审期刊数量约5800余种。提供中英文字顺导航、学科导航,提供刊名、中文刊名、ISSN号、出版社等检索入口。

(2)OAIster:http://oaister.worldcat.org/

最初由密歇根大学开发,现在和OCLC(世界上最大的提供文献信息服务的机构之一)合作了。有2500万的文献量。1000多个期刊和机构信息源。全部是公开可获取的。

这两个搜索引擎都是对公开存取(OA,open access)资料搜索的。这些文献都是可下载的,包括了一些质量很高的期刊和机构图书馆的馆藏。公开存取的概念是当前图书馆、科技文献界比较推崇的方式,主要是为了推动人类知识和科技文献信息的共享

2、再来推荐一个数据库OCLC FirstSearch ,其中12个字库 ,大家按照其名称进行搜索 ,其中 有些库是免费的 。当然,有 强大7+2高校帐户的亲们可以直接进去共享这些资源 ,我个人觉得此库甚好。

(1)ArticleFirst 数据库包括自19xx年以来的16,000多种来自世界各大出版社的期刊目次表页面上的各项内容,每一条记录都对期刊中的一篇文章、新闻故事、信件和其它内容进行描述,并且提供收藏该期刊的图书馆名单。这些期刊的语言大多为英文,同时也有部分为其它语种。目前该库有3,200多万条记录,主题涵盖商业、人文学、医学、科学、技术、社会科学、大众文化等等。该数据库每天更新。

(2)ClasePeriodica数据库由Clase和Periodica两部分组成,其中Clase对专门登载社会科学与人文科学的拉丁美洲期刊中的文献所作的索引; Periodica则涵盖专门登载科学与技术文献的期刊。该数据库对2,700多种以西班牙文、葡萄牙文、法文和英文发表的学术期刊中的65万多条书目引文提供检索。不但包括以泛美问题为主的期刊中的信息,还含有在24个不同的拉丁美洲和加勒比海地区出版的文章、论文、单行本、会议录、技术报告、采访、以及简注。其中,Clase收录的期刊从19xx年开始至今,Periodica收录的期刊从19xx年开始至今。主题有农业科学、历史、人类学、法律、艺术、图书馆学与信息科学、生物学、语言学与文学、化学、管理与会计、通讯科学、医药学、人口统计学、哲学、经济学、物理学、教育学、政治学、工程学、心理学、精密科学、宗教学、外交事务、社会学和地球科学。该数据库每三个月更新一次。

(3)Ebooks收录了OCLC成员图书馆编目的所有电子书的书目信息,接近1,300万种,涉及所有主题,涵盖所有学科,收录日期从公元前1,0xx年至今。该数据库每天更新。

(4)ECO-Index(Electronic Collection Online)是一个学术期刊索引数据库,收录了自19xx年以来来自世界上70多家出版社的 5,000多种期刊,总计680多万条记录,涉及几乎所有学科,主要有农业、商业、科学、技术、文学、医学、宗教、哲学、语言、法律、政治学、心理学、社会学、经济学、教育学、地理学、历史学、人类学、美术以及图书馆学等。该数据库每天更新一次。

(5)ERIC是由美国教育资源信息中心整理的已出版的和未出版的教育方面文献的一个指南,涵盖数千个教育专题,提供了最完备的教育书刊的书目信息,包括对发表在Resources in Education (RIE)月刊上的非期刊资料与每个月发表在Current Index to Journals in Education (CIJE) 上的期刊文章的注释参考,涵盖了从19xx年到现在的有关教育方面的几乎所有资料。ERIC收录了1,000多种的期刊和其它资料,共有记录140多万条,包括一个ERIC叙词表,可免费阅读约24万篇全文文章。主题有成人教育、职业教育、教育评估、残疾与天才教育、

小学与幼儿教育、高等教育、城市教育、教育管理、信息与技术、语言学与语音学、阅读与交流、教师与教师教育等。该数据库每月更新一次。

(6)MEDLINE数据库标引了国际上出版的近2万种期刊,相当于印刷型的索引,如同Index Medicus,Index to Dental Literature和International Nursing Index,包括成千上万条附有实质性摘要的记录。MEDLINE收录了从19xx年至今的2,100多万条记录,主题涵盖了所有医学领域,包括临床用药、牙科学、教育、试验、药品、健康服务管理、护理、营养、病理学、精神病学、毒物学和兽医药品。该数据库每天更新。

(7)OAIster全球联合机构知识库是20xx年密歇根大学在美国梅隆基金会的资助下开展的项目,目前发展成全球最大的开放档案资料数据库,为研究者提供多学科数字资源。该库记录数量已达2,100多万条,来自1,100多家图书馆及研究机构。包括:数字化图书与期刊文章、原生数字文献、音频文件、图像、电影资料、数据集、论文、技术报告、研究报告等。每条记录包括数字资源的全文链接,用户可以查看、下载和保存大量的图片及全文内容。数据库每三个月更新一次。

(8)PapersFirst数据库是一部在世界范围召开的大会、座谈会、博览会、研讨会、专业会、学术报告会上发表的论文的索引。涵盖了自19xx年以来所有来自于大英图书馆文献供应中心的发表过的研讨会、大会、博览会、研究讲习会和会议的资料,共有810多万条记录,所包含的主题就是在所报导的会议中讨论的种种主题,可通过馆际互借获取全文。该数据库每两周更新一次。

(9)ProceedingsFirst是PapersFirst的相关库,是一部在世界范围召开的大会、座谈会、博览会、研讨会、专业会、学术报告会上发表的会议录的索引。涵盖了从19xx年以来所有来自于大英图书馆文献供应中心的发表过的研讨会、大会、博览会、研究讲习会和会议的资料,而且每条记录都包含一份在每次大会上所呈交的文件的清单,从而提供了各次活动的一个概貌,共有近46万条记录。该数据库每周更新两次。

(10)WorldAlmanac数据库的资源来自一本百科全书(Funk & Wagnall's New Encyclopedia)和四本年鉴(The World Almanac and Book of Facts、The World Almanac of the U.S.A.、The World Almanac of U.S. Politics和The World Almanac for Kids)。WorldAlmanac数据库涉及的范畴包括艺术、娱乐、新闻人物、计算机、科学和技术、经济学、体育运动、环境、税收、周年纪念日、美国的城市和州、国防、人口统计、世界上的国家及许多其它的主题,涵盖了自19xx年到现在的资料,有记录近33,000条,可以联机获取包括全部内容的完整记录。数据库每年更新一次。

(11)WorldCatDissertations收集了WorldCat数据库中所有硕博士论文和以OCLC成员馆编目的论文为基础的出版物,涉及所有学科,涵盖所有主题。WorldCat 硕博士论文数据库最突出的特点是其资源均来自世界一流高校的图书馆,如美国的哈佛大学、耶鲁大学、斯坦福大学、麻省理工学院、哥伦比亚大学、杜克大学、西北大学以及欧洲的剑桥大学、牛津大学、帝国理工大学、欧洲工商管理学院、巴黎大学、柏林大学等等,共有1,800多万条记录,其中100多万篇有免费全文链接,可免费下载,是学术研究中十分重要的参考资料。该数据库每天更新。

(12)WorldCat是世界上最大的书目记录数据库,包含OCLC近两万家成员馆编目的书目记录和馆藏信息。从19xx年建库到目前为止,共收录有480多种语言总计近19亿条的馆藏记录、

2.8亿多条独一无二的书目记录,每个记录中还带有馆藏信息,基本上反映了从公元前1,000多年至今世界范围内的图书馆所拥有的图书和其他资料,代表了四千年来人类知识的结晶。文献类型多种多样,包括图书、手稿、地图、网址与网络资源、乐谱、视频资料、报纸、期刊与杂志、文章以及档案资料等等。该数据库平均每十秒更新一次。

3、接下来上几个综合类的学术搜索引擎

(1)http://en.wikipedia.org/wiki/List_of_academic_databases_and_search_engines

(2) http://scholar.google.com/

(3)http://academic.research.microsoft.com/

(4)ISI Web of Knowledge :https://isiknowledge.com/

(5)SciVerse:http://www.sciencedirect.com/

(6)Springer:http://springer.lib.tsinghua.edu.cn/

(7) http://www.citeulike.org/:Citeulike可以对你阅读的网上学术文章和书籍信息进行的保存,分享,组织等,形成个人资料库。支持Tags、RSS订阅、设定优先权、内容到输出到BibTeX、EndNote文献管理系统和由BibTeX输入内容、并支持按Tags和作者查询以及用户组等服务。Citeulike使用简单,注册后无需安装插件,如果是PubMed、SD等学术数据库中的文章,收藏时点几下鼠标就可自动添加作者、期刊名、文章卷期、页码、出版商、摘要等信息,形成标准的引文格式。

欢迎大家评论 添加,我会对新的信息再进行整理,最后转到学术讨论的专门博客上

更多相关推荐:
Java元数据总结

Java元数据总结:Java注释的使用和定义元数据从metadata一词译来,就是“关于数据的数据”的意思。越来越的开源框架都提供了“元数据”支持了,其实也就是注释支持。今天系统学习一下Java注释(Java元…

米尔敦植被数据总结报告英文翻译

米尔敦植被数据总结报告编写:锦江环保咨询公司307国街哈密尔顿59840导言本文件提供了一个简述的方法和植被领域的评估结果,目的是标记出米尔敦坝修复区现有工厂社区,杂草和植物种群修复潜力,以支持米尔敦坝修复区的…

建筑给排水设计中的数据总结

什么场合出现0.1m的间距或高度要求?1)第3.8.15条,水泵基础高出地面不应小于0.10m;2)第3.8.6条,水泵吸水喇叭口至池底的净距不应小于0.10m;3)第5.4.19条,膨胀管出口离接入水箱水面的…

电力大数据总结

电力大数据的发展随着数字信息化时代的迅猛发展,信息量也呈爆炸性增长态势。在人类充分享受信息化带来的资讯、方便和快捷时,也使得全球的数字信息资源正进入到一个前所未有的快速增长期。据IDC统计,20xx年全球数据量…

建筑工程最常用的数据总结

一、框架结构:(砼及钢筋含量)1、一般的框架结构中的混凝土用量可以按“建筑面积*0.22”得出,即一个标准层的折算厚度在22cm左右;2、框架结构的含钢量暂按每m2含钢量60kg计(暂时不考虑影响各建筑物含钢量…

常用数据总结

什么场合出现0.1m的间距或高度要求?1)第3.8.15条,水泵基础高出地面不应小于0.10m;2)第3.8.6条,水泵吸水喇叭口至池底的净距,不应小于0.8倍吸水管管径,且不应小于0.10m;3)第5.4.1…

投标经验数据总结

常见的基础常识12墙一个平方需要64块标准砖18墙一个平方需要96块标准砖24墙一个平方需要128块标准砖37墙一个平方需为192块标准砖49墙一个平方需为256块标准砖计算公式:单位立方米240墙砖用量1/(…

软化水设备在运行时需记录初始数据总结

软化水设备在运行时需记录初始数据总结软化水处理设备在运行过程中,如压力、温度、系统回收率和给水浓度可能有变化而引起产品水流量和质量的改变,为了有效地评价系统的性能,需要在相同的条件下比较产品水流量和质量数据,因…

六上数学背诵公式及数据总结

背诵公式及数据总结:半径与直径的关系:d=2r或r==d2圆周率π=周长=周长÷直径≈3.14直径圆的周长C=πd=2πr半圆周长=圆周长一半+直径==πr+d圆的面积S=πr2环形面积=大圆面积–小圆面积=π…

建筑给排水设计中的数据总结

什么场合出现0.1m的间距或高度要求?1)第3.8.15条,水泵基础高出地面不应小于0.10m;2)第3.8.6条,水泵吸水喇叭口至池底的净距不应小于0.10m;3)第5.4.19条,膨胀管出口离接入水箱水面的…

20xx年全年引述设备、器材进出口数据总结

本信息来自中国印刷及设备器材工业协会20xx年全年印刷设备、器材进出口进出口总额20xx年印刷设备、器材进出口总额49.4832亿美元,创历年来新高,较20xx年的37.16亿美元增长33.14%。其中进口额3…

暖通专业给建筑专业反提条件常用数据总结

暖通专业给建筑专业反提条件常用数据一、地下车库(按照防火分区面积4000m2计算)(天华设计院极小值为3*5m2)1.设置原则:两个排风机房;一个送风机房。2.排风及送风机房面积:排风机房4*5m2(两个);送…

数据总结(75篇)