数据挖掘实训总结

时间：2024.5.4

数据挖掘实训总结

简单来说，数据挖掘是基于“归纳”的思路，从大量的数据中（因为是基于归纳的思路，因此数据量的大小很大程度上决定了数据挖掘结果的鲁棒性）寻找规律，为决策提供证据。从这种角度上来说，数据挖掘可能并不适合进行科学研究，因为从本质上来说，数据挖掘这个技术是不能证明因果的，以一个最典型的例子来说，例如数据挖掘技术可以发现啤酒销量和尿布之间的关系，但是显然这两者之间紧密相关的关系可能在理论层面并没有多大的意义。不过，仅以此来否定数据挖掘的意义，显然就是对数据挖掘这项技术价值加大的抹杀，显然，数据挖掘这项技术从设计出现之初，就不是为了指导或支持理论研究的，它的重要意义在于，它在应用领域体现出了极大地优越性。

现代的商业社会中，充斥着大量的信息，如何从这些信息中迅速的定位并找到有价值的信息显然可以成为企业制胜的关键，毕竟在这个信息过载的世界里，基于多少信息所做出的决策会显著的影响决策的质量和科学性，而数据挖掘技术就使这种归纳决策得到了实现。数据挖掘可以从企业数据仓库中定位有价值的、但是并未事先被企业员工或者高层管理者知道的信息，并对这些信息进行一些基本的分析（例如聚类、回归等）。从目前的应用来看，将数据挖掘技术应用在营销或企业决策方面，管理者遵循的逻辑是“消费者过去的行为会极大的影响甚至决定未来所做出的选择”，而过往真实的数据显然就是对消费者行为最真实的记录，从中挖掘出的规律对于企业决策自然是至关重要的。

一项好的技术并不一定要面面俱到，就像数据挖掘一样，目前来说，这项技术在理论研究中应用可能并不合适，但是用于实际决策或者企业营销的过程中，显然可以令过往数据完备的企业获益匪浅

下面是个人对数据挖掘技术的认识，和大家讨论一下：

1、数据挖掘是种知识发现，是种foresight（预见性）。它不同于数据分析的就是它从大量的数据中找到信息，信息中发掘出知识，拿这个知识来指导实践。而数据分析就是insight，找到这种现象的原因。

2、数据挖掘是一个过程，需要有反馈，验证，循环往复。不要期望很快就能得到一个好的模型或结论；不要期望一下找到最优。

3、数据挖掘是任务驱动的，不合适由研发来推动。商业数据挖掘应该由市场或销售来发起，他们会发现一些最根本的问题，而这些问题往往是用“提高”或“改善”这样的语言来描述的。并且他们能提供一些经验，有效帮助研发来明确关键的特征，需要特别关注反馈的特征。描述问题，准备数据是数据挖掘的关键。

4、常用的数据挖掘方法就这么几类，模型虽然有好有坏，但是原理是一样的。建议用通用的工具，最基本的方法先对数据进行一下分析，看看哪类模型是最适合的。常用的方法是聚类(K-means)，分类(决策树)，关联分析(Apriori)。常用的工具SPSS，Minitab,SAS.

如果你要成为一名研发人员，为了数据挖掘而数据挖掘是不合适的，为了测试某个模型而去用某个模型也是不合适的，一拿到任务就定制算法更是不合适的。分析要实现什么，能实现什么需要广泛收集大家的意见，特别是做决策的。我们要比决策者更关注得到结论的过程，并要想方设法努力展现。

第二篇：20xx数据挖掘校园招聘--笔试面试经验总结

笔试面试经验总结（2011-9-18~2011-9-19） 2011-9-18雅虎笔试题及答案

1， tcp报文头的内容：源端口，目标端口，序列号，确认号，tcp长度，控制字，窗口大小，

检验和，紧急指针，数据

2，排序算法的比较：稳定性，平均复杂度，最坏复杂度，额外空间 3， Char *copy()

{

Char name[]=”string”; Return name; }的运行状况

4，五个等概率的红球或黑球连成环后，不存在两个相邻红球的概率是11/32 5，字符串赋值改错

#include <stdio.h> #include <string.h> char * GetName (void) {

//To return “MSR Asia” String char name[]="MSR Asia"; return name; }

void main(int argc, char* argv[]) {

char name[32]; //Fill in zeros into name for(int i=0;i<=32;i++) {

name='\0'; }

//copy “Welcome” to name name="Welcome"; //Append a blank char name[8]=" ";

//Append string to name strcat(name,GetName()); //print out printf(name); }

答：改正后为 #include <stdio.h> #include <string.h> char * GetName (void) {

//To return “MSR Asia” String //char name[]="MSR Asia"; （1） char *name=(char *)malloc(strlen("MSR Asia")+1);

strcpy(name,"MSR Asia"); return name; }

void main(int argc, char* argv[]) {

char name[32]; //Fill in zeros into name for(int i=0;i<=32;i++) {

name='\0'; }

//copy “Welcome” to name //name="Welcome"; （2） strcat(name,"Welcome "); //Append a blank char

// name[8]=' '; （3）多余 //Append string to name char *p=GetName(); （4） strcat(name,p); free (p); //print out printf(name); }

char *strcat(char *dest,char *src);

把src所指字符串添加到dest结尾处(覆盖dest结尾处的'\0')并添加'\0'。

6，将有序数组转化成最小深度的二叉查找树：折半查找的思路，每次都把序列中间的点作

为父结点，而左序列中间节点作为左孩子，右序列中间节点作为右孩子

7，在无向无环图中，找到最长的路径：最长路径的起点和终点的度为1，所以可从度为1

的结点开始，依次找到他到其它度为1结点的最长路径，之后从最长路径集中找到最长的路径。对每个度为1的节点做广度优先搜索，得到最长路径

2011-9-19 雅虎一面题及答案

1，一直以来最具成就感的项目，实习时的工作内容 2，进程与线程的区别，线程的缺点，进程间的通信，管道的通信监听

进程和线程都是由操作系统所体会的程序运行的基本单元，系统利用该基本单元实现系统对应用的并发性。进程和线程的区别在于：简而言之,一个程序至少有一个进程,一个进程至少有一个线程. 线程的划分尺度小于进程，使得多线程程序的并发性高。另外，进程在执行过程中拥有独立的内存单元，而多个线程共享内存，从而极大地提高了程序的运行效率。线程在执行过程中与进程还是有区别的。每个独立的线程有一个程序运行的入口、顺序执行序列和程序的出口。但是线程不能够独立执行，必须依存在应用程序中，由应用程序提供多个线程执行控制。

从逻辑角度来看，多线程的意义在于一个应用程序中，有多个执行部分可以同时执行。但操作系统并没有将多个线程看做多个独立的应用，来实现进程的调度和管理以及资源分配。这就是进程和线程的重要区别。

线程的缺点：

每个线程与主程序共用地址空间，受限于2GB地址空间；

线程之间的同步和加锁控制比较麻烦；

一个线程的崩溃可能影响到整个程序的稳定性；

到达一定的线程数程度后，即使再增加CPU也无法提高性能

线程能够提高的总性能有限，而且线程多了之后，线程本身的调度也是一个麻烦事儿，需要消耗较多的CPU

进程间的通信：基于信息量，基于共享内存，基于管道，基于消息队列

3，堆和栈的区别

一个由C/C++编译的程序占用的内存分为以下几个部分

1、栈区（stack）— 由编译器自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中的栈。

2、堆区（heap） — 一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式倒是类似于链表，呵呵。

3、全局区（静态区）（static）—，全局变量和静态变量的存储是放在一块的，初始化的全局变量和静态变量在一块区域，未初始化的全局变量和未初始化的静态变量在相邻的另一块区域。 - 程序结束后由系统释放。

4、文字常量区 —常量字符串就是放在这里的。程序结束后由系统释放

5、程序代码区—存放函数体的二进制代码。

二、堆和栈的理论知识

2.1申请方式

stack: 由系统自动分配。例如，声明在函数中一个局部变量 int b; 系统自动在栈中为b开辟空间

heap: 需要程序员自己申请，并指明大小，在c中malloc函数

2.2 申请后系统的响应

栈：只要栈的剩余空间大于所申请空间，系统将为程序提供内存，否则将报异常提示栈溢

出。

堆：从系统有一个记录空闲内存地址的链表中查找合适的块进行分配，

2.3申请大小的限制

栈：在Windows下,栈是向低地址扩展的数据结构，是一块连续的内存的区域。这句话的意

思是栈顶的地址和栈的最大容量是系统预先规定好的，在WINDOWS下，栈的大小是2M（也有的说是1M，总之是一个编译时就确定的常数），如果申请的空间超过栈的剩余空间时，将提示overflow。因此，能从栈获得的空间较小。

堆：堆是向高地址扩展的数据结构，是不连续的内存区域。这是由于系统是用链表来存储的空闲内存地址的，自然是不连续的，而链表的遍历方向是由低地址向高地址。堆的大小受限于计算机系统中有效的虚拟内存。由此可见，堆获得的空间比较灵活，也比较大。

2.4申请效率的比较：

栈由系统自动分配，速度较快。但程序员是无法控制的。

堆是由new分配的内存，一般速度比较慢，而且容易产生内存碎片,不过用起来最方便.

2.5堆和栈中的存储内容

栈：在函数调用时，第一个进栈的是主函数中后的下一条指令（函数调用语句的下一条可执行语句）的地址，然后是函数的各个参数，在大多数的C编译器中，参数是由右往左入栈的，然后是函数中的局部变量。注意静态变量是不入栈的。

当本次函数调用结束后，局部变量先出栈，然后是参数，最后栈顶指针指向最开始存的地址，也就是主函数中的下一条指令，程序由该点继续运行。

堆：一般是在堆的头部用一个字节存放堆的大小。堆中的具体内容由程序员安排。

2.6存取效率的比较

堆是在运行时刻赋值的；栈是在编译时就确定的；

但是，在以后的存取中，在栈上的数组比指针所指向的字符串(例如堆)快。

4，内存转移memmove函数的思路及实现

存在二种情况，一是源地址与目标地址不重叠，二是重叠或者相等

Void *memmove(void *dest, void* source, size_t count)

{

Assert(NULL!=source && NULL!=dest)

Void *ret=dest;

If(dest<=source ||dest>=(source+count))

{

While(count--)

*dest++=*source++;

}

Else

{

Dest+=count-1;

Source+=count-1;

While(count--)

*dest--=*source--;

}

Return ret;

}

5，内存泄漏的原因及预防方法：不断申请资源没有释放，养成良好的编程习惯，系统无法

做到回收

6，对数据库类型的要求及sql语句的优化

7， Tcp与Udp的区别，三次握手过程：tcp面向接连的确认服务，udp面向无连接的无确认

服务。主机a,b,主机a向b发送一个syn(seq=x),b发送syn(seq=y,ack=x+1),a再发送syn(seq=x+1,ack=y+1)

8，笔试第6题和第7题的思路

2011-9-19 雅虎二面题及答案

1，实习经验所学到的东西，所用的平台

2，合并排序的思想（从小序列到大序列的合并，从大序列到小序列的分解合并）

3， Java笔试题里分治算法的合并排序：把序列平均分成二部分，先把第一部分合并排序，

再把第二部分合并排序，之后将两部分结果借助另一个数组实现两个有序表的选择排序。

4，笔试题第6题和第7题的思路

5，本科毕业论文的内容，研究生研究的内容，数据挖掘常用期刊，会议及数据源

KDD(knowledge discovery in databases),IEEE-ICDM(IEEE International Conference on Data Mining),springer, Elsevier, wiley. uci

6，海量数据下样本的选择（选择具有代表普通用户的样本）

华为云计算研发工程师面试总结（2011-9-2~~2011-9-21）

华为一面技术面2011-9-20下午4：00：

1，自我介绍

2， C++中虚函数的使用

3， C++中析构函数的作用（对象消亡时回收对象的资源），有没有虚函数，能不能传参数（无

返回值无参数，可自行定义）

4，项目相关，项目过程，项目中最关键的工作，你是如何处理的。

华为二面机试2011-9-20下午6：00：

从字符串中找到该字符串第一个字符在本字符串中最后出现的位置，在函数体里填代码，规定时间20分钟。

例如s=”abcabc” indexstr(s)=4

华为三面性格测评：每道题有三个小题，每个小题只有“最符合”和“最不符合”两项，一道只有一个“最符合”和一个“最不符合”，必须放弃一道题。试卷共52页，共104题，答题时间为30分钟。

华为综合面试2011-9-21上午8：30

1，自我介绍

2，简单介绍一下项目，项目过程，项目的输出物，项目的平台

3，客户特征分析有哪些，而后加问了一句“客户特征在数据库里都是哪些”，其实他想表

达的是客户属性

4，怎样表现项目输出物（我用树结构向他说明了一下）

5，既然谈到了树的话，那么树怎么遍历（中序，前序，后序），当场用三种方法遍历一棵

树

6，使用oracle数据库的话，oracle数据库里的实例是个什么概念，当场写一段sql建一张

表

数据库实例是用于和操作系统进行联系的标识，也就是说数据库和操作系统之间的交互使用的是数据库实例

腾讯笔试2011-9-24 10：00—12：00

1，功能不太复杂，效率高的函数

2， LRU缺面处理（最久未使用页面算法）

3，页式内存管理

4， Tcp/ip time_out的处理 5， Linux下umask对文件权限的修改

6， 8进制语法的意思是用0-7代表共8种权限。文件和目录的访问权限位一

共有9位，每3位分别代表属主，所属用户组，其他用户对它的权限。在8进制语法中权限与数字的对应关系是

r对应数字4

w对应数字2

x对应数字1

-对应数字0 例子：-rwxr-xr-x用8进制法表示就是755，rwx=4+2+1=7,r-x=4+0+1=5 8种可能得权限为

八进制数字权限

0 ---

1 --x

2 -w-

3 -wx

4 r--

5 r-x

6 rw-

7 rwx

这样就可以根据需要来组合权限，只需要记住对应的数字就可以了

umask是利用8进制位的方式来定义用户创建文件或目录时的默认权限。可以用umask或umask -S命令来查看当前的umask值。

umask表示的是禁止权限，也就是说原来的权限减去umask值才得到所要定义的默认权限。

对于文件来说，umask 的设置是在假定文件拥有八进制666权限上进行(文件默认没有执行权限x)，文件的权限就是是666减去umask的掩码数值；

对于目录来说，umask 的设置是在假定文件拥有八进制777权限上进行，目录八进制权限777减去umask的掩码数值；

7，单环链表的追尾 p->link=first

8，循环队列的空值数--|rear-front+M|%M

9， Sizeof(共同体),sizeof

10，有序表的二叉查找树

11，系统的负载比较

12，缺页中断的处理过程（）

13，标量运行和向量运行程序的时间比较

14， O(1)

15， Linux三级目录索引

16，归并排序

17，有权有向图的最短路径及输出 floyd算法

百度笔试—机器学习 2011-9-24 3：00—5：00

1，任务调度，并发执行任务，任务可能依赖于其它任务

2，堆与栈的区别，如何分配1kb的缓冲区，此缓冲区在极端情况下需要100mb。 3， Const 修饰词应用，如何用指针取消常量：const int a=10; int * p = (int*)&a; 4，取数轴上最长的线段重合

5，求有权有向图中，两点间的最短路径

6，岭回归的损失函数和罚函数，拉索回归的罚函数与岭回归罚函数的区别

岭回归分析法是从根本上消除复共线性影响的统计方法。岭回归模型通过在相关矩阵中引入一个很小的岭参数K（1>K>0），并将它加到主对角线元素上，从而降低参数的最小二乘估计中复共线特征向量的影响，减小复共线变量系数最小二乘估计的方法，以保证参数估计更接近真实情况。岭回归分析将所有的变量引入模型中，比逐步回归分析提供更多的信息。

搜狐视频数据挖掘算法工程师笔试2011-9-25 10：00—11：30

1，类的继承

2，资源互斥下的死锁

3，一维数组，元素为指针，指针指向一个参数为Int，返回值为int的函数 4，进程间的通信方式

5， Const标志符常量一定要？

6， String的普通构造函数，拷贝构造函数，赋值函数，析构函数

7， Strcpy函数

8， N个不同数的全排列，打印所有全排列

9， Sizeof(char name[]=”hello”)

10，继承的转换（子类可以转换成基类，基类不能转换成子类，多继承下同一子类

的基类间不能相互转换）

腾讯一面2011-9-25 14：10~14：25

1，自我介绍(性格方面的

2，关于二次购买的预测项目

3，关于职业规划

4，对游戏的看法

5，对于技术和产品的看法

6，关于从商务平台转换到游戏平台

7，阿里巴巴有没有留Offer

备注：本次面试官并不是数据挖掘方面的，他看我的简历很适合他的同事部门，所以帮他的同事面的。问完上述问题后，留了一份电子简历给他的同事，如果他的同事觉得可以的话，第二天会电话面试我。其实这也是运气，我的同学们一直在纠结技术，而我如此幸运的过了一面，等待二面通知。

腾讯游戏安全中心二面2011-9-26 上午11：20-12：00

由于昨天面试官的推荐，今天游戏安全中心的员工打来电话面试。与其说是聊一下，倒不如说是往死面，把我蹂躏得不行了，我快招架不住。估计这面是希望了，运气这东西真的很重要。主要问了这么些问题

1， web社区发现的应用趋势

2， web社区里团的边界定义

3， web社区里距离的定义

4， web社区里算法里数据的存储形式

5， web社区发现的经典算法及其当前的应用，是否已经成功应用于商业（facebook的api

数据来源）

6，数据挖掘的可视化软件

7， static 静态变量和静态函数的作用（静态变量放在静态存储区，被多次使用时不被清除，

若放在栈中函数被执行后会被清除，静态函数只有在被定义的模块中使用，不能被其它模块使用）

8，进程与线程的区别，系统给进程分配的最大内存是多少？

9，分类算法介绍判定树，属性的选择，目标属性为二值属性时属性的选择（判定树选择属

性）

腾讯游戏安全中心三面2011-9-27 9：00~9：30

1，自我介绍

2， Web社区问题的定义及应用

3， Web社区关系的定义及如何抽取

4， Web社区算法（我自己的算法）的流程，算法的优点和不足

5， Web社区经典算法的介绍

6，当前自己算法存在的问题及后期如何改进

7，后期的职业规划

8，阿里巴巴实习的工作内容

9，数据特征分析里一个简单的项目介绍（无名良品数据的抽取，优质客户的定义） 10，为什么不回阿里

整个面试过程比较顺利，气氛比较愉快，面试官对我的回答一直频频点头，在出门时刻却什么都没说，包括对岗位的理解和后续复试通知之类的内容。这让我很没底。搜狐视频数据挖掘算法工程师2011-9-27 10：30~11：00

1，自我介绍

2， Web社区发现的介绍及其商业价值

3，属性的选取方法

4，在阿里是如何描述客户的

5，使用哪些软件，平时使用哪些语言

6，是否愿意实习

7，为什么没有继续实习

8，机器学习如何应用到数据分析和挖掘中

9，统计学自已有哪些不足

10，有其它需要了解的内容（团队的历史，团队的规模，当前团队的地位，岗位具体的

工作内容等）

整个面试过程比较轻松，尤其是在面过腾讯的总经理面之后更是如此。搜狐比较顺利，对方对我比较满意，希望能够有进一步的交流合作机会

腾讯数据挖掘hr面2011-9-28 9：00——9：30

今天结束了腾讯的最后一轮面试，这个Hr看着很文静，实则非常地犀利，方方面面都问到了，而且还问得很巧妙。除了一些无关紧要的问题她会笑一下外，其它的主要问题不管你的回答怎样，她都不会表现出来。最后也没有给我任何积极的暗示。主要的问题如下：

1，自我介绍

2，在学校的成绩排名，有没有当过班干部，有没有项目，有没有拿过奖学金

3，简历上的项目介绍

4，家庭情况介绍

5，对工作的预期和看法，未来三年的规划

6，对qq企业文化的了解和qq产品的了解

7，对于数据挖掘工作的辛苦，自己的看法

8，为什么不留在阿里

9，对数据挖掘在行业其它公司的理解和看法

10，什么时候毕业，能不能在毕业前去实习

网易数据挖掘研究员笔试2011-10-10 19：00~21：00

1，字符串匹配的算法复杂度（主串N,字串M）N+M

2，排序算法的稳定性(快速排序为非稳定)

3，平衡二叉树的插入

4， 20个亿整数的两个集合a与b,求a与b的交集，内存为4Gb

5，在N个无序数中找K个最小值

6，页面文件的逻辑地址位（8个1024字放内32帧内存里）

7，计算机网络各层应用连接

8，哪一种模式不关心算法

Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。（使用得非常频繁。）

Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。

Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。

Builder：将一个复杂对象的构建与它的表示分离，使得同样的构建过程可以创建不同的表示。

Chain of Responsibility：为解除请求的发送者和接收者之间耦合，而使多个对象都有机会处理这个请求。将这些对象连成一条链，并沿着这条链传递该请求，直到有一个对象处理它。

Command：将一个请求封装为一个对象，从而使你可用不同的请求对客户进行参数化；对请求排队或记录请求日志，以及支持可取消的操作。

Composite：将对象组合成树形结构以表示“部分-整体”的层次结构。它使得客户对单个对象和复合对象的使用具有一致性。

Decorator：动态地给一个对象添加一些额外的职责。就扩展功能而言，它比生成子类方式更为灵活。

Facade：为子系统中的一组接口提供一个一致的界面， F a c a d e模式定义了一个高层接口，这个接口使得这一子系统更加容易使用。

Factory Method：定义一个用于创建对象的接口，让子类决定将哪一个类实例化。Factory Method使一个类的实例化延迟到其子类。

Flyweight：运用共享技术有效地支持大量细粒度的对象。

Interpreter：给定一个语言, 定义它的文法的一种表示，并定义一个解释器, 该解释器使用该表示来解释语言中的句子。

Iterator：提供一种方法顺序访问一个聚合对象中各个元素, 而又不需暴露该对象的内部表示。

Mediator：用一个中介对象来封装一系列的对象交互。中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。

Memento：在不破坏封装性的前提下，捕获一个对象的内部状态，并在该对象之外保存这个状态。这样以后就可将该对象恢复到保存的状态。

Observer：定义对象间的一种一对多的依赖关系,以便当一个对象的状态发生改变时,所有依赖于它的对象都得到通知并自动刷新。

Prototype：用原型实例指定创建对象的种类，并且通过拷贝这个原型来创建新的对象。

Proxy：为其他对象提供一个代理以控制对这个对象的访问。

Singleton：保证一个类仅有一个实例，并提供一个访问它的全局访问点。

State：允许一个对象在其内部状态改变时改变它的行为。对象看起来似乎修改了它所属的类。

Strategy：定义一系列的算法,把它们一个个封装起来, 并且使它们可相互替换。本模式使得算法的变化可独立于使用它的客户。

Template Method：定义一个操作中的算法的骨架，而将一些步骤延迟到子类中。Template Method使得子类可以不改变一个算法的结构即可重定义该算法的某些特定步骤。

Visitor：表示一个作用于某对象结构中的各元素的操作。它使你可以在不改变各元素的类的前提下定义作用于这些元素的新操作

9，数据库系统的两种语言（一种用于定义数据库模式；另一种用于表达数据的查询和更

新）

10，数据库的连接运算

11，建立索引的原则

在经常需要搜索的列上，可以加快搜索的速度；在作为主键的列上，强制该列的唯一性和组织表中数据的排列结构；在经常用在连接的列上，这些列主要是一些外键，可以加快连接的速度；在经常需要根据范围进行搜索的列上创建索引，因为索引已经排序，其指定的范围是连续的；在经常需要排序的列上创建索引，因为索引已经排序，这样查询可以利用索引的排序，加快排序查询时间；在经常使用在WHERE子句中的列上面创建索引，加快条件的判断速度。

不应该创建索引的的这些列具有下列特点：第一，对于那些在查询中很少使用或者参考的列不应该创建索引。这是因为，既然这些列很少使用到，因此有索引或者无索引，并不能提

高查询速度。相反，由于增加了索引，反而降低了系统的维护速度和增大了空间需求。第二，对于那些只有很少数据值的列也不应该增加索引。这是因为，由于这些列的取值很少，例如人事表的性别列，在查询的结果中，结果集的数据行占了表中数据行的很大比例，即需要在表中搜索的数据行的比例很大。增加索引，并不能明显加快检索速度。第三，对于那些定义为text, image和bit数据类型的列不应该增加索引。这是因为，这些列的数据量要么相当大，要么取值很少。第四，当修改性能远远大于检索性能时，不应该创建索引。这是因为，修改性能和检索性能是互相矛盾的。当增加索引时，会提高检索性能，但是会降低修改性能。当减少索引时，会提高修改性能，降低检索性能。因此，当修改性能远远大于检索性能时，不应该创建索引。

12，事务的定义与特点，事务隔离的级别

事务（Transaction）是并发控制的单位，是用户定义的一个操作序列。这些操作要么都做，要么都不做，是一个不可分割的工作单位。通过事务，SQL Server能将逻辑相关的一组操作绑定在一起，以便服务器保持数据的完整性。

事务的特性(ACID特性)

A:原子性(Atomicity)，事务是数据库的逻辑工作单位，事务中包括的诸操作要么全做，要么全不做。

B:一致性(Consistency)，事务执行的结果必须是使数据库从一个一致性状态变到另一个一致性状态。一致性与原子性是密切相关的。

C:隔离性(Isolation)，一个事务的执行不能被其他事务干扰。

D:持续性/永久性(Durability)，一个事务一旦提交，它对数据库中数据的改变就应该是永久性的。

未授权读取（允许脏读取，但不允许更新丢失），授权读取（允许不可重复读取，但不允许脏读取），可重复读取（禁止不可重复读取和脏读取，但是有时可能出现幻影数据）和序列化（事务序列化执行，不能并发执行）

13，专业题一数据挖掘的步骤

14， Pca的概念和处理过程（主成分分析）

15， K中心点聚类算法简介

首先为每个簇随意选择一下代表对象，将剩余的对象根据其与代表对象的距离分配给最近的一个簇。然后反复地用非代表对象来替代代表对象，以改进聚类的质量。判定一个非代表对象O是否是当前一个代表对象的O1的好的替代，对于每一个非代表对象p，下面的四种情况考虑。

1， p当前属于代表Oj,如果Oj被O代替，p离Oi最近，那么p被重新分配给Oi

2， p当前属于代表Oj,如果Oj被O代替，p离O最近，那么p被重新分配给O

3， p当前属于代表Oi,如果Oj被O代替，p离Oi最近，那么p不变

4， p当前属于代表Oi,如果Oj被O代替，p离Oi最近，那么p被重新分配给O

16，中文分词技术简介，常用数据结构和算法

17，分类器的主流评测指标：准确率，速率，鲁棒性，可规模性和可解释性

18，如何建立一个智能问答系统，思路

19，如何建立一个智能商品推荐系统，思路

支付宝笔试2011-10-10 16：20~17：30

1，求最短路径

2， Ping命令

3， Request的命令

4，网页回应代号

5，设计模式

6，智力题

7，流水线问题

8，文法问题

网易电话面试2011-10-14 19：00~19：30

1，阿里巴巴实习的工作内容

2，阿里数据挖掘建模的效果

3，阿里留存率的模型介绍，效果如何，目的如何

4， Web社区发现的介绍，当前的研究现状，是否有实际应用

5，分类算法，有没有用过，实现过

6， C++语言的熟练程度，stl是否用过

7，现在手里的offer，阿里的offer，如果公司有意愿的话，如何选择

8，对加班的看法，对跳槽的看法

9，对杭州城市的看法，有没有男朋友在杭州，家是哪里的（工作稳定性）

10，当前部门工作，部门的历史，（从信息安全那里数据挖掘分过来的，成立半年）支付宝电面2011-10-12 19:50~8:10

1，自我介绍

2，数据处理，最大的数据量，有没有sql数据处理经验

3，有没有用高级语言写过算法

4，比较熟悉的数据挖掘算法

5， Sql问题，full join, having

6，为什么试卷上主观题和附加题没有写

7，未来一到两年的规划

8，学习能力很强的表现（自学sas软件）

9，阿里有没有留offer

10，关于对公司想要了解的方面（团队的工作内容，未来规划，团队的历史） 11，未来两周内给见面反馈

由于刚吃完饭回来，而且下午没有接到电话以为晚上不会有电话的，所以没有心理准备，开始的时候比较紧张，慢慢倒是好了不少。

更多相关推荐：

数据挖掘总结: 数据挖掘总结职业篇数据分析微信公众号datadw关注你想了解的分享你需要的前面对数据挖掘相关资源等等进行了总结但是很多人不明白学习数据挖掘以后干什么这个问题也经常被问到记得刚学数据挖掘的时候有一个老师说学数据挖...
数据挖掘的一些总结: 深入浅出谈数据挖掘段勇编者的话本文对数据挖掘概念的产生数据挖掘与常规数据分析的主要区别所能解决的几大类问题和所应用的领域都有着非常清晰的论述作者在此篇文章中认为数据挖掘最重要的要素是分析人员的相关业务知识和思维...
数据挖掘与分析心得体会: 正如柏拉图所说：需要是发明之母。随着信息时代的步伐不断迈进，大量数据日积月累。我们迫切需要一种工具来满足从数据中发现知识的需求！而数据挖掘便应运而生了。正如书中所说：数据挖掘已经并且将继续在我们从数据时代大步跨…
数据挖掘总结: 1p2613假设你是BigUniversity的软件工程师任务是设计一个数据挖掘系统分析学校课程数据库该数据库包括如下信息每个学生的姓名地址和状态例如本科生或研究生所修课程以及他们的GPA平均积分点描述你要选取...
web数据挖掘总结: 一数据挖掘数据挖掘是运用计算机及信息技术从大量的不完全的数据集中获取隐含在其中的有用知识的高级过程Web数据挖掘是从数据挖掘发展而来是数据挖掘技术在Web技术中的应用Web数据挖掘是一项综合技术通过从Inter...
数据挖掘功能及各自方法总结: 数据挖掘功能的特点及主要挖掘方法一、数据挖掘功能的特点及主要挖掘方法数据挖掘的目标是从数据库中发现隐含的、有意义的知识，主要有以下几类功能：(1)概念描述概念描述又称数据总结，其目的是对数据进行浓缩，给出它的综…
数据挖掘算法总结: 数据挖掘面试题总结转1给定ab两个文件各存放50亿个url每个url各占64字节内存限制是4G让你找出ab文件共同的url方案1可以估计每个文件安的大小为50G64320G远远大于内存限制的4G所以不可能将其完...

数据挖掘期末考试答案总结: 一业务理解业务理解包括确定商业对象了解现状建立数据挖掘目标和制定计划书应该是对数据挖掘的目标有一个清晰的认识知道利润所在其中包括数据收集数据分析和数据报告等步骤二数据理解一旦商业对象和计划书确定完备数据理解就考...
数据挖掘与商务智能总结: 第一章绪论什么是数据挖掘什么是商业智能从大型数据库中提取有趣的非平凡的蕴涵的先前未知的且是潜在有用的信息或模式商业智能是要在必须的时间段内把正确有用的信息传递给适当的决策者以便为有效决策提供信息支持分类算法的评...
数据挖掘与预测分析术语总结: 数据挖掘与预测分析术语总结数据挖掘目前在各类企业和机构中蓬勃发展因此我们制作了一份此领域常见术语总结希望你喜欢分析型客户关系管理AnalyticalCRMaCRM用于支持决策改善公司跟顾客的互动或提高互动的价值...
数据挖掘: 数据挖掘总结之书籍篇1数据挖掘概念与技术作者JiaweiHan著范明孟小峰译这本书在业界相当出名吧作者也是超牛httpwwwcsuiuceduhanj主要是从数据库数据仓库方面入手讲的很全面作为数据挖掘入门是本...
数据仓库与数据挖掘知识总结: 华北科技学院课程考查报告班级软件B121姓名梁高荣学号20xx07044107课程名称数据仓库与数据挖掘课程性质开设学期20xx20xx学年第1学期考核成绩任课教师栾尚敏20xx年11月20日目录一数据仓库21...

热门关注