基于文件系统的全文检索之我见
发表于:2007-07-04来源:作者:点击数:
标签:
上周5做全文检索,遇到很多问题,在这里写出来。 同时借此文感谢sonymusic对我写这个程序的帮助。 以前听别人说全文检索,大都数都是在Microsoft的 SQL Server基础上做全文检索,到现在我还没有弄明白 SQLServer 是怎么来做全文检索的,因为我一直没有用SQLS
上周5做全文检索,遇到很多问题,在这里写出来。
同时借此文感谢sonymusic对我写这个程序的帮助。
以前听别人说全文检索,大都数都是在Microsoft的
SQLServer基础上做全文检索,到现在我还没有弄明白
SQLServer是怎么来做全文检索的,因为我一直没有用SQLServer作过这方面的工作。倒是依稀记得很久以前在chinaasp看到过一篇文章,好像是用asp借助fso组件来实现基于文件系统的全文检索。但是那篇文章我也没有看多大懂,那时候还是刚刚开始用asp,很多东西不明白,现在想找那篇文章,却找不到了。
刚好那天有一个机会让我来做全文检索,要求当然不能用SQLServer了。因为我们的
数据库系统是
Oracle,
服务器是
Linux。开始的时候,没有头绪,我就想到了上面提到的那篇文章。于是我想借助java的File对象来做。刚好不久前做了一个遍历文件系统的程序,于是,我想到只要在这个程序的基础上加上在文件中查找关键字的功能,一个全文检索的功能不就出来了吗。
首先我要实现的是查找一个文件中的文字。思路是这样的,将文件读入变量,然后从这个变量中查找对应的文字,如果有,返回true,否则返回false。
但是,碰到一个问题,要检索的文件并不都是txt文件呀,还有可能会有doc文件。文件格式对于数据的存储肯定是有影响的。例如,一个txt文件和一个word文件,里面都有相同的汉字“中国”,但是用ultraedit打开,word中却不能照到“中国”两个字,也就是说,在doc文件中,Microsoft对文字的存储和在txt或者其他text类型的文件中存储方式是不一样的。
我想到了
windows本身的查找功能,应该称的上windows下的全文检索吧。里面有一个选项:包含文字。于是做了一个实验:在d:盘建立3个文件a.txt,b.txt,c.doc,a和b分别用记事本创建,里面都写上“中国”,c用word创建,里面也写入“中国”,并保存。然后将b.txt的后缀改成b.doc,并且不用word打开。然后用windows的查找功能查找d:盘上包含“中国”文字的文件,结果出来的是a.txt和b.doc。然后把b用word打开并且保存。然后再查,这时候只能查出a.txt。我觉得已经很能够说明问题了,windows的查找,并不能找到word文件中的“中国”。
这样一来,我就能够为自己作不到的事情开脱罪责了。
下面就是我写检索文件中字符的方法,不敢说是最好的方法,但肯定是可行的方法,不过同样不能检索word中的字符。
将文件读入一个byte数组,然后将要检索的文件也读入一个byte数组,然后将这两个数组都toString。然后用String类的indexOf()方法来却定是否含有这个文字,如果有,则返回true,反之返回false。
下面是代码:
package lovefan.fulltextsearch;
/**
* Title:
* Description:
* Copyright: Copyright (c) 2001
* Company: Individual
* @author 胡磊lovefan@
cmmail.com
* @version 1.0
*/
import java.io.*;
public class CheckFile {
/**
* static boolean CheckFile(String filePath,String text)
* 功能:
* 检查文件filePath里面是否含有text字符
*
* 返回值:
* 如果检测到,返回true
* 如果没有检测到,返回false
*
* 参数:
* filePath:被检测文件的全路径
* text:要查找的字符串
*
* 用途:
* 可以用在文件检索,全文检索等情况
*/
public static boolean Check(String filePath,String text){
try {
File file=new File(filePath);
long fileLength=0;
fileLength=file.length();
FileInputStream fis=new FileInputStream(filePath);
byte[] buf=new byte[(int)fileLength];
int bytesRead=0;
StringBuffer sbfFile=new StringBuffer();
StringBuffer sbfText=new StringBuffer();
String src="";
String search="";
while((bytesRead=fis.read(buf))!=-1){
for (int i = 0; i < buf.length; i++) {
sbfFile=sbfFile.append(buf[i]);
}
}
src=sbfFile.toString();
byte[] bufText=new byte[text.length()];
bufText=text.getBytes();
for (int j = 0; j < bufText.length; j++) {
sbfText=sbfText.append(bufText[j]);
}
search=sbfText.toString();
if(src.indexOf(search)>0){
return true;
}
else{
return false;
}
}
catch (Exception ex) {
return false;
}
}
}
这个程序还是有很多缺点:
1、不能检索word、excle中的字符
2、程序效率不高(byte[]变成String的方式不好)
3、如果被检索的文件太大,会造成数据溢出。
如果哪位朋友对全文检索比较感兴趣或者有更深入的研究,请多多指教。
Email:lovefan@cmmail.com
QQ:8482322
原文转自:http://www.ltesting.net