MySQL中全文搜索详解介绍

2024-07-24 12:38:28

字体：大中小

来源：转载

供稿：网友

MySQL中的全文检索是利用查询关键字和查询列内容之间的相关度进行检索,可以利用全文索引来提高匹配的速度.

语法,代码如下:

MATCH (col1,col2,...) AGAINST (expr [search_modifier])

search_modifier: { IN BOOLEAN MODE | WITH QUERY EXPANSION }

例如:SELECT * FROM tab_name WHERE MATCH (col1,col2) AGAINST (search_word);

这里的table需要是MyISAM类型的表,col1、col2需要是char、varchar或text类型,在查询之前需要在col1和col2上建立一个全文索引.

1.使用Mysql全文检索fulltext的先决条件.

表的类型必须是MyISAM,建立全文检索的字段类型必须是char,varchar,text.

2.建立全文检索先期配置

由于Mysql的默认配置是索引的词的长度是4,所以要支持中文单字的话,首先更改这个.*Unix用户要修改my.cnf,一般此文件在/etc/my.cnf,如果没有找到,先查找一下find / -name 'my.cnf'

在 [mysqld] 位置内加入::ft_min_word_len = 2

其它属性还有:

ft_wordlist_charset = gbk

ft_wordlist_file = /home/soft/mysql/share/mysql/wordlist-gbk.txt

ft_stopword_file = /home/soft/mysql/share/mysql/stopwords-gbk.txt

稍微解释一下:

ft_wordlist_charset 表示词典的字符集, 目前支持良好的有(UTF-8, gbk, gb2312, big5)

ft_wordlist_file 是词表文件, 每行包括一个词及其词频(用若干制表符或空格分开,消岐专用)

ft_stopword_file 表示过滤掉不索引的词表, 一行一个.

ft_min_word_len 加入索引的词的最小长度, 缺省是 4, 为了支持中文单字故改为 2

3.建立全文检索

在建表中用FullText关键字标识字段,已存在的表用 ALTER TABLE (或 CREATE INDEX) 创建索引:

CREATE fulltext INDEX index_name ON table_name(colum_name);

4.使用全文检索

在SELECT的WHERE字句中用MATCH函数,索引的关键词用AGAINST标识,IN BOOLEAN MODE是只有含有关键字就行,不用在乎位置,是不是起启位置.

SELECT * FROM articles WHERE MATCH (tags) AGAINST ('旅游' IN BOOLEAN MODE);

将向您讲述在MySQL中如何进行全文搜索.

1,设置基本表格

从创建例子表格开始,使用以下的SQL命令:

mysql> CREATE TABLE reviews (id INT(5) PRIMARY KEY NOT NULL AUTO_INCREMENT, data TEXT);

以上命令创建了一个简单的音乐专集资料库,主要是整段的文字,然后向这个表格中添加一些记录:

mysql> INSERT INTO `reviews` (`id`, `data`) VALUES

(1, 'Gingerboy has a new single out called Throwing Rocks. It's great!');

mysql> INSERT INTO `reviews` (`id`, `data`) VALUES

(2, 'Hello all, I really like the new Madonna single.

One of the hottest tracks currently playing...I've been listening to it all day');

mysql> INSERT INTO `reviews` (`id`, `data`)

VALUES (3, 'Have you heard the new band Hotter Than Hell?

They have five members and they burn their instruments when they play in concerts.

These guys totally rock! Like, awesome, dude!');

验证数据的正确录入,代码如下:

mysql> SELECT * FROM reviews;

+----+--------------------------------------------+

| id | data                                       |

+----+--------------------------------------------+

|  1 | Gingerboy has a new single out called ...  |

|  2 | Hello all, I really like the new Madon ... |

|  3 | Have you heard the new band Hotter Than... |

+----+--------------------------------------------+

3 rows in set (0.00 sec)

2,定义全文搜索字段

接下来,定义您要作为全文搜索索引的字段,代码如下:

mysql> ALTER TABLE reviews ADD FULLTEXT INDEX (data);

Query OK, 3 rows affected (0.21 sec)

Records: 3 Duplicates: 0 Warnings: 0

使用SHOW INDEXES命令来检查索引已经被添加了,代码如下:

mysql> SHOW INDEXES FROM reviews;

+---------+---------------+--------+------+------------+---------+

| Table   | Column_name   | Packed | Null | Index_type | Comment |

----------+---------------+--------+------+------------+---------+

| reviews |  id           | NULL   |      | BTREE      |         |

| reviews |  data         | NULL   | YES  | FULLTEXT   |         |

+---------+---------------+--------+------+------------+---------+

--Vevb.com

2 rows in set (0.01 sec)

3,运行全文搜索

当您拥有了数据和索引,就可以使用MySQL的全文搜索了,最简单的全文搜索方式是带有MATCH...AGAINST语句的SELECT查询,以下是一个简单的例子,可以来查找含有单词“single”的记录,代码如下:

mysql> SELECT id FROM reviews WHERE MATCH (data) AGAINST ('single');+----+

| id |

+----+

| 1 |

| 2 |

+----+

2 rows in set (0.00 sec)

在此，MATCH()将作为参数传递给它的字段中的文字与传递给AGAINST()的参数进行比较，如果有匹配的，那就按照正常的方式返回。注意您可以传递不止一个字段用MATCH()来查看－只需用逗号来分割字段列表。

当MySQL收到了一个全文搜索的请求,它就在内部对每个记录进行评分,不匹配的记录得分为零,而“更相关”的记录会得到比“不太相关”的记录相对更高的分数,相关性是由MySQL的一系列区分标准来决定的，查看MySQL的用户手册可以得到更多的信息.

想看到每个记录的评分如何,只需要返回MATCH()方法作为结果集的一部分,如下所示,代码如下:

mysql> SELECT id, MATCH (data) AGAINST ('rock') FROM reviews;

+----+-------------------------------+

| id | MATCH (data) AGAINST ('rock') |

+----+-------------------------------+

|  1 |                             0 |

|  2 |                             0 |

|  3 |               1.3862514533815 |

+----+-------------------------------+

3 rows in set (0.00 sec)

4,使用逻辑搜索修饰符,Boolean search modifiers.

您还可以使用逻辑搜索修饰符来进行更精确的搜索,这通过在AGAINST语句中添加特殊的IN BOOLEAN MODE修饰符来实现,在以下的例子中,将查找含有单词“single”但是没有“Madonna”的记录,代码如下:

mysql> SELECT id FROM reviews WHERE MATCH (data) AGAINST ('+single -madonna' IN BOOLEAN MODE);

+----+

| id |

+----+

| 1 |

+----+

1 row in set (0.00 sec)

这一搜索特性通常用于搜索单词片断,而不是完整的词语,这可以通过在IN BOOLEAN MODE语句中的*（星号）操作符来实现,以下的例子展示了如何查找单词中含有“hot”的记录,代码如下:

mysql> SELECT id FROM reviews WHERE MATCH (data) AGAINST ('hot*' IN BOOLEAN MODE);+----+

| id |

+----+

| 3 |

| 2 |

+----+

2 rows in set (0.00 sec)

您还可以使用这种方法来查找至少一个传递到AGAINST的参数中,以下的例子查找了至少包含单词“hell”和“rocks”中的一个的记录,代码如下:

mysql> SELECT id FROM reviews WHERE MATCH (data) AGAINST ('hell rocks' IN BOOLEAN MODE);

+----+

| id |

+----+

| 1 |

| 3 |

+----+

2 rows in set (0.00 sec)