千锋教育-做有情怀、有良心、有品质的职业教育机构

手机站
千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站

领取全套视频
千锋教育

关注千锋学习站小程序
随时随地免费学习课程

当前位置:首页  >  技术干货  > Mysql中,like与regexp的区别?

Mysql中,like与regexp的区别?

来源:千锋教育
发布人:xqq
时间: 2023-10-14 00:26:59 1697214419

一、Mysql中,like与regexp的区别

1、适用对象不同

LIKE 函数适用于简单的通配符匹配,例如使用百分号(%)匹配任意字符,或使用下划线(_)匹配单个字符。与此相反,REGEXP 函数支持更灵活、更强大的正则表达式模式匹配功能。

2、速度不同

LIKE 函数比 REGEXP 函数更快,因为它通常能够使用索引优化查询操作,即使查询中使用了通配符。但对于复杂的模式匹配,REGEXP 函数的性能通常也非常出色。

3、语法不同

LIKE 函数和 REGEXP 函数还存在一些语法差异,例如使用LIKE函数时可以使用转义字符来表示通配符字符本身,而使用REGEXP函数时需要使用反斜杠来表示正则表达式字符本身。

二、MySQL的模糊查询

为了便于描述和测试不同模糊查询方式结果,首先给出一个简单的测试用数据表tests如下:

其中,tests表仅含有一个名为words的字段,并对该字段添加全文索引。表中共有6条记录。

1、Like

Like算作MySQL中的谓词,其应用与is、=、>和<等符号用法类似。Like主要支持两种通配符,分别是”_”和”%”,其中前者代表匹配1个任意字符,常用于充当占位符;而后者代表匹配0个或多个任意字符。从某种意义上讲,Like可看作是一个精简的正则表达式功能。

例如,在如上表中查找所有以”hello”开头的记录,则其SQL语句为:

SELECT words FROM tests WHERE words LIKE 'hello%';

查询结果:

如果想查找所有以”hello”开头且至少含有6个字符的记录,则可简单修改SQL语句如下:

SELECT words FROM tests WHERE words LIKE 'hello_%';

查询结果:

另外,当在Like模式字段中,若不包含任何”_”和”%”通配符,则等价于”=”,表示精确匹配,例如查询语句……Like “hello”,则仅返回hello一条记录;还可在Like前加限定词Not,表示结果取反。

2、RegExp

正则表达式具有庞大而丰富的语法,MySQL语法中支持绝大部分正则表达式功能,几乎可以满足所有需求。本文不过多展开正则表达式相关介绍,仅在Like的基础上,简单介绍其与Like模糊搜索方式的区别。

如前所述,Like匹配原则是要求模式串与整个目标字段匹配时,才返回该条记录;而RegExp中则是当目标字段包含模式串时即返回该条记录。例如如下SQL语句将返回所有包含”hello”的记录:

SELECT words FROM tests WHERE words REGEXP 'hello';

而在Like中这样的写法仅返回记录=”hello”的记录。为了限定正则表达式以某个模式串开头或者结尾,可以通过添加”^”和”$”标识符来限定,例如仍然搜索以”hello”开头的目标字段,则其SQL语句为:

SELECT words FROM tests WHERE words REGEXP '^hello';

3、内置函数

对于包含某些特定模式串的模糊搜索,可以通过MySQL内置函数实现。可以完成这一功能的函数包括Instr()、Locate()和Position()等,其功能语法很相近,均是返回子串在字符串中的索引,且索引下标从1开始,当子串不存在是返回0。需要注意的是三个函数中子串和字符串的先后顺序是不一致的。例如以下语句均成功检索,且返回目标索引1。

SELECT INSTR("hello,world", 'hello');-- 1 SELECT LOCATE('hello', "hello,world");-- 1 SELECT POSITION('hello' in "hello, world"); -- 1

应用以上3个内置函数,搜索上述测试表中包含”hello”的记录,则相应SQL语句为:

SELECT words  FROM tests WHERE INSTR(words, 'hello'); SELECT words  FROM tests WHERE LOCATE('hello', words); SELECT words  FROM tests WHERE POSITION('hello' in words);

4、全文索引

全文索引是MySQL中索引的一种,曾经仅在引擎为MyISAM的表中支持,从5.6版本开始在InnoDB中也开始支持全文索引,支持的字段格式包括CHAR、VARCHAR和TEXT。在如上已经添加了全文索引的tests表中,仍然查询包含”hello”的记录,应用全文索引查询的SQL语句为:

SELECT words FROM tests WHERE MATCH(words) against('hello');

实际上,MATCH(words) against(‘hello’)返回的是字段words对目标字符”hello”的匹配程度:当不存在任何匹配结果时,返回0;否则,根据匹配次数的多少和位置先后返回一个匹配度。例如,如下SQL语句返回表中每条记录对目标字段”hello”的匹配度:

SELECT MATCH(words) against('hello') FROM tests;

返回结果如下:

5、查询性能对比

为了对比以上4种模糊搜索方式的性能,我们这里构建一个规模较大且更具一般性的数据表。本文选择采集若干条英文格言,用于创建目标数据库。创建数据表。为简单起见,仅创建一个名为says的字段,且对其添加全文索引。

CREATE TABLE IF NOT EXISTS sayings(says TEXT, FULLTEXT (says));

英文格言信息获取:在网上找了个英文格言的网站,并写了一个python小爬虫爬取页面全部300条英文格言,爬虫源码如下(为了增加记录条数,将300条记录重写100词,即数据库中包含30000条记录):

from pyquery import PyQuery  as pq  from pymysql import connect  doc = pq(url='http://www.1juzi.com/new/43141.html', encoding = 'gb18030') items=doc("div.content>p:nth-child(2n+1)").items()  hots = [item.text() for item in items]  with connect(host="localhost", user="root", password="123456", db='teststr', charset='utf8') as cur:      sql_insert = 'insert into sayings values (%s);'      for _ in range(100):         cur.executemany(sql_insert, hots)

对爬取的英文短句写入创建的数据表中。既然是英文励志格言短句,那么我们就来查询其中包括”success”的记录。首先查询语句中任意位置包含“success”的记录,4种方式SQL语句及执行时间为:

-- LIKE通配符  SELECT says FROM sayings WHERE says LIKE '%success%'  > OK  > 时间: 0.036s  -- REGEXP正则匹配  SELECT says FROM sayings WHERE says REGEXP 'success'  > OK  > 时间: 0.053s -- 内置函数查找 SELECT says FROM sayings WHERE INSTR(says, 'success') > OK > 时间: 0.045s SELECT says FROM sayings WHERE LOCATE('success', says) > OK > 时间: 0.044s SELECT says FROM sayings WHERE POSITION('success' in says) > OK > 时间: 0.047s -- 全文索引 SELECT says FROM sayings WHERE MATCH(says) against('Success') > OK > 时间: 0.006s

可见,全文索引速度最宽,名列前茅其他方式接近一个量级;Like通配符速度其次,但与其他几种查询方式效率相差不大。通过Explain查询计划,我们可以发现全文索引方式由于应用了索引而无需全表查询,所以执行速度快,而其他三种模糊查询方式均为执行全表查询。

实际上,对于添加索引的字段应用Like查询时,可以应用索引加速查询,为勒验证全文索引条件下是否仍然可以应用索引,我们进行第二组性能测试:查询语句中以“success”开头的记录(全文索引方式不支持指定单词开头的查询任务),相应SQL语句即执行时间如下:

SELECT says FROM sayings WHERE says LIKE 'success%'  > OK  > 时间: 0.015s  SELECT says FROM sayings WHERE says REGEXP '^success'  > OK  > 时间: 0.046s  SELECT says FROM sayings WHERE INSTR(says, 'success')=1 > OK > 时间: 0.042s SELECT says FROM sayings WHERE LOCATE('success', says)=1 > OK > 时间: 0.051s SELECT says FROM sayings WHERE POSITION('success' in says)=1 > OK > 时间: 0.049s 20 21SELECT says FROM sayings WHERE MATCH(says) against('Success') > OK > 时间: 0.007s

可以看到,修改后的Like查询效率提升明显,并大幅超过其他方式。但解释查询计划发现,虽然possible_key显示了索引字段,但实际仍然未应用任何索引(key为null),即仍然进行全表查询(Type = All)。之所以带来速度上的大幅提升,仅仅是因为对’success%’要比’%success%’执行字符串匹配要快得多(后者要整列匹配,前者仅需匹配开头的单词即可),而与索引无关。

所以,得到的结论是Like通配符无法有效利用全文索引加速查询,但在特定模式下的查询速度可快于通配符%模式下的查询。

延伸阅读1:MySQL的优势

成本低:开放源代码,社区版本可以免费使用。性能良:执行速度快,功能强大。操作简单:安装方便快捷,有多个图形客户端管理工具(MySQL Workbench/Navicat、MySQLFront, SQLyog等客户端)和一些集成开发环境。兼容性好:安装于多种操作系统,跨平台性好,不存在32位和64位机的兼容,无法安装的问题。
声明:本站稿件版权均属千锋教育所有,未经许可不得擅自转载。
10年以上业内强师集结,手把手带你蜕变精英
请您保持通讯畅通,专属学习老师24小时内将与您1V1沟通
免费领取
今日已有369人领取成功
刘同学 138****2860 刚刚成功领取
王同学 131****2015 刚刚成功领取
张同学 133****4652 刚刚成功领取
李同学 135****8607 刚刚成功领取
杨同学 132****5667 刚刚成功领取
岳同学 134****6652 刚刚成功领取
梁同学 157****2950 刚刚成功领取
刘同学 189****1015 刚刚成功领取
张同学 155****4678 刚刚成功领取
邹同学 139****2907 刚刚成功领取
董同学 138****2867 刚刚成功领取
周同学 136****3602 刚刚成功领取
相关推荐HOT