手机浏览 RSS 2.0 订阅 膘叔的简单人生 , 腾讯云RDS购买 | 超便宜Qcloud , 注册 | 登陆
浏览模式: 标准 | 列表分类:DataBase

全文索引的苦逼记事二

 继昨天的处理之后,又来新的笔记 ,这次的笔记纯粹是个人的测试,与实际条件有关,比如,我要查询的字段不超过varchar的255的长度,所以我才这么做。

昨天做普通索引后,1100万条记录,索引 为220M,改成全文索引后,索引文件为1.1G,存储空间上,涨了5倍左右。

以下是笔记 ,请不要笑话,场景不同而已

 

  • 经过测试
    • title 字段改为全文索引后,在1100万条的时候
      • 优点:
        • 速度也为0.0x秒级。速度非常快
        • 即使有or条件,只要带了limit参数,速度也非常快
      • 缺点:
        • 如果查询不带limit ,直接卡死,因为他要计算total count
        • select count() 卡死
        • 如果查询不存在的关键字,卡死
    • 使用方法
      • 尽量不做select count 查询 (数量低于100万时可以考虑,超过100万时,其实已经没有必要)
      • 查询一定要带上limit条件
      • 每次查询到不存在的关键字时,记录到关键词库,每次有新增记录时,select 关键词库一下,如果新增房间中有关键字,则将关键词去除,避免卡死
  • 暂时不使用coreseek(sphinx)/xunsearch等第三方工具
    • xunsearch只支持分词查询,不支持完全匹配
    • 第三方工具,耗内存,而且增量的时候,不够及时

Tags: 索引

全文索引的苦逼记事一

 这是一篇未完成的博客,在这里面做了一点记录

场景:需要做一个关于标题的模糊查询,只是记录有点多,而且需要相对精确,比如搜索:ac, 不能出现abc,可以接受acb,bac,之类。
测试:
1、100万数据,mysql / mongo ,在这种情况下。无论是查询什么数据,基本上都在0.00x秒级,
mysql的查询是like '%xxxx%' , mongo 是 {title:/xxxx/i} 
一般情况下,两者速度真心差不多,但如果查询一下不数据库中不存在的关键字,一般都在0.2秒至2秒左右,mongo会相对好一点,在0.5秒
 
2、500万~1000万数据
查询条件如上
mysql 查询的时候 cpu 占40%左右,20多秒 (mysql 1100万数据)
mongo 查询的时候 CPU占50%左右,10秒/8秒左右 (mongo 550万)
这种性能没法用啊
 
---下一步
1、xunsearch / coreseek(sphinx)
2、mysql 全文索引
 
需要再次测试一下。关键mysql虽然100万只有0.00x或者0.0x秒左右。但是如果多个并发的时候就会卡死了。
所以需要再次考虑 场景的复杂性

Tags: 索引

MySQL STRAIGHT_JOIN 与 NATURAL JOIN

 这是一篇文档的简要介绍,本来没有想过要提的,因为我以前真没用过straight join,看到这个名词其实是老王的一句话,他说,利用这个优化了SQL,于是就看了一下。果然发到了这句话:

XML/HTML代码
  1. STRAIGHT_JOIN 实际上与内连接 INNER JOIN 表现完全一致,不同的是使用了 STRAIGHT_JOIN 后,table1 会先于 table2 载入。  
  2. 提示  
  3. MySQL 在执行 INNER JOIN 的时候,会根据自己内部的优化规则来决定先载入 table1 还是 table2,如果您确认 MySQL 载入表的顺序并不是最优化的时候,就可以使用 STRAIGHT_JOIN 以替代 INNER JOIN。  

我参考的这页,说是关于mysql 的join有五篇:

本章节内容共分 5 部分:

  1. 1. MySQL JOIN 语法说明与 INNER JOIN 语法用法实例
  2. 2. MySQL LEFT JOIN 语法用法与实例
  3. 3. MySQL RIGHT JOIN 语法用法与实例
  4. 4. MySQL JOIN 多表连接
  5. 5. MySQL STRAIGHT_JOIN 与 NATURAL JOIN
  6. 确实 是值得一看。

Tags: mysql

mongodb 的 geo near

 本来是想用mongo的geo功能来做查询,想着这个功能是它自带的,性能一定很牛叉吧?结果事实让我们非常失望。

我们做了一个简单的测试,插了1000万条数据,y=x的方式插入,即[0.00001,0.00001]~[99.99999,99.99999],在坐标上其实就是显示成一条实现。如果我们随便指定一个坐标值,求near。你会发现其实很卡。。。20多秒才能出数据,而且还不准。

要知道我的机器可是:i7 4核,16G内存,SSD的硬盘,都这么卡,而且出来的都这么慢。

当然,其实更重要的是不准。。。我坐标[20,90],查出来的点,居然是[55,55],这太让人伤心了。随便算了算,怎么着都应该是77左右啊。。。

估计,只能用mysql了。。。伤心。

 

Tags: mongo

MySQL中show语法

我知道,你看到下面的内容,一定没有兴趣往下读,实在太乱了,所以我准备了两份PDF,希望你们读起来会方便一点(两种不同的排版方式,看各位喜欢了)

1、第一份,原网站的排版:mysql中show 句法得到表列及整个库的详细信息(精品珍藏).pdf

2、我自己整理的markdown格式的排版:mysql_show命令.pdf

mysql show命令

show databases;

show tables from db_name;

show columns from table_name from db_name;

show index from talbe_name [from db_name];

show status;

show variables;

show [full] processlist;

show table status [from db_name];

show grants for user;

除了status,processlist和grants外,其它的都可以带有like wild选项,它可以使用SQL的'%'和'_'字符;

show databases like '%t';

将会列出所有数据库名字末尾为't'字符的数据库

当然了,在这些sql中,你也可以用db_name.table_name来代替 table_name from db_name这样写会更简便些!

如果一个用户没有一个表的任何权限,表将不在SHOW TABLES或mysqlshow db_name中的输出中显示

大家可能还记得describe table_name ,它实现的是与show columns from db_name.table_name一样的效果

show status将可以用mysqlshow --status 来得到同样的效果

  • 含义
  • Name 表名
  • Type 表的类型 (ISAM,MyISAM或HEAP)
  • Row_format 行存储格式 (固定, 动态, 或压缩)
  • Rows 行数量
  • Avg_row_length 平均行长度
  • Data_length 数据文件的长度
  • Max_data_length 数据文件的最大长度
  • Index_length 索引文件的长度
  • Data_free 已分配但未使用了字节数
  • Auto_increment 下一个 autoincrement(自动加1)值
  • Create_time 表被创造的时间
  • Update_time 数据文件最后更新的时间
  • Check_time 最后对表运行一个检查的时间
  • Create_options 与CREATE TABLE一起使用的额外选项
  • Comment 当创造表时,使用的注释 (或为什么MySQL不能存取表信息的一些信息)。

SHOW FIELDS是SHOW COLUMNS一个同义词,SHOW KEYS是SHOW INDEX一个同义词。你也可以用mysqlshow db_name tbl_name或mysqlshow -k db_name tbl_name 列出一张表的列或索引。

SHOW INDEX以非常相似于ODBC的SQLStatistics调用的格式返回索引信息。下面的列被返回:

列 含义

Table   表名

Non_unique  0,如果索引不能包含重复。

Key_name    索引名

Seq_in_index    索引中的列顺序号, 从 1 开始。

Column_name 列名。

Collation   列怎样在索引中被排序。在MySQL中,这可以有值A(升序) 或NULL(不排序)。

Cardinality 索引中唯一值的数量。这可通过运行isamchk -a更改.

Sub_part    如果列只是部分被索引,索引字符的数量。NULL,如果整个键被索引。

SHOW STATUS提供服务器的状态信息(象mysqladmin extended-status一样)。输出类似于下面的显示,尽管格式和数字可以有点不同:

+--------------------------+--------+

| Variable_name            | Value  |

+--------------------------+--------+

| Aborted_clients          | 0      |

| Aborted_connects         | 0      |

| Connections              | 17     |

| Created_tmp_tables       | 0      |

| Delayed_insert_threads   | 0      |

| Delayed_writes           | 0      |

| Delayed_errors           | 0      |

| Flush_commands           | 2      |

| Handler_delete           | 2      |

| Handler_read_first       | 0      |

| Handler_read_key         | 1      |

| Handler_read_next        | 0      |

| Handler_read_rnd         | 35     |

| Handler_update           | 0      |

| Handler_write            | 2      |

| Key_blocks_used          | 0      |

| Key_read_requests        | 0      |

| Key_reads                | 0      |

| Key_write_requests       | 0      |

| Key_writes               | 0      |

| Max_used_connections     | 1      |

| Not_flushed_key_blocks   | 0      |

| Not_flushed_delayed_rows | 0      |

| Open_tables              | 1      |

| Open_files               | 2      |

| Open_streams             | 0      |

| Opened_tables            | 11     |

| Questions                | 14     |

| Slow_queries             | 0      |

| Threads_connected        | 1      |

| Threads_running          | 1      |

| Uptime                   | 149111 |

+--------------------------+--------+

上面列出的状态变量有下列含义:

  • Aborted_clients 由于客户没有正确关闭连接已经死掉,已经放弃的连接数量。
  • Aborted_connects 尝试已经失败的MySQL服务器的连接的次数。
  • Connections 试图连接MySQL服务器的次数。
  • Created_tmp_tables 当执行语句时,已经被创造了的隐含临时表的数量。
  • Delayed_insert_threads 正在使用的延迟插入处理器线程的数量。
  • Delayed_writes 用INSERT DELAYED写入的行数。
  • Delayed_errors 用INSERT DELAYED写入的发生某些错误(可能重复键值)的行数。
  • Flush_commands 执行FLUSH命令的次数。
  • Handler_delete 请求从一张表中删除行的次数。
  • Handler_read_first 请求读入表中第一行的次数。
  • Handler_read_key 请求数字基于键读行。
  • Handler_read_next 请求读入基于一个键的一行的次数。
  • Handler_read_rnd 请求读入基于一个固定位置的一行的次数。
  • Handler_update 请求更新表中一行的次数。
  • Handler_write 请求向表中插入一行的次数。
  • Key_blocks_used 用于关键字缓存的块的数量。
  • Key_read_requests 请求从缓存读入一个键值的次数。
  • Key_reads 从磁盘物理读入一个键值的次数。
  • Key_write_requests 请求将一个关键字块写入缓存次数。
  • Key_writes 将一个键值块物理写入磁盘的次数。
  • Max_used_connections 同时使用的连接的最大数目。
  • Not_flushed_key_blocks 在键缓存中已经改变但是还没被清空到磁盘上的键块。
  • Not_flushed_delayed_rows 在INSERT DELAY队列中等待写入的行的数量。
  • Open_tables 打开表的数量。
  • Open_files 打开文件的数量。
  • Open_streams 打开流的数量(主要用于日志记载)
  • Opened_tables 已经打开的表的数量。
  • Questions 发往服务器的查询的数量。
  • Slow_queries 要花超过long_query_time时间的查询数量。
  • Threads_connected 当前打开的连接的数量。
  • Threads_running 不在睡眠的线程数量。
  • Uptime 服务器工作了多少秒。

关于上面的一些注释:

如果Opened_tables太大,那么你的table_cache变量可能太小。

如果key_reads太大,那么你的key_cache可能太小。缓存命中率可以用key_reads/key_read_requests计算。

如果Handler_read_rnd太大,那么你很可能有大量的查询需要MySQL扫描整个表或你有没正确使用键值的联结(join)。

SHOW VARIABLES显示出一些MySQL系统变量的值,你也能使用mysqladmin variables命令得到这个信息。如果缺省值不合适,你能在mysqld启动时使用命令行选项来设置这些变量的大多数。输出类似于下面的显示,尽管格式和数字可以有点不同:

 

+------------------------+--------------------------+

| Variable_name          | Value                    |

+------------------------+--------------------------+

| back_log               | 5                        |

| connect_timeout        | 5                        |

| basedir                | /my/monty/               |

| datadir                | /my/monty/data/          |

| delayed_insert_limit   | 100                      |

| delayed_insert_timeout | 300                      |

| delayed_queue_size     | 1000                     |

| join_buffer_size       | 131072                   |

| flush_time             | 0                        |

| interactive_timeout    | 28800                    |

| key_buffer_size        | 1048540                  |

| language               | /my/monty/share/english/ |

| log                    | OFF                      |

| log_update             | OFF                      |

| long_query_time        | 10                       |

| low_priority_updates   | OFF                      |

| max_allowed_packet     | 1048576                  |

| max_connections        | 100                      |

| max_connect_errors     | 10                       |

| max_delayed_threads    | 20                       |

| max_heap_table_size    | 16777216                 |

| max_join_size          | 4294967295               |

| max_sort_length        | 1024                     |

| max_tmp_tables         | 32                       |

| net_buffer_length      | 16384                    |

| port                   | 3306                     |

| protocol-version       | 10                       |

| record_buffer          | 131072                   |

| skip_locking           | ON                       |

| socket                 | /tmp/mysql.sock          |

| sort_buffer            | 2097116                  |

| table_cache            | 64                       |

| thread_stack           | 131072                   |

| tmp_table_size         | 1048576                  |

| tmpdir                 | /machine/tmp/            |

| version                | 3.23.0-alpha-debug       |

| wait_timeout           | 28800                    |

+------------------------+--------------------------+

SHOW PROCESSLIST显示哪个线程正在运行,你也能使用mysqladmin processlist命令得到这个信息。

如果你有process权限, 你能看见所有的线程,否则,你仅能看见你自己的线程。见7.20 KILL句法。如果你不使用FULL选项,那么每个查询只有头100字符被显示出来。

SHOW GRANTS FOR user列出对一个用户必须发出以重复授权的授权命令。

mysql> SHOW GRANTS FOR root@localhost;

+---------------------------------------------------------------------+

| Grants for root@localhost                                           |

+---------------------------------------------------------------------+

| GRANT ALL PRIVILEGES ON *.* TO 'root''localhost' WITH GRANT OPTION  |

+---------------------------------------------------------------------+

1

Tags: mysql, show

Records:15712345678910»