VmSky虚拟化论坛

 找回密码
 我要注册

手机号码,快捷登录

搜索
查看: 1481|回复: 18

ESXi5.5.0U1 VSAN SSD永久磁盘故障

[复制链接]
发表于 1-6-2015 15:29:11 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?我要注册

x
本帖最后由 ghw_07 于 1-6-2015 16:07 编辑

有遇到过以下情境吗?求分享、分析、解决。SSD型号:Intel SSDSC2BA400G3(S3700 400G SATA2.5`);
I/O Controller型号为:LSI 9217-8i(FW Revision 20.00.00.00-IR,驱动程序版本:scsi-mpt2sas-20.00.00.00.1vmw-1OEM.550.0.0.1331820.x86_64)均在VSAN兼容性列表中。
QQ图片20150106152001.jpg
QQ图片20150106151841.png
vmsky精彩虚拟化
发表于 1-6-2015 20:51:04 | 显示全部楼层
首先能在每台ESXi主机上是正常的否,然后再看网络通信,在就是vSAN虚机了吧?
vmsky精彩虚拟化
发表于 1-6-2015 23:39:47 | 显示全部楼层
从报错来看是出现了PDL啊,是不是所有的磁盘组上都是SSD报“永久磁盘故障”?
vmsky精彩虚拟化
发表于 1-7-2015 08:22:14 | 显示全部楼层
来学习一下,涨张姿势
vmsky精彩虚拟化
发表于 1-7-2015 10:47:36 | 显示全部楼层
来学习一下,涨张姿势
vmsky精彩虚拟化
 楼主| 发表于 1-8-2015 18:46:19 | 显示全部楼层
感谢大家。
现在问题集中在ESXi获取SSD的SMART信息异常,如下。
~ # esxcli storage core device smart get -d naa.55cd2e404b63d86b
Parameter                     Value  Threshold  Worst
----------------------------  -----  ---------  -----
Health Status                 OK     N/A        N/A  
Media Wearout Indicator       100    0          100  
Write Error Count             N/A    N/A        N/A  
Read Error Count              N/A    N/A        N/A  
Power-on Hours                100    0          100  
Power Cycle Count             100    0          100  
Reallocated Sector Count      100    0          100  
Raw Read Error Rate           N/A    N/A        N/A  
Drive Temperature             100    0          100  
Driver Rated Max Temperature  79     0          75   
Write Sectors TOT Count       100    0          100  
Read Sectors TOT Count        N/A    N/A        N/A  
Initial Bad Block Count       100    90         100  

ESXi的日志里报SSD温度超出阈值,温度再高也不会100度了。
Intel和服务器厂商还未给最终回复。更关键的是换成centos6.6,smart信息同样异常。
vmsky精彩虚拟化
 楼主| 发表于 1-8-2015 18:51:15 | 显示全部楼层
这是centos6.6中获取的SSD的SMART信息。
[root@10212510 sbin]# ./smartctl -a /dev/sdk
smartctl 6.3 2014-07-26 r3976 [x86_64-linux-2.6.32-504.el6.x86_64] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Intel 730 and DC S3500/S3700 Series SSDs
Device Model:     INTEL SSDSC2BA400G3
Serial Number:    BTTV420501EW400HGN
LU WWN Device Id: 5 5cd2e4 04b63e51c
Firmware Version: 5DV10270
User Capacity:    400,088,457,216 bytes [400 GB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 T13/2015-D revision 3
SATA Version is:  SATA 2.6, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Thu Jan  8 18:49:42 2015 CST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00)        Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)        The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 (    0) seconds.
Offline data collection
capabilities:                          (0x79) SMART execute Offline immediate.
                                        No Auto Offline data collection support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003)        Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01)        Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:          (   1) minutes.
Extended self-test routine
recommended polling time:          (   2) minutes.
Conveyance self-test routine
recommended polling time:          (   2) minutes.
SCT capabilities:                (0x003d)        SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0032   100   100   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       221
12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       5
170 Available_Reservd_Space 0x0033   100   100   010    Pre-fail  Always       -       0
171 Program_Fail_Count      0x0032   100   100   000    Old_age   Always       -       0
172 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
174 Unsafe_Shutdown_Count   0x0032   100   100   000    Old_age   Always       -       4
175 Power_Loss_Cap_Test     0x0033   100   100   010    Pre-fail  Always       -       664 (2 353)
183 SATA_Downshift_Count    0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0033   100   100   090    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
190 Temperature_Case        0x0022   075   075   000    Old_age   Always       -       25 (Min/Max 18/26)
192 Unsafe_Shutdown_Count   0x0032   100   100   000    Old_age   Always       -       4
194 Temperature_Internal    0x0022   100   100   000    Old_age   Always       -       36
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
199 CRC_Error_Count         0x003e   100   100   000    Old_age   Always       -       18946
225 Host_Writes_32MiB       0x0032   100   100   000    Old_age   Always       -       1996
226 Workld_Media_Wear_Indic 0x0032   100   100   000    Old_age   Always       -       0
227 Workld_Host_Reads_Perc  0x0032   100   100   000    Old_age   Always       -       53
228 Workload_Minutes        0x0032   100   100   000    Old_age   Always       -       13259
232 Available_Reservd_Space 0x0033   100   100   010    Pre-fail  Always       -       0
233 Media_Wearout_Indicator 0x0032   100   100   000    Old_age   Always       -       0
234 Thermal_Throttle        0x0032   100   100   000    Old_age   Always       -       0/0
241 Host_Writes_32MiB       0x0032   100   100   000    Old_age   Always       -       1996
242 Host_Reads_32MiB        0x0032   100   100   000    Old_age   Always       -       2295

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
vmsky精彩虚拟化
 楼主| 发表于 1-8-2015 18:52:55 | 显示全部楼层
jayhebe 发表于 1-6-2015 23:39
从报错来看是出现了PDL啊,是不是所有的磁盘组上都是SSD报“永久磁盘故障”? ...

不是所有SSD,部分。重启系统后会恢复正常,也有一次直接让SSD变砖头了,intel给的反馈是固件宕机。

点评

多谢楼主说明,学习了~  详情 回复 发表于 1-8-2015 23:05
vmsky精彩虚拟化
发表于 1-8-2015 23:05:33 | 显示全部楼层
ghw_07 发表于 1-8-2015 18:52
不是所有SSD,部分。重启系统后会恢复正常,也有一次直接让SSD变砖头了,intel给的反馈是固件宕机。 ...

多谢楼主说明,学习了~
vmsky精彩虚拟化
发表于 1-12-2015 22:56:22 | 显示全部楼层
楼主,关键字“永久设备丢失”,PDL,这个在VMware的存储定义里为,ESXi不知道发生了什么事件,与之相对应的是APD“全路径断开”,APD是ESXi知道发生了什么,一般APD是控制器用SCSI命令通知ESXi,也就是说,APD情况下控制器正常而PDL是控制器问题。
我个人建议楼主把控制器驱动回滚至mpt2sas-18.00.00.00.1vmw-1840930.zip(下载链接https://my.vmware.com/web/vmware/details?downloadGroup=DT-ESXI55-LSI-MPT2SAS-180000001VMW&productId=353  ,相应的固件也回滚至MPTFW-18.00.00.00,ESXi版本确认是5.5 U2。
S3700看你SMART信息应该是400G的,建议固件版本        5DV10270。
目前就你提供的信息,只能帮你这些了,希望对你有帮助。

点评

围观高人啊!  详情 回复 发表于 1-16-2015 12:55
vmsky精彩虚拟化
发表于 1-16-2015 12:55:48 | 显示全部楼层
basongcuo 发表于 1-12-2015 22:56
楼主,关键字“永久设备丢失”,PDL,这个在VMware的存储定义里为,ESXi不知道发生了什么事件,与之相对应 ...

围观高人啊!
vmsky精彩虚拟化
发表于 2-25-2015 10:38:33 | 显示全部楼层
看起来vsan好复杂啊,不敢使用。
vmsky精彩虚拟化
发表于 2-26-2015 10:17:18 | 显示全部楼层
期待6.0 版本更成熟啊
vmsky精彩虚拟化
发表于 3-10-2015 09:49:05 | 显示全部楼层
我用的3500系列的ssd,不在兼容列表里,也出现过同样的问题,准备更换3700的ssd测试一下
vmsky精彩虚拟化
发表于 3-13-2015 08:38:33 | 显示全部楼层
新东西总是要有慢慢成熟的过程。。。新发布的6.0不知进化的怎么样了。。。
vmsky精彩虚拟化
发表于 3-15-2015 11:47:08 | 显示全部楼层
永久性故障?
vmsky精彩虚拟化
您需要登录后才可以回帖 登录 | 我要注册

本版积分规则

小黑屋|手机版|Archiver|VmSky技术社区 ( 京ICP备18030265号-3 )

GMT+8, 9-19-2019 21:34 , Processed in 0.055203 second(s), 19 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表