10.3.11

HP Care? Packs al descubierto



todo comenzo a finales de 2009, cambie de trabajo y una de mis primeras tareas era instalar un nuevo server de correo ya q el anterior era practicamente prehistorico, asi q me puse a buscar algo acorde con el sXXI. como anteriormente me habia manejado mucho con HP y nunca habia tenido problemas no dude en buscar algo de esa marca, el DL160 G6 me parecio bastante (y hasta demasiado) para lo q necesitaba asi q pedi presupuestos, aca se pueden ver las especificaciones del equipo:

http://h10010.www1.hp.com/wwpc/us/en/sm/WF06a/15351-15351-3328412-241644-3328421-3884343.html

lo pedi con un micro E5504, 8gb de memoria y 1Tb de disco. junto con uno de los presupuestos me ofrecen el famoso "Care Pack" de HP... y aca empieza la verdadera historia.


Care? Pack

el CarePack es simplemente una garantia extendida, se puede sacar para cualquier cosa, un desktop, laptop, hasta para una pocket... y x supuesto para servidores q es lo mas critico y donde esta el mayor negocio. las empresas no dudan en pagar el carepack con tal de tener un servicio rapido q no deje demasiado tiempo down sus servers.

en mis anteriores experiencias con HP trabajaba para empresas grandes con muchos "care packs" y la verdad q el servicio era bastante bueno. lo peor que me llego a pasar creo q fue una vez q se prendio fuego el backplane de un DL360 y al otro dia ya lo tenia andando. lo triste es q crei q el servicio era igual para todos, no q habia uno para los q tienen cientos de contratos y otro muy distinto para el q solo tiene uno... je

continuando... con el DL160 me ofrecen:

Next Business Day On-site Service, 5-Day x 9-Hour Coverage, 3 Years U$S 228 + IVA (iva=21%)

mmmm... no es tan caro, ofrecen servicio on-site al otro dia de la incidencia 5x9, 3 años... sin esta extension la garantia es x 3 años y cubre soporte remoto y partes solamente... me cierra, compro.


instalando...

finalmente en noviembre tengo el server en mis manos con el correspondiente carepack, q segun la pagina de HP consiste en lo siguiente:

Respuesta en el sitio al día hábil siguiente: En el caso de problemas que no se pueden resolver en forma remota, un representante autorizado de Servicios HP visita el sitio al día siguiente de una llamada que cae dentro de una ventana de servicio contratada registrada. Servicios HP restaura el hardware cubierto a su condición operativa, reparando o reemplazando componentes o la unidad completa, si fuera necesario. La cobertura incluye todas las partes y los materiales requeridos.

si fuera tan facil...

el 1er "problema", q no era tan problema (o no lo parecia), era q tenia q usar todos sistemas libres ya q nadie queria pagar licencias. obvio linux y como venia todo en esa linea y preferi la estabilidad le meti con CentOS. cambie algunas cosas asi q estuve un buen rato configurando y migrando, postfix x sendmail, dovecot x courier, spamassassin, mailman, etc. y para dar el toque final cambie el prehistorico (pero muy solido) squirrel x el moderno roundcube... muy solido tambien, nunca un problema, lo recomiendo.

migro todo, cuentas, correos, cambio dns y lo pongo online. mas alla de los "pequeños detalles" q siempre puede haber en algo asi, queda todo funcionando ok y a la semana se podria decir q todo corre estable y sin carga casi para el server dado el poco trabajo q hacia.

asi estuvo todo unos 4 meses hasta q en abril un dia se cae... pero se cae raro, no carga el apache, no responden pop y smtp aunque si el ping, x ssh pide login y despues queda colgado. como trabajo remoto casi todo el tiempo me tengo q ir hasta el server fisicamente (casi 1hr de viaje), y lo encuentro con un lindo led frontal parpadeando en rojo...


health led

una luz roja nunca es buenas noticias, voy al manual y encuentro q el led es el correspondiente al "health" (salud) del equipo. no responde tampoco localmente y no me queda otra q reiniciarlo, le doy al boton y... no se apaga... fuck! no me quedo otra q sacarle la corriente. arranca y todo normal, como si nunca hubiera pasado nada.

pruebo todo, miro logs... nada, simplemente en 1 momento le agarro un ataque y entro en coma. lo tomo como una falla aleatoria y rezo para q no vuelva a pasar pero a los dos dias mas o menos otra vez lo mismo, vuelvo a checkear todo y agrego temperaturas, memoria, disco... todo parece ok.

mientras tanto agarro otra vez el manual para ver q me quiere decir el maldito "health led" y me encuentro con esto:



y si, un led de "salud" en rojo es un error critico. como todo apunta al hard me meto en la web de HP, cargo el equipo con su correspondiente carepack, abro un caso y empieza el paseo. me piden un pequeño checkeo:

#hpasmcli
hpasmcli> show dimm
hpasmcli> show fans
hpasmcli> show iml
hpasmcli> show powersupply
hpasmcli> show server
hpasmcli> show temp
hpasmcli> exit

subir resultados a un FTP junto con logs del sistema... todo muy lindo, salvo q me contesta esto:

- Diagnóstico del problema:
El servidor por parte del hardware no presenta ningún incidente, sin embargo la causa del bloqueo se debe a que el daemon "gconf" el cual almacena las opciones de la configuración del entorno gráfico y de los distintos programas se apaga:

May 1 22:11:25 mail gconfd (root-1296): GConf server is not in use, shutting down.
May 1 22:11:25 mail gconfd (root-1296): Exiting
May 1 22:11:28 mail gconfd (root-1337): starting (version 2.14.0), pid 1337 user 'root'
May 1 22:11:28 mail gconfd (root-1337): Resolved address "xml:readonly:/etc/gconf/gconf.xml.mandatory" to a read-only configuration source at position 0
May 1 22:11:28 mail gconfd (root-1337): Resolved address "xml:readwrite:/root/.gconf" to a writable configuration source at position 1
May 1 22:11:28 mail gconfd (root-1337): Resolved address "xml:readonly:/etc/gconf/gconf.xml.defaults" to a read-only configuration source at position 2
May 3 07:05:47 mail syslogd 1.4.1: restart.

Lo anterior debido a que es probable que la interfaz gráfica (X Window System o X) esté presentando un conflicto el cual lo provoca:

Apr 29 12:18:15 mail gdm[3596]: gdm_slave_xioerror_handler: Fatal X error - Restarting :0


y me cierra el caso... xD

ese error es por abrir alguna aplicacion grafica x ssh y cerrarla mal, se q no deberia hacerlo pero es obvio q no tiene nada q ver con una luz roja ni con nada, ni siquiera es un error en realidad. ok, saco el servidor grafico a ver q me decis ahora...

queda corriendo en consola y a los 2 dias se vuelve a caer, abro otro caso y me hacen bajar el famoso "easy setup cd" donde esta el insight diagnostics q es un software de testeo de hardware de HP, checkeo todo como me dice, le mando los resultados (todo ok) y me recomienda... upgrade de firmware!! la manera mas rapida de sacarse de encima a alguien cuando no se tiene idea de q pasa.

hago el upgrade y a los 10 minutos ya tengo al tipo preguntandome si esta todo ok y q si puede cerrar el caso. lo mantengo hasta el otro dia q me llama al mediodia, le pido q lo deje abierto un tiempo mas y me vuelve a llamar a las 6 de la tarde cuando le digo q lo cierre si quiere (y q me deje de joder!). pareciera q lo unico q les interesa es "cerrar el caso", q sentido tiene si la falla aparece cada 48hs o mas?


linux=lepra

a todo esto cuando se dieron cuenta q corria centos me trataron como si tuviera lepra, enseguida aclararon q no se hacian cargo de ese sistema y me mandaron a los foros de centos. xq problema de hardware segun ellos no era... raro, el manual dice q si pero los tecnicos dicen q no...

en realidad la hicieron facil, si queres soporte pagate un win o la suscripcion a redhat (q es lo mismo q centos) y recien despues de q veamos q no hay problema en el sistema podemos decir q es hardware y empezar a ver q es. en resumen... arreglatelas solo x usar linux.

y el "next day coverage"?... bien, gracias.

me canse de recorrer foros preguntando y ni los mas "gurus" tenian idea si no era hard, se tejieron teorias descabelladas, llegue a hacer cosas q ni tenia idea q existian (eso lo agradezco) y sobre todo perdi mucho tiempo... meses.

cuando me aburri de hacer pruebas y cambiar cosas sin ningun resultado decidi migrar los servicios a otro equipo exactamente igual comprado justo antes de este problema (sin carepack), y en el cual corren los servicios hasta hoy en la misma configuracion exacta sin un solo problema jamas. con el tema de las caidas del correo solucionado tenia el server libre para probar lo q quisiera sin tener q dejar sin servicio a nadie.

lo 1ero q hago es bajar todo lo q puedo y se sigue colgando, lo formateo y reinstalo desde 0 y se sigue colgando, health led en rojo, etc... a todo esto pasan meses dado q hay q esperar la falla para ver si los cambios surten efecto, no es tan simple como cambiar algo y probar...

"next day coverage"... ja. ok, le pongo win server a ver si me hacen caso o tal vez "milagrosamente" se arregle x el poder de billy... no se rian, windows no es taaaaaan malo como dicen ;)

con 2003 server x64 al principio anda bien pero a las 2 semanas se empieza a reiniciar, en lugar de cuelgue y led en rojo reinicio. lo dejo unos meses mas... le meto maquinas virtuales, lo hago trabajar, q se reinicie, q haga lo q quiera... q se queme, hasta q no pase eso no se van a hacer cargo.

en diciembre empieza a aparecer el led rojo otra vez y igual q antes no se puede reiniciar sin sacar la corriente... ya no le quedaba mucho... xD


uncorrectable error

un dia, como tenia q ser, no volvio a prender. despues de reiniciarla me tira en pantalla:

PCI Express Uncorrectable Error
System Halted

no ve el disco en el setup, como consecuencia no carga sistema... ya esta, algo se rompio, ahora no me vengan con boludeces...

abro caso explicando todo con detalle, incluyendo los numeros de los casos anteriores de hace meses. me responden lo siguiente:


1. El OS puede ser que no cargue dado que se cargaron Defaults y si tiene algún RAID no fue configurado de vuelta.
Tendría que configurarlo de vuelta.
2. Necesitamos por favor realizar actualizaciones de Firmware en el servidor:
http://h20000.www2.hp.com/bizsupport/TechSupport/xxxxxx
3. Dado que no tenemos un estimado de tiempo entre bloqueo y bloqueo, podremos correr nuevamente el Insight Diagnostics Offline y correrlo con 20 loops o bucles de manera que el servidor tengo que manejar mucha carga por bastante tiempo y luego enviarnos los resultados.

1. no soy estupido, ya checkee eso.
2. otra vez? cual es el punto? no ve el rigido!!
3. idem

hago el upgrade... nada... hago el diagnostico con 20 loops, todo ok salvo q como era logico no ve el rigido y no lo checkea. mando resultados y me pregunta q dispositivos tengo instalados (recien veia el msg de error parece) y le respondo q "no se le instalo nada, esta como viene de fabrica, debe ser el smart array"... le tengo q decir yo q dispositivos tienen sus equipos... es el colmo!

ademas me pide otro loop de tests (si, otro mas) y un survey completo q es como correr un everest mas o menos. y pasan los dias...

me empieza a llamar x telefono, no se xq ya q hasta ese momento nos comunicabamos perfectamente x correo y alega q no me encuentra y q me deja correos de voz q jamas encuentro, asi pasa mas de una semana desde la apertura del caso hasta q logra llamarme y me pide q resetee la bios y q saque y vuelva a poner la "riser card" q es una placa de expansion q no hace nada ya q en mi caso no tiene nada conectado... ok, lo pruebo.

como es logico no pasa nada, le comunico los resultados y me dicen q me van a enviar una para q yo la cambie... ya mas de 10 dias. no era "servicio al dia siguiente"?


riser card

despues de un par de dias tengo la placa en mis manos, es un componente tan estupido q ni pude encontrar una foto pero es algo parecido a esto:



la cambio, vuelvo a resetear bios... nada, claro. le mando correo al tecnico informando los resultados, me dice q hay q cerrar el caso y abrir otro... ya ibamos mas de 15 dias y mi paciencia se empezaba a agotar. abro un nuevo caso, y van...

el 1er correo q recibo del tec dice asi:

Me podria decir cual sistema operativo esta corriendo en este servidor?

Entre mas detallado mejor, service pack, release y tipo.

otra vez??... ya les puse en todos los casos anteriores el sistema q tenia... "tenia" bien digo xq "no reconoce el rigido!!". es q no miran el historial? aunque sea los ultimos... le respondo resumido:

... El equipo actualmente corre Windows 2003 server x64 sp3, de todas maneras, como te decia el problema viene mucho mas de abajo ya que ni siquiera reconoce la unidad de disco, de manera que tenga el sistema que tenga vamos a estar en el mismo problema...

... Ante la imposibilidad de solucionar el problema por el lado del sistema operativo se migro a plataforma Windows donde el equipo empezo hace unas semanas a mostrar los mismos sintomas de cuelgue con el health led en rojo...

a lo q me responde:

Lo que voy a hacer es comunicarme con los agentes que vieron estos casos y solicitar que pongamos todos los datos juntos, le estare comunicando pronto una resolucion.

y a los tres (3) dias, pasados ya veinte (20) con el server caido, me manda la resolucion de la "junta":

... Creemos que lo mas apropiado es remplazar la tarjeta madre, ya habiendo cambiado el riser solo nos quedaria cambiar la entrada del mismo al sistema que esta en la tarjeta madre.

Se procedera al envio de la misma, para su remplazo se le recuerda tener la tarjeta vieja para el intercambio...

naaaahhhh... ese fue el punto maximo. no tengo problemas en cambiar un capacitor de flujo de delorean si tengo q hacerlo pero se supone q estoy pagando un servicio "al dia siguiente" y despues de 20 dias de vueltas me dicen q me envian el mobo para q lo cambie yo? y encima no me manda ni un procedimiento? xD... de terror!!


perdon... nos equivocamos

ya en este punto, entre otras cosas le contesto:

... Me gustaria tambien saber hasta donde tiene que escalar el problema para que un tecnico de la empresa se acerque al lugar de la incidencia ya que en el CarePack del equipo que tengo en mis manos claramente dice "Soporte de hardware en las instalaciones del cliente"...

... Quien va a pagar el tiempo de productividad perdido?...

... la falla se remonta a unos pocos meses despues de comprado el equipo, momento en el cual se negaron a reconocerlo como problema de hardware...

a lo q me responde:

... En relacion al tipo de contrato que tiene con nosotros me temo que el servidor DL160 G6 con numero de serie XXXXXXXXXX no posee en nuestros registros el tipo de contrato que usted nos menciona, si tiene un numero de contrato o una copia en formato PDF que nos pueda proveer, podemos mandar este caso a validar con una garantia o contrato diferente al que tenemos.

Espero su respuesta para hacer el envio de la parte.

validar? pdf? enviar la parte? para el q no conoce el sistema, al cargar un equipo se lo asocia al carepack correspondiente y ya queda asi para todo. al abrir un caso en el encabezado sale automaticamente el numero de contrato y con un simple click se puede ver todo lo q incluye. todo esta perfectamente categorizado y no hay lugar para equivocaciones... o parece q si. le respondo ya bastante enojado:

... En mi perfil del ITRC de HP puedo ver el CarePack num G0KXXXXXXXX asociado al PN XXXXXX-XXX con SN XXXXXXXXX (adjunto captura) el cual cargue en el momento de crear el usuario hace un año, tambien se ve claramente en el encabezado del caso bajo el campo "Support Service Identifier".

Mi pregunta es, ese contrato cubre o no lo que te mencione anteriormente? Porque lo compramos como que si lo hacia. Si no lo cubre te agradeceria que me lo informaras para tomar las medidas necesarias ya que no puedo estar mas tiempo dando vueltas con el servidor...

ya todo esto copiando a la parte directiva de la empresa xq el problema se estaba yendo de la orbita de IT, estabamos a un paso de tomar acciones legales. me pidieron hacer un resumen del historial del server, armamos una carta formal para HP y fuimos a ver al abogado de la empresa, nos dijo q enviemos la carta y esperemos respuesta durante una semana, si no hay respuesta... carta documento.

mientras tanto me contestan de HP, donde parece q encontraron mi carepack:

... sin embargo el caso fue entitulado a la hora de ser creado de manera incorrecta y el mismo no aparece con el servicio en sitio, cuando si lo posee, para no crear un problema en su servicio, si me lo permite, crearemos un caso nuevo en el cual pondremos todo el historial del mismo y se le enviara el ingeniero con la parte a remplazar...

"entitulado de manera incorrecta?"... donde? si en el "entitulado" veo perfectamente el num del care pack? ya no saben q decir... HP!! q verguenza!! le respondo:

Adjunto capturas del 1er y ultimo casos de mi perfil, en los cuales se puede ver claramente el num de CarePack asociado con el equipo. No termino de comprender donde esta el "entitulado de manera incorrecta" ya que obviamente esta ahi y que en las caracteristicas del mismo sin dudas dice "onsite support" (captura enviada ayer). Todos estos datos son de su propio sistema...

... Crea el nuevo caso o hace lo que haga falta para que alguien venga cuanto antes a hacer el arreglo...

ni me contesto, cerro el caso y abrio otro... si, otro mas... envio de parte, actividades pendientes, parte en transito, siguen pasando los dias hasta q la parte llega a argentina y me contacta un tecnico local diciendome q tiene el mobo para reemplazar.


el fin de la pesadilla?

en ese momento parecia q todo se iba arreglar... hasta entonces hablaba solamente con gente de costa rica, HP paso el soporte alla ya q obviamente es mas barato. lo q no calcularon son los problemas q todo esto trae en cuanto a tiempos de respuesta, atencion, comunicacion, etc. cuando el soporte lo daban aca mismo la atencion era muy distinta. no tengo nada contra la gente de costa rica pero es obvio q esto pasa con todos los servicios q se manejan asi... en la distancia la cosa es distinta.

en HP argentina se deshacian en disculpas x lo ocurrido y enseguida vino el tecnico a hacer el reemplazo. mas alla de detalles, lo cambio, siguio la misma falla y despues de horas de pruebas llegamos a la conclusion de q el problema no era eso sino simplemente el famoso "smart array" q estaba fallando. no quedaba otra q sentarse a esperar la placa, dado q despues de un mes los "craneos" q se juntaron habian dado un diagnostico erroneo, pero claro... siempre lo mas facil... cambia el mobo, hace upgrade de bios... hacete 500 loops, tomate 2 aspirinas y volve la semana q viene...

al mes y una semana vuelve el tecnico con la placa, la cambia y el equipo como nuevo. casi un año de problemas x una simple controladora de disco q vino mal de fabrica. bah... "de fabrica" mas bien refurbished igual q el mobo q me pusieron y la "riser card" q me mandaron... igual q ahora estaran poniendo la q mande yo en algun DL160 en algun lugar del 3er mundo... en fin, eso es otro tema.

mucha disculpa pero nadie me ofrecio nada en compensacion, ni siquiera lo logico q seria una extension del carepack x el año q perdi sin respuesta. tampoco lo pedi en realidad, en estos casos lo mejor es sacartelos de encima. el proximo server q tenga q comprar pueden estar seguros q no va a ser HP... y no xq este disconforme en particular con sus equipos, sino xq la atencion fue por mucho la peor q recibi en mi vida x un servicio pago.