[Howto] Reciclando memoria RAM defectuosa en linux.

Eramos tan pobres…

En Argentina, país bananero si los hay, que nos hace bien cuesta arriba el acceso a nuevas tecnologías, cuando algo se rompe, lo atamos con alambre para seguir usándolo.

Este es uno de esos casos: Resucitar esos viejos módulos de memoria RAM rotos, que ya dabas por muertos y que de otra forma no servirían mas que para hacerse un llavero y competir contra tus amiguitos –cada cual mas nerd que el anterior– a ver quien tiene mas megas de ram desperdiciados en el bolsillo.

…Había una vez, un tal Rick Vanrein, que era mucho mas pobre que todos los Argentinos juntos y que sabía de programación. Motivado por un interés púramente económico escribió en su página web:

Summary: This page proposes an approach to support RAMs with defective addresses, This may open interesting business perspectives, where those RAMs can be sold under a white label for less money rather than discarded of without any profit.

Claro que no tuvo en cuenta que su idea de negocio iba en contra de la producción en serie y que globalización –y chinos que trabajan por el plato diario de arroz– de por medio el costo de fabricación de memoria RAM se abarataría muchísimo dando por tierra con su proyecto.

Lo importante es que lo hizo: BadRAM, un módulo para el kernel de linux que permite a este sistema operativo funcionar normalmente inclusive cuando la memoria RAM está en mal estado.

¿Y como funciona?

Facil, se basa en la salida de memtest86 para saber cuales son las direcciones de memoria defectuosas y por medio del gestor de arranque, pasárselas como parámetro al kernel para que no las use. Genial, ¿No?.

Como se usa:

Primero lo primero; Tu kernel tiene que tener soporte para BadRAM. En kernels relatívamente nuevos (desde 2.6.16 si no recuerdo mal) BadRAM viene ya pre-incluído en el kernel… A lo sumo tocará activarlo si no lo estuviera pero eso está «out of the scope of this guide» como dicen en inglés cuado quieren decir «me da flojera entrar tan en detalle».

En versiones anteriores del kernel se puede incluir soporte para badram bajando el parche en cuestión y recompilando el kernel parchado:

~ # cp BadRAM-2.6.19.1.patch /usr/src/linux

~ # cd /usr/src/linux

~ # patch -p1 < BadRAM-2.6.19.1.patch

Segundo – Memtest86:

Habiéndole dado soporte a tu kernel para BadRAM si hiciera falta, bien por medio del parche o bien habilitándolo en donde el kernel lo incluya por defecto, lo siguiente es ejecutar memtest86 para diagnosticar cuales son los rangos de direcciones de memorias que están fallando.

De nuevo, memtes86 viene de serie hoy en día incluído en el kernel por defecto y habilitado o no dependiendo de cada distribución.

Ejecutado memtest, tendrán en pantalla algo como esto:

Memtest86 enseñandole a ese módulo de memoria defectuoso quien es el jefe.

Memtest86 enseñandole a ese módulo de memoria defectuoso quien es el jefe.

Lo importante es cambiar la configuración de memtest86 para que muestre los errores de salida en formato badram. Esto se hace con la tecla «C» para entrar en la configuración, activando la opción 5 – Error Reporting Mode y por ultimo eligiendo la opción 2 – BadRam Patterns, saliendo de cada menú y submenú con la tecla «0»

Hay que dejarlo correr al menos una «pasada» completa de tests.

Arriba a la derecha el primer indicador de porcentaje indica justamente el avance de cada pasada.
Al terminar una pasada completa en pantalla quedan una serie de rangos de memoria expresados en hexadecimal que se ven mas o menos así:

badram=0xfefdffc,0x2404ea30,0xfe05fffc etc.

Tomar nota (yo lo hice en papel pero seguro hay una forma mas elegante de hacerlo) de todos estos rangos de memoria que fallan para pasarselos al kernel.

Por último, iniciar la PC en modo «lo mas seguro posible»

Iniciar la pc en modo interactivo frenandola con la tecla «4», o pasarle init=/bin/bash a la línea que menciona al kernel editando al vuelo el menú de Grub, o bien cambiando las memorias rotas por unas en buen estado.

Montar /boot/ si no lo estuviera y agregar una entrada nueva para BadRam en /boot/grub/menu.lst que en mi caso quedó así:

title  Gentoo Linux Kernel 2.6.30-r4 con memorias rotas
root (hd0,0)
kernel /boot/kernel2.6.30-r4 root=/dev/sda2 badram=0x2400ea30,0xff81fffc,0xffd07ffc,0x24016a30,0xfe01fffc

Y eso es todo! Linux se salteará limpiamente las direcciones de memoria conocidas como defectuosas con lo que no deberías volver a tener inconvenientes siempre y cuando tu memoria RAM no se siga rompiendo con el uso.

Si se dispone del tiempo necesario, es conveniente dejarle hacer como mínimo dos pasadas a memtes86 antes de fiarse de los resultados. Cuantas mas, mejor. Aveces ciertas fallas se presentan recién después de un tiempo de uso, cuando el modulo dimm toma temperatura.

2 comentarios

  1. Tio, descubrí tu blog ayer y ya he encontrado un montón de cosas que quiero probar.
    La cosa es cutre a más no poder ahora que la RAM es relativamente barata, pero es genial que sea posible meterle mano a tu SO hasta tal extremo. Estas son las cosas que me acaban atrayendo hacia Linux.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *