Testdisk-PhotoRec y recuperar documentos docx de Openoffice





Este post surge de la experiencia de recuperar una tarjeta de memoria micro SD de un celular. Les podría explicar como funcionan estos dos programas para recuperar particiones lógicas corruptas (Testdisk) y archivos en general (PhotoRec) pero me voy centrar primero en el inconveniente con los *.docx que me traen a crear el post. 
Aquí se enteran de que se tratan estos programas

http://www.cgsecurity.org/wiki/PhotoRec_Paso_A_Paso


Solo decirles que funciona mejor en Linux que en windows. Es mas muchas distribuciones de Ubuntu y Debian lo traen incluido como Gparted, al igual que el CD Hiren´s Boot CD 15.1 y 15.2

Lo use en laptop compaq v37000 con Win Vista 32 porque tiene lector de tarjetas SD
La historia, yo había escrito un par de documentos en Thinkfree de un samsung Galaxy Ace y en un momento la tarjeta dejó de funcionar. Creo que el problema es la calidad de la tarjeta berreta 4Gb marca HSP usada con una app como lgcamera que escribe muchos datos, ya aprendí, no le voy a dar más ese uso. En si una vez recuperados los archivos verán que PhotoRec nombra todos los archivos al estilo f3312871.jpg, f1012775.txt ó f2103493.xml y aquí viene la cuestión. Al consultar los tipos de archivo que pueden ser recuperados por PhotoRec lista los doc (como OLE) y los docx (como xml) o sea que uno supone tenía un *.doc me recupera como OLE tenía un *.docx me recupera como un xml y si así es. A continuación una lista de los formatos recuperables.

http://www.cgsecurity.org/wiki/File_Formats_Recovered_By_PhotoRec


si se acuerdan alguna palabra que tenían escrita en el documento de texto usen la búsqueda de windows en la carpeta de archivos recuperados y oh! sorpresa verán que les encuentra uno o mas *.xml. Pueden usar en la búsqueda las palabras wordprocessingml que creo es común a todos los archivos doc o docx si es que se les perdieron muchos, yo tenía solo 3 docx. Ahora el documento esta un poco cambiado, un poco mezclado con código no legible (esto abriéndolo en wordpad) contiene su texto original del docx.Además un archivo xml se puede acceder de las siguientes formas.

http://es.wikihow.com/abrir-un-archivo-XML


Ahora una vez abierto por ej. yo lo abrí con Openoffice Writer, les aparecen unas opciones de código del documento. Por lo que pude leer en el xml es UTF-8 así que le ponen esa, les aparece el texto con cosas ilegibles entre medio ej. abajo. 

(Acabo de comprender que la gente debe y necesita interactuar

En negrita pueden ver el texto original de mi archivo *.docx  (Acabo de comprender que la gente debe y necesita interactuar) y se preguntaran... Ahora que hago??? me vuelvo chino buscando cada partecita de texto???... NO!! Por suerte parece que hay un patrón que se repite entre partes por lo que abriendo el documento en Openoffice pueden usar la función Buscar y reemplazar en el Menú Edición y poner buscar habiendo seleccionado por ej. la parte









y en reemplazar con ponen por ejemplo "esto hay que borrarlo" es importante presionar el botón Buscar todo y una vez que ven marcado todo el patrón repetido a lo lago del documento presionar reemplazar todo. Ahora solo nos toca borrar las partes que digan "esto hay que borrarlo" y listo. Pueden seguir buscando reemplazar otros patrones mas cortos o más largos para ir descartando con mas exactitud. No reemplazar por algo que se pueda confundir con el texto original de su documento ya que sería hacerse más confuso todo o perder parte de su texto. Traten de trabajar sobre una copia manteniendo el xml recuperado original aparte.


No se como puedan recuperar fotos o imágenes que se incluían en el docx ya que los míos eran solo texto.
Si les salve un par de documentos avisen que me harán sentir bien.

Eso es todo por ahora, ampliaremos!!!