Se expone una metodología detallada para generar medianas o grandes base de datos (BD) especializadas en una o varias temáticas, donde el 100 % de la información esta a texto completo, mediante búsquedas especificas y descarga de información por lotes en Internet.
La BD del caso de estudio tiene alrededor de 300.0 GB de información, más del 98 % en formato pdf, el resto en formato djvu, los cuales pueden ser visualizados mediante el programa WinDjView. Cerca del 90 % e la información está procesada donde el nombre del fichero es el nombre del componente ó el modelo del equipo en cuestión, para permitir una búsqueda más exacta y rápida.
Se describen todos los procedimientos para generación de la misma, los cuales son: Selección de las páginas web de trabajo, Selección y descarga de los ficheros por lotes mediante un acelerador de descargas, Eliminación de las contraseñas de los ficheros en formato pdf, Renombrar automáticamente grandes volúmenes de ficheros utilizando programas específicos, Inclusión en un fichero único los nombres de todos los ficheros 'pdf', para facilitar la posterior búsqueda, Conversión de ficheros de diferentes formato a formato 'pdf', Realización del catálogo utilizando las facilidades del programa Adobe, Indización de la base de datos y explicación detallada de cómo realizar las búsquedas.
La base de datos está clasificada en 18 clases con el objetivo de facilitar su manipulación, búsqueda y posible fragmentación en caso de que a un usuario solo le interesen determinados tipos de documentos.