El primer objetivo del Proyecto, inicialmente, es el de llenar el contenido del árbol filogenético que albergará información de unas 10.000 lenguas. Organizadas de manera sistemática, almacenando el mismo tipo de información por cada una de ellas. Así como de las distintas ramas, subgrupos y otras entidades lingüísticas semejantes.
Sobre la clasificación que adopto a lo largo del proyecto, decir que es una variante de las diferentes versiones que voy encontrando y que en muchas ocasiones no son idénticas dada la dificultad para establecer, en muchos casos, una línea de filogénesis probada. Además, hago aparecer una agrupación superior a la Familia Lingüística que entronca con la idea de la dispersión geográfica y, por tanto, elijo una primera subdivisión en bloques continentales que no es puramente lingüística.
Información por cada lenguaDe cada lengua, recopilo información estructurada según la plantilla que ha de satisfacerse para todas ellas, aun sabiendo que no siempre será posible encontrar la información de las distintas categorías que la forman (historia, datos de hablantes, mapas, gramática, escritura y patrocinio).
En Referencias podemos ver datos técnicos sobre la codificación de la lengua en otros sistemas de organización lingüística. He optado por adoptar el ISO-639-3, propuesto por SIL (Consultar Bibliografía). También hay enlaces a estos sistemas (Ethnologue y SIL) cuando estén disponibles. Información como la de si se trata de una lengua extinta, viva, o de las denominadas macrolenguas, para poder aproximarse a situaciones difíciles de clasificar.
La categoría de Historia y Mapas tienen una división en tres momentos temporales distintos para cada lengua y cuya frontera es arbitraria. En la categoría de Mapas, albergo un atributo (geodata) utilizable para guardar información geofísica que pueda ser usada en el futuro lejano para mostrar un mapa dinámico en el que se observe el desplazamiento en tres posiciones (puede que, en algún caso mejor documentado, haya más posiciones) del área de expansión de esa lengua.
Los mapas se nombran mediante un código SIL (de Referencia) acompañado de un número que indica el orden cronológico del mismo y se guardan en la carpeta correspondiente a: BloqueContinental/FamiliaLingüística/Rama/Grupo/[Subgrupo/]mapa_SIL_T.jpg (Familia, Rama, Grupo y, eventualmente, subgrupo no llevan una codificación estandarizada, sino verbal o coloquial)
La información sobre la gramática de la lengua ha sido dividida en tres áreas más o menos bien delimitadas (Fonología, Morfosintaxis y Léxico-Semántica)
En cuanto a material escrito de las lenguas (las que tienen escritura) se aporta información básica sobre el alfabeto que utilizan (hacer una clasificación, quizá también filogenética, de los alfabetos sería otro trabajo que no abordo en esta ocasión) o si han utilizado varios a lo largo de su historia, atestiguo o recojo textos relevantes de esa lengua y, por último, los números del 1 al 10 cuando sea posible.
Información adicional del proyecto que he ido vertiendo en el diario.