Labs

Laboratorio de matching

Este espacio separa el trabajo experimental del directorio principal. Aquí vamos a probar el pipeline de costo cero para cruzar reportes públicos de personas desaparecidas con listados públicos de personas localizadas.

Revisión visual de posibles coincidencias

Aquí mostramos posibles matches para revisión humana. El porcentaje es heurístico: una coincidencia exacta por cédula pesa mucho más que una similitud por nombre.

Cómo calculamos el puntaje

La fórmula actual no usa aprendizaje automático. Es una heurística de revisión: combina señales fuertes y señales débiles para sugerir prioridad humana.

1. Cédula primero

Si la cédula coincide exactamente, el caso sube casi al máximo. Si la cédula entra en conflicto, el puntaje baja aunque el nombre se parezca.

2. Luego el nombre

Sin cédula, el peso principal viene de la similitud del nombre normalizado: exacto, muy parecido, parecido o moderado.

3. Edad y ubicación ajustan

La edad y la ubicación solo corrigen el resultado. Una edad igual o cercana suma un poco; una diferencia grande resta. La ubicación suma poco y nunca reemplaza la identidad.

Cómo leer los porcentajes

93–99%: prioridad alta de revisión 80–92%: posible coincidencia 0–79%: señal débil o ambigua

El porcentaje no confirma identidad por sí solo. Siempre hay que revisar la evidencia mostrada en la tarjeta y, si existe, validar la cédula, edad, hospital y fuente original.

…Cargando resumen del laboratorio

Cargando coincidencias candidatas

Versión inicial

Empezamos sin backend pagado: GitHub Actions para sincronizar fuentes, archivos JSON estáticos para publicar resultados y revisión manual antes de confirmar cualquier coincidencia.

Salidas esperadas

Dataset de personas desaparecidas normalizadas.
Dataset de personas localizadas normalizadas.
Dataset de coincidencias candidatas con puntaje y explicación.

Resumen JSON Desaparecidos JSON Localizados JSON Coincidencias JSON

Volver al directorio Ver recursos técnicos

Infraestructura 0$

GitHub Actions programadas para descargar Kobo y Localizados.
Scripts del repositorio para parsing, normalización y scoring.
Datasets generados en docs/ para servirlos por GitHub Pages.
Revisión manual de coincidencias sugeridas antes de publicarlas.

Pipeline que vamos a montar

Ingesta: descargar Kobo y Localizados en cada corrida.
Parsing: extraer nombre, cédula, edad, contacto y ubicación desde texto libre.
Normalización: limpiar acentos, mayúsculas, espacios y variantes de nombres.
Matching: generar candidatos por cédula, nombre, edad y ubicación.
Revisión: publicar coincidencias sugeridas por separado para verificación humana.

Fuentes públicas confirmadas

KoboToolbox · TerremotoVE

Feed público JSON con reportes de personas desaparecidas, familias desaparecidas, personas rescatadas y eventos relacionados.

Abrir recurso

Localizados Venezuela API

API pública de solo lectura con personas localizadas en hospitales y otros recintos.

Abrir recurso

Más adelante esto puede moverse a un subdominio como labs.directorioterremotovenezuela.org, pero empezar con /labs/ es la opción más simple y más barata.