DDL - DML

Javier Plazas - Dayanna Erazo

DDL (Data Definition Language)

Se realizó la creación de la base de datos denominada DANE mediante la sentencia CREATE DATABASE. Posteriormente, utilizando el comando USE, se seleccionó la base de datos para continuar con la estructuración de las tablas que conforman el sistema.

Con base en el modelo relacional previamente generado a partir del modelo entidad–relación, se procedió a definir los esquemas mediante sentencias DDL (Data Definition Language). En primer lugar, se creó la tabla censos mediante la sentencia CREATE TABLE. A continuación, se definie), cobertura_geo (INT) y unidad_observacion (VARCHAR(50)).ron los campos que componen la tabla, estableciendo inicialmente la llave primaria id_censo, la cual utiliza la instrucción AUTO_INCREMENT. Esto permite que, al momento de insertar registros, el sistema genere automáticamente un identificador único para cada nuevo registro.

A partir del modelo relacional también se creó la tabla población, la cual cuenta con su respectiva clave primaria y el campo correspondiente al total de personas. No obstante, durante el análisis de la estructura se identificó la necesidad de aplicar un proceso de normalización, debido a que se concentraba un gran volumen de información en una sola tabla, lo que generaba redundancia y posible duplicidad de datos.

Al analizar el modelo entidad–relación inicial y su respectivo modelo relacional, se determinó que era necesario aplicar la Primera Forma Normal (1FN). Esto se debe a que la tabla población, aunque presenta un número reducido de campos, puede contener duplicidades, dado que las unidades de observación de los censos se estructuran en diferentes niveles: personas, hogares y viviendas.

Las personas contienen información relacionada con características individuales; los hogares están conformados por las personas observadas; y las viviendas agrupan características asociadas al tipo de vivienda. Por esta razón, se aplicó la primera normalización separando la información correspondiente a personas, hogares y viviendas, evitando así la concentración de múltiples tipos de datos en una sola tabla.

Con base en lo anterior, se aplicaron la Primera, Segunda y Tercera Forma Normal (1FN, 2FN y 3FN) a la tabla denominada población. Como resultado de este proceso, la tabla dejó de presentar duplicidades en los registros de personas, ya que las características correspondientes a hogares y viviendas fueron separadas en tablas independientes. Asimismo, se crearon tablas específicas para cada conjunto de datos relacionado y se establecieron las relaciones entre ellas mediante claves foráneas, incluyendo su vinculación con la tabla población.

Posteriormente, mediante la sentencia CREATE TABLE, se generó la tabla ubicacion, la cual incluye campos asociados a su identificador (id), así como a departamento, municipio y manzana, permitiendo una adecuada desagregación geográfica de la información.

A continuación, se creó la tabla proyecciones, la cual mantiene una relación N:1 con la tabla ubicación y M:1 con la tabla población. En esta tabla se almacenan los campos relacionados con los años de estimación de las proyecciones, así como los valores correspondientes al cálculo de dichas proyecciones.

Dado que las proyecciones pueden relacionarse con múltiples ubicaciones y poblaciones, la tabla ubicacion permite establecer dicha vinculación. En este contexto, se creó la tabla marco_muestral, la cual se compone del campo id_marco como clave primaria y de la muestra estimada a partir de las proyecciones para una ubicación determinada. Este marco muestral constituye la base para el diseño y ejecución de las encuestas estadísticas.

Finalmente, se creó la tabla encuesta, la cual incluye campos asociados a su identificador (id_encuesta), el nombre de la encuesta, el número total de encuestados, el año de recolección, así como la relación M:1 con la tabla marco_muestral. Esta relación se establece debido a que cada marco muestral puede ser utilizado para el desarrollo de diferentes encuestas, según las necesidades estadísticas específicas.

En conclusión, la estructura presentada corresponde a la composición final de la base de datos, la cual se encuentra organizada y normalizada hasta la Tercera Forma Normal (3FN), garantizando integridad, reducción de redundancias y una adecuada organización de la información estadística.

DML (Data Manipulation Language)

Una vez se cuenta con la estructura DDL, se procede a realizar la gestión y manipulación de datos DML, donde se realizará uso de instrucciones como select e insert para consultar e insertar datos a cada una de las tablas generadas con anterioridad.

Mediante la sentencia INSERT INTO se generaron registros asociados a la tabla censos, incorporando información correspondiente a tres operaciones estadísticas: el Censo Nacional de Población y Vivienda, el Censo Nacional Agropecuario y el Censo Económico Nacional Urbano. Para cada uno de estos censos se registran valores para el año de recolección, el alcance de la cobertura geográfica que incluye municipios, áreas no municipalizadas e islas y la unidad de observación utilizada en cada operación estadística.

Al revisar los registros insertados en la tabla censos, se identificó una inconsistencia en el año de recolección del censo con id = 2. Inicialmente se registró el año 2024, el cual no corresponde al periodo real de ejecución del Censo Nacional Agropecuario. Por esta razón, mediante la sentencia UPDATE se realizó la corrección correspondiente, ajustando el año de recolección a 2014, garantizando así la consistencia de la información almacenada.

Posteriormente, se realizaron inserciones en las demás tablas del modelo. En el caso de la tabla vivienda, se registraron los diferentes tipos de vivienda asociados a los censos definidos previamente. Para el censo de población y vivienda (id = 1) se incluyeron las categorías casa, apartamento, cuarto y vivienda tradicional, mientras que para el censo económico (id = 2) se incluyó la categoría oficina, correspondiente a su unidad de observación.

En la tabla hogar se insertaron valores relacionados con el tamaño del hogar, vinculando esta información tanto con las viviendas como con el censo correspondiente. A partir de los registros se identifican hogares unipersonales y hogares compuestos, los cuales se encuentran asociados al Censo de Población y Vivienda (id = 1). En términos de distribución, se observan tres hogares unipersonales y un hogar compuesto, todos ellos asociados a distintos tipos de vivienda como casa, apartamento, cuarto y vivienda tradicional.

La tabla población integra la información agregada relacionada con las personas registradas. A partir de los tamaños de hogar previamente definidos, se identifica una población total de dos personas, las cuales posteriormente se encuentran desagregadas según su ubicación geográfica, aspecto que se detalla en las tablas relacionadas.

En relación con la tabla personas, mediante la sentencia INSERT se generaron registros con información para los campos: id_persona, id_censo, id_hogar, id_poblacion, sexo, fecha_nacimiento, estado_civil, nivel_educativo y autorreconocimiento_etnico. El análisis de estos registros permite observar que las personas han sido observadas en el Censo de Población y Vivienda, y que su pertenencia a hogares y poblaciones coincide con las estructuras previamente definidas.

Por ejemplo, el individuo con id_persona = 10001 fue registrado en el Censo de Población y Vivienda, pertenece al hogar 1, el cual corresponde a un hogar unipersonal, y hace parte de la población 1, que agrupa a dos personas. Sus características sociodemográficas indican que es de sexo femenino, con fecha de nacimiento 28 de junio de 1995, estado civil soltera, nivel educativo de pregrado y sin autorreconocimiento étnico.

Por su parte, la tabla ubicación incorpora dos registros correspondientes a desagregaciones geográficas. El campo id_ubicacion se construye a partir del código DIVIPOLA, el cual se compone de la concatenación del código del departamento, el código del municipio y el código de la manzana, permitiendo así identificar de manera única cada unidad geográfica dentro del territorio.

Con la información registrada en las tablas población y ubicación, fue posible insertar los valores correspondientes a la tabla proyecciones poblacionales. En esta tabla, la clave primaria corresponde a id_proyeccion, mientras que las claves foráneas establecen la relación con las tablas poblacion y ubicacion. Asimismo, se registran los años de estimación y el valor proyectado de la población para cada unidad geográfica.

A partir de estas estimaciones es posible analizar la evolución de la población proyectada a nivel de manzana, lo cual constituye un insumo fundamental para la planificación de las operaciones estadísticas basadas en muestreo. En particular, esta información permite determinar el tamaño de muestra requerido para las encuestas, considerando la distribución poblacional en el territorio. Este proceso da origen al marco muestral, cuya clave primaria corresponde a id_marco y que se relaciona con la tabla ubicación mediante una clave foránea.

Finalmente, se realizaron las inserciones correspondientes en la tabla encuesta, así como las consultas de verificación mediante la sentencia SELECT. Esta tabla cuenta con id_encuesta como clave primaria y establece una relación mediante la clave foránea id_marco, que vincula cada encuesta con el marco muestral utilizado. Adicionalmente, se registran atributos como el nombre de la encuesta y el número total de encuestados, el cual puede variar según el año de recolección de la información.

Conclusiones

A través del diseño del modelo entidad relación y su posterior implementación en un modelo relacional, fue posible representar de manera estructurada la interacción entre censos, personas, hogares, viviendas, población, ubicaciones geográficas, proyecciones poblacionales, marcos muestrales y encuestas, elementos fundamentales dentro del proceso de producción estadística.

La aplicación de las formas normales (1FN, 2FN y 3FN) permitió identificar y corregir posibles problemas de redundancia y duplicidad en la información, particularmente en la tabla asociada a la población observada. La separación de los datos relacionados con personas, hogares y viviendas permitió mejorar la organización de la base de datos y garantizar que cada tabla almacenara únicamente la información correspondiente a su unidad de análisis, fortaleciendo así la integridad.

Asimismo, la implementación de claves primarias y claves foráneas permitió establecer relaciones consistentes entre las diferentes tablas, garantizando la integridad referencial y facilitando la consulta de la información. Esto resulta especialmente relevante en contextos institucionales como el del DANE, donde la información estadística debe ser confiable, consistente y fácilmente integrable para su posterior análisis y difusión.

Por otra parte, el uso de sentencias DML permitió simular la inserción y manipulación de datos estadísticos reales, evidenciando cómo la información proveniente de los censos puede integrarse con datos sociodemográficos de las personas, su localización geográfica y las proyecciones poblacionales, las cuales constituyen insumos fundamentales para la construcción de marcos muestrales utilizados en el diseño de encuestas.

El diseño adecuado de bases de datos constituye un componente esencial dentro de los sistemas de producción estadística oficial, ya que facilita la organización, almacenamiento y análisis de grandes volúmenes de información. De esta manera, se contribuye al fortalecimiento de los procesos estadísticos que permiten al país disponer de información confiable para la toma de decisiones y la formulación de políticas públicas, en concordancia con los lineamientos establecidos en la Ley de Estadísticas Oficiales (Congreso de la República de Colombia, 2023).

Referencias

Congreso de la República de Colombia. (2023). Ley 2335 de 2023. Por la cual se expide la Ley de Estadísticas Oficiales.

DDL - DML

Javier Plazas - Dayanna Erazo

Conclusiones

Referencias

Configuración avanzada