Ir al contenido

Documat


Resumen de Aplicación de técnicas de clustering para la estimación del esfuerzo en la construcción de proyectos software

Miguel Garre Rubio Árbol académico

  • español

    Los modelos paramétricos de estimación de coste del software basados en la utilización de una única ecuación que representa a toda una base de datos de proyectos, ofrecen resultados poco satisfactorios, Esto se debe a diversas razones, una de las cuales reside en el heterogeneidad de los proyectos utilizados en la obtención de dicha ecuación.

    Se trata entonces de procurar salvar este inconveniente. Para conseguir esto, surgel a idea de dividir esta base de datos de proyectos en grupos de ellos, de manera que los proyectos integrantes sean más homogéneos entre sí. Para realizar esta división de una forma automática y de manera que, efectivamente, proyectos similares se encuentren en el mismo grupo, se recurre a técnicas de Inteligencia Artificial, en concreto a algoritmos de agrupamiento automático o clustering.

    De ello surge un nuevo modelo, al que se le denomina modelo de estimación paramétrico segmentado. Consiste en la obtención de un conjunto de clusters, o grupos de proyectos, tras la aplicación de un algoritmo de clustering sobre la totalidad de la base de datos de proyectos. Los clusters así obtenidos ofrecen unas características más homogéneas que las que presentaban por separado los proyectos que los constituyen.

    Para cada uno de los grupos de proyectos obtenidos de esta manera se obtendría, mediante análisis de regresión, su propia ecuación paramétrica. Estas ecuaciones ofrecen, en término medio, después de las pruebas realizadas, mejores resultados que el uso exclusivo de una única ecuación para todos los proyectos de la base de datos.

    Este proceso se puede repetir de forma recursiva, si se considera conveniente, de manera que sucesivamente se proceda al refinamiento de los clusters que se van constituyendo.

    Dividir directamente los proyectos de la base de datos, no aprovecha el conocimiento previo que se pueda tener por parte de expertos sobre el comportamiento de los mismos.

    Con el fin de analizar este aspecto, se han realizado diferentes experimentos, que antes de llevar a cabo el proceso de clusterización, realizan un particionado previo de los proyectos, utilizando el conocimiento que personas expertas tiene sobre la influencia que tienen ciertos conductores de coste sobre el esfuerzo que requiere la realización de un proyecto. De esta manera, a la hora de aplicar el algoritmo de agrupamiento, se partirá de la experiencia y conocimiento ofrecido por estos expertos, que se utilizará para realizar un particionado previo de los datos.

    La forma en la que se ha llevado a cabo la evaluación del nuevo modelo paramétrico segmentado ha consistido en la comparación del modelo paramétrico clásico, mediante la utilización de los índices MMRE (Mean Magnitude of Relative Error) y PRED(/) (Prediction Level). Estos índices han mostrado unos resultados más satisfactorios utilizando el modelo aquí expuesto que utilizando el tradicional.

  • English

    Parametric software estimation models rely on the availability of historical project databases from which estimation models are derived. In this case, a single mathematical model cannot properly capture the diverse nature of the projects under consideration.

    The use of a single mathematical model offers poor quality of adjustment, due to several factors, one of which consists on heterogeneity of data used to elaborate the model.

    It is necessary to deal with this problem. The idea of splitting the project database in projects groups is the main motivation of this work. The members of these groups show a more homogeneous relationship between them. This task is automatically done using Artificial Intelligence techniques such us clustering algorithms, that divides data into segments of related projets.

    A new estimation model is presented in this work, called the segmented parametric software estimation model, which produces a set of clusters made up each of them by many different projects, after the use of a clustering algorithm over the entire project database. The projects clusters obtained in this manner present more homogeneous characteristics than others not clusterized.

    A mathematical model is given for each cluster get in this manner. This mathematical model consist of a parametric equation obtained by means of regression analysis.

    The quality of adjustment of this multi model is better than the single parametric model in the evaluations carried out.

    The task can be carried out recursively if considered appropriate, getting even more homogeneous subclusters in consecutive steps.

    The straightforward clustering process over all the projects does not use previous expert knowledge that they could get over them. Using this principle a new proposal has been made, this consists on creating a partition of projets before the clustering process can be done. This partition process divide projects, using expert knowledge, in groups of similar characteristics based on the influence that some cost drivers have over the effort estimation. In this manner, the clustering process will be improved due to a more suitable framework.

    The MMRE (Mean Magnitude of Relative Error ) and PRED(l 2) (Prediction level) measurements have been used to compare the two models, the segmented parametric model versus the not segmented parametric, to evaluate the accuracy and quality of adjustment of the technique proposed in this work. The segmented parametric software estimation model has provided better results than the not segmented model.


Fundación Dialnet

Mi Documat