Ir al contenido

Documat


Resumen de Implementación y optimización de algoritmos para aprendizaje automático con teoría de perturbaciones

Delfín Bernabé Ortega Tenezaca

  • español

    En la actualidad se ha acumulado una ingente cantidad de datos relacionados con sistemas complejos de muy variada indole: biomoleculares, economicos, sociales, etc. Estos sistemas son de gran relevancia en diferentes areas como las ciencias biomoleculares, ingenieria biomedica, y las ciencias sociales y juridicas. Las tecnicas de Inteligencia Artificial (IA) y/o Machine Learning (ML) pueden ser utiles para predecir propiedades de interes de estos sistemas. Para ello se necesitan al menos dos pasos principales. El primero se refiere a recopilar informacion similar de muchos casos de sistemas conocidos para poder entrenar los modelos AI/ML. El segundo paso indispensable esta relacionado con la cuantificacion numerica de informacion estructural, de las condiciones externas al sistema, y de las propiedades del mismo a ser predichas. En este segundo paso se definen las variables numericas de entrada y salida para entrenar los algoritmos AI/ML. Desafortunadamente los sistemas complejos estan compuestos por lo general por varios subsistemas no encontrandose informacion del sistema como un todo o de sus partes en la misma fuente. No obstante, si es habitual encontrar en varias fuentes dispersas informacion sobre cada uno de los subsistemas y sus propiedades. Para resolver esta problematica se ha desarrollado el algoritmo NIFPTML = NI + IF + PT + ML. Estos algoritmos involucran las siguientes etapas. En la etapa NI (Network Invariant) se usan redes complejas para representar distintos sistemas y/o sus subsistemas y se calculan las invariantes de estas redes para cuantificar su estructura. En la siguiente etapa es necesario utilizar tecnicas de Fusion de Informacion (IF) de diversas fuentes para obtener un conjunto de datos enriquecido. Posteriormente los operadores de la Teoria de Perturbacion (PT) procesan la informacion cuantificando las perturbaciones/desviaciones en las variables estructurales con respecto a valores esperados para diferentes subconjuntos de variables categoricas. Por ultimo, en la etapa de Aprendizaje Automatico (ML) se entrenan distintos algoritmos AI/ML permitiendo encontrar modelos predictivos. Los algoritmos NIFPTML han sido ampliamente utilizados y los resultados publicados en la literatura cientifica. Desafortunadamente, no existe una aplicacion de software de facil manejo (user-friendly) para los usuarios habituales de estos algoritmos. Por lo tanto, los desarrolladores de algoritmos NIFPTML necesitan utilizar varias herramientas diferentes para cada una de las etapas. Por otra parte, existe desconocimiento de las implicaciones juridicas del desarrollo de algoritmos computacionales como los NIFPTML en investigacion cientifica en estas areas. En esta tesis nos proponemos desarrollar (programar) una version beta de un software, al que hemos llamado SOFT.PTML, en el que se implementan por primera vez algoritmos NIFPTML en una misma aplicacion. Ademas, se demostrara la utilidad de este programa aplicandolo a distintos problemas practicos en las areas mencionadas: diseno de farmacos, descubrimiento de nanomateriales, estudio de sistemas juridicos. Por ultimo, se aportara un analisis de las implicaciones juridicas del desarrollo y aplicacion de este tipo de algoritmos en investigacion.

  • English

    Currently, a huge amount of data related to complex systems of a very varied nature has been accumulated: biomolecular, economic, social, etc. These systems are of great relevance in different areas such as biomolecular sciences, biomedical engineering, and social and legal sciences. The techniques of Artificial Intelligence (AI) and/or Machine Learning (ML) can be useful to predict properties of interest in these systems. For this, at least two main steps are needed. The first refers to collecting similar information from many cases of known systems to be able to train AI/ML models. The second indispensable step is related to the numerical quantification of structural information, the conditions external to the system, and the properties of the same to be predicted. In this second step, the numeric input and output variables are defined to train the AI/ML algorithms. Unfortunately, complex systems are generally made up of various sub-systems, and information about the system as a whole or its parts cannot be found in the same source. However, it is common to find information on each of the sub-systems and their properties in various scattered sources. To solve this problem, the algorithm NIFPTML = NI + IF+ PT + ML has been developed. These algorithms involve the following stages. In the NI stage (Network Invariant) complex networks are used to represent different systems and/or their subsystems and the invariants of these networks are calculated to quantify their structure. In the following stage, it is necessary to use Information Fusion (IF) techniques from various sources to obtain an enriched set of data. Later, the operators of the Perturbation Theory (PT) process the information by quantifying the perturbations/deviations in the structural variables with respect to the expected values for different subsets of categorical variables. Finally, in Machine Learning (ML), different AI/ML algorithms are trained, allowing predictive models to be found. The NIFPTML algorithms have been applied there and the results published in the literature. Unfortunately, there is no user-friendly software application for regular users of these algorithms. Therefore, the developers of NIFPTML algorithms need to use several different tools for each of the stages. On the other hand, there is a lack of knowledge of the legal implications of the development of computational algorithms such as the NIFPTML in scientific research in these areas. In this thesis we propose to develop (program) a beta version of a software, SOFT.PTML, in which NIFPTML algorithms are implemented for the first time in the same application. In addition, the usefulness of this program applied to different practical problems in the aforementioned areas will be demonstrated, such as: the design of drugs, the discovery of nanomaterials, the study of legal systems. Lastly, an analysis of the legal implications of the development and application of this type of algorithm in research will be provided.

  • galego

    Na actualidade acumulanse unha inxente cantidade de datos relacionados con sistemas complexos de moi variada natureza: biomoleculares, economicos, sociais, etc. Estes sistemas son de gran relevancia en diferentes areas como as ciencias biomoleculares, a enxenaria biomedica e as ciencias sociais e xuridicas. As tecnicas de Intelixencia Artificial (IA) e/ou Machine Learning (ML) poden ser utiles para predicir propiedades de interese nestes sistemas. Para iso, son necesarios polo menos dous pasos principais. O primeiro refirese a recoller informacion similar de moitos casos de sistemas conecidos para poder adestrar modelos de IA/ML. O segundo paso indispensable esta relacionado coa cuantificacion numerica da informacion estrutural, as condicions externas ao sistema e as propiedades do mesmo a predicir. Neste segundo paso, definense as variables numericas de entrada e saida para adestrar os algoritmos AI/ML. Desafortunadamente, os sistemas complexos estan formados xeralmente por varios subsistemas, e a informacion sobre o sistema no seu conxunto ou as suas partes non se pode atopar na mesma fonte. Non obstante, e habitual atopar informacion sobre cada un dos subsistemas e as suas propiedades en diversas fontes dispersas. Para resolver este problema, desenvolveuse o algoritmo NIFPTML = NI + IF + PT + ML. Estes algoritmos implican as seguintes etapas. Na etapa NI (Network Invariant) utilizanse redes complexas para representar diferentes sistemas e/ou os seus subsistemas e calculanse os invariantes destas redes para cuantificar a sua estrutura. Na seguinte etapa, e necesario utilizar tecnicas de fusion de informacion (IF) de diversas fontes para obter un conxunto de datos enriquecido. Posteriormente, os operadores da Teoria da Perturbacion (PT) procesan a informacion cuantificando as perturbacions/desviacions nas variables estruturais con respecto aos valores esperados para diferentes subconxuntos de variables categoricas. Finalmente, en Machine Learning (ML), adestran diferentes algoritmos de IA/ML, que permiten atopar modelos preditivos. Ali aplicaronse os algoritmos NIFPTML e os resultados publicaronse na literatura. Desafortunadamente, non hai unha aplicacion de software amigable para os usuarios habituais destes algoritmos. Polo tanto, os desenvolvedores de algoritmos NIFPTML necesitan utilizar varias ferramentas diferentes para cada unha das etapas. Por outra banda, hai un desconecemento das implicacions legais do desenvolvemento de algoritmos computacionais como o NIFPTML na investigacion cientifica nestas areas. Nesta tese proponemos desenvolver (programar) unha version beta dun software, SOFT.PTML, no que se implementan por primeira vez os algoritmos NIFPTML nunha mesma aplicacion. Ademais, demostrarase a utilidade deste programa aplicado a diferentes problemas practicos dos ambitos mencionados, como son: o deseno de farmacos, o descubrimento de nanomateriais, o estudo dos ordenamentos xuridicos. Por ultimo, realizarase unha analise das implicacions legais do desenvolvemento e aplicación deste tipo de algoritmos na investigacion.


Fundación Dialnet

Mi Documat