Enseñarle a la IA a decodificar datos genómicos complejos

Un nuevo y poderoso marco para abordar un desafío importante en la investigación biológica al examinar cómo las redes neuronales artificiales aprenden a etiquetar datos genómicos.
Los conjuntos de datos genómicos a menudo contienen grandes cantidades de muestras anotadas, pero muchas de estas muestras son incorrectas o ambiguas.
Tomando prestados los avances recientes en los campos del procesamiento del lenguaje natural y la visión por computadora, el equipo utilizó redes neuronales artificiales (ANN) de una manera no convencional: en lugar de simplemente usar las RNA para hacer predicciones, el grupo inspeccionó la dificultad con la que aprendieron a etiquetar diferentes muestras biológicas.
De manera similar a la evaluación de por qué los estudiantes encuentran algunos ejemplos más difíciles que otros, el equipo aprovechó esta fuente única de información para identificar discrepancias en las anotaciones celulares, mejorar la interpretación de los datos y descubrir vías celulares clave relacionadas con el desarrollo y la enfermedad.
La notabilidad proporciona un método más preciso para analizar los datos genómicos de células individuales, lo que ofrece un potencial significativo para avanzar en la investigación biológica y, a largo plazo, mejorar el diagnóstico y el tratamiento de enfermedades.

Un nuevo estudio dirigido por Jonathan Karin, Reshef Mintz, el Dr. Barak Raveh y la Dra. Mor Nitzan de la Universidad Hebrea presenta un nuevo marco para interpretar datos ómicos espaciales y de una sola célula mediante el monitoreo de la dinámica de entrenamiento de redes neuronales profundas.
La investigación tiene como objetivo abordar las ambigüedades inherentes a las anotaciones celulares y ofrece un enfoque novedoso para comprender datos biológicos complejos.

Los datos ómicos espaciales y de una sola célula han transformado nuestra capacidad para explorar la diversidad celular y los comportamientos celulares en la salud y la enfermedad.
Sin embargo, la interpretación de estos conjuntos de datos de alta dimensión es un desafío, principalmente debido a la dificultad de asignar anotaciones discretas y precisas, como tipos de células o estados, a poblaciones de células heterogéneas.
Estas anotaciones suelen ser subjetivas, ruidosas e incompletas, lo que dificulta la extracción de información significativa de los datos.

Los investigadores desarrollaron un nuevo marco, Annotatability, que ayuda a identificar desajustes en las anotaciones celulares y caracteriza mejor las estructuras de datos biológicos.
Al monitorear la dinámica y la dificultad de entrenar una red neuronal profunda con datos anotados, Annotatability identifica áreas donde las anotaciones de celdas son ambiguas o erróneas. El enfoque también destaca los estados celulares intermedios y la naturaleza compleja y continua del desarrollo celular.

Como parte del estudio, el equipo introdujo un método de incrustación de grafos consciente de señales que permite un análisis más preciso de las señales biológicas.
Esta técnica captura las comunidades celulares asociadas con las señales objetivo y facilita la exploración de la heterogeneidad celular, las vías de desarrollo y las trayectorias de la enfermedad.

El estudio demuestra la aplicabilidad de la anotabilidad en una variedad de conjuntos de datos de secuenciación de ARN de una sola célula y ómicas espaciales.
Los hallazgos incluyen la identificación de anotaciones erróneas, la delineación de los estados celulares relacionados con el desarrollo y la enfermedad, y una mejor caracterización de la heterogeneidad celular.
Los resultados ponen de manifiesto el potencial de este marco para desentrañar comportamientos celulares complejos y avanzar en nuestra comprensión de la salud y la enfermedad a nivel de una sola célula.

El trabajo de los investigadores presenta un importante paso adelante en la interpretación de datos genómicos, ofreciendo una poderosa herramienta para desentrañar la diversidad celular y mejorar nuestra capacidad para estudiar la dinámica de la salud y la enfermedad.

El artículo de investigación titulado “Interpreting single-cell and spatial omics data using deep neural network training dynamics”, ya está disponible en Nature Computational Science.

Investigadores:
Jonathan Karin1, Reshef Mintz1, Barak Raveh1 y Mor Nitzan1,2,3.

Instituciones:
1) Escuela de Ciencias de la Computación e Ingeniería, Universidad Hebrea de Jerusalem.
2) Instituto de Física Racah, Universidad Hebrea de Jerusalem.
3) Facultad de Medicina, Universidad Hebrea de Jerusalem.