Los ARN largos no codificantes (lncRNA) son transcripciones ubicuas con funciones reguladoras cruciales en diversos procesos biológicos, incluida la remodelación de la cromatina, la regulación postranscripcional y las modificaciones epigenéticas. Si bien la evidencia acumulada aclara los mecanismos mediante los cuales los lncRNA de las plantas modulan el crecimiento, el desarrollo de las raíces y la latencia de las semillas, su identificación precisa sigue siendo un desafío debido a la falta de métodos específicos para las plantas.
Actualmente, los métodos principales para la identificación de lncRNA de plantas se desarrollan en gran medida basándose en conjuntos de datos humanos o animales. En consecuencia, no se ha evaluado completamente la precisión y eficacia de estos métodos para predecir los lncRNA de plantas.
Recientemente, se publicó en Horticulture Research un artículo de investigación titulado "Plant-LncPipe:un proceso computacional que proporciona una mejora significativa en la identificación de lncRNA de plantas" por un grupo dirigido por Jian-Feng Mao de la Universidad Forestal de Beijing y la Universidad de Umeå. .
Este estudio recopiló ampliamente datos de secuenciación de ARN de alta calidad de varias plantas y utilizó estos datos específicos de las plantas para volver a entrenar los modelos de tres herramientas principales de predicción de lncRNA, a saber, CPAT, LncFinder y PLEK. El rendimiento de los modelos reentrenados se comparó y evaluó con otras herramientas populares de predicción de lncRNA, como CPC2, CNCI, RNAplonc y LncADeep.
Los resultados demostraron que los modelos reentrenados mejoraron significativamente el rendimiento de predicción de los lncRNA de plantas. Entre ellos, dos modelos reentrenados, LncFinder-plant y CPAT-plant, superaron a otros en múltiples métricas de evaluación, lo que los convierte en las herramientas más adecuadas para la identificación de lncRNA de plantas.
Esta investigación desarrolló un proceso computacional llamado Plant-LncPipe para la identificación y análisis de lncRNA de plantas.
Este proceso integra dos modelos de identificación de alto rendimiento, CPAT-plant y LncFinder-plant, lo que permite un proceso computacional integral que abarca el preprocesamiento de datos sin procesar, el ensamblaje de transcripciones, la identificación de lncRNA, la clasificación de lncRNA y los orígenes de lncRNA. Este proceso computacional se puede aplicar ampliamente a varias especies de plantas. Plant-LncPipe está disponible públicamente.
El estudio demuestra que volver a entrenar los modelos de predicción de lncRNA en datos transcriptómicos de plantas de alta calidad permitió una captura más precisa de las características de lncRNA de las plantas, lo que mejoró significativamente la precisión y confiabilidad de la predicción. El estudio subrayó la importancia del reentrenamiento específico de cada especie para mejorar la precisión del modelo. La reentrenamiento de los modelos maduros existentes retuvo la experiencia y las metodologías acumuladas previamente y, al mismo tiempo, impulsó aún más la aplicabilidad y precisión del modelo.
Más información: Xue-Chan Tian et al, Plant-LncPipe:un proceso computacional que proporciona una mejora significativa en la identificación de lncRNA de plantas, Investigación en horticultura (2024). DOI:10.1093/hora/uhae041
Información de la revista: Investigación en horticultura
Proporcionado por la Academia China de Ciencias