Es muy probable que haya enviado o recibido un mensaje que se ha distorsionado gracias a la autocorrección o la función de autocompletar. Hay cientos de memes en los que estos errores provocan problemas de comunicación, a menudo con resultados divertidos. Como éste. O este. O este.
Pero no es tan divertido cuando le sucede a su artículo científico. Los trabajos académicos suelen incluir archivos complementarios con datos, cuadros y gráficos que respaldan la conclusión del artículo. Muchos de esos archivos son hojas de cálculo.
Desde el 2004, Los científicos han notado que Microsoft Excel, el popular programa de hojas de cálculo, tiene la mala costumbre de cambiar algunos nombres de genes por otros tipos de datos. Por ejemplo, los genetistas usan MARZO1 como forma abreviada del dedo tipo 1 del anillo-CH asociado a la membrana. Pero Excel interpreta MARZO1 como una fecha, convirtiéndolo automáticamente a 1-Mar u otra designación para el primero de marzo.
Excel identifica erróneamente algunos otros nombres de genes como coordenadas o puntos flotantes. Es posible que pueda darse cuenta de que el 1 de marzo es en realidad el 1 de marzo, pero ¿qué tal 2.31E + 13? Así es como Excel convierte el identificador RIKEN 2310009E13. RIKEN es un instituto de investigación masivo en Japón que, entre otras cosas, realiza proyectos de genoma. (Para el registro, intentamos conectar el identificador RIKEN en una hoja de cálculo de Excel y lo convertimos automáticamente a 2.31E + 19, todavía está mal y todavía no es lo que se pretende en esos artículos académicos).
A pesar de que los investigadores identificaron este problema por primera vez hace más de una década, persiste hoy. Investigadores Mark Ziemann, Yotam Eren y Assam El-Osta proyectaron más de 35, 000 archivos complementarios para ver qué tan generalizado estaba el problema. Desarrollaron un software automatizado que buscaba cualquier dato que pareciera ser una lista de nombres de genes. Identificaron 7, 467 listas de genes que representan los datos suplementarios para 3, 597 artículos publicados en 18 revistas diferentes. Resultó que 704 de esos artículos publicados incluían archivos con errores de formato de Excel. Esa es una tasa de fracaso del 19,6 por ciento. En otras palabras, casi uno de cada cinco artículos publicados incluye archivos complementarios con errores de formato de Excel.
Esto no es solo un inconveniente. Los investigadores se basan en trabajos publicados para guiar sus propios proyectos. Si los archivos incluyen errores, Puede resultar difícil y llevar mucho tiempo resolver el problema y encontrar los datos relevantes.
¿Por qué no simplemente desactivar las funciones de formato automático? Según el equipo de investigación, no hay forma de deshabilitar permanentemente las funciones en Excel. Es posible que pueda cambiar manualmente cada opción cada vez que cree un nuevo archivo, pero eso es ineficiente. Ellos señalaron, sin embargo, que Google Sheets no sigue el mismo enfoque de formato. Y lo que es más, si primero coloca todos sus datos en Hojas de cálculo de Google y luego los copia en un programa de hoja de cálculo diferente, el formato permanece intacto.
Es un poco cómico que una función destinada a ayudar a las personas a usar hojas de cálculo esté causando tanto dolor de cabeza en los círculos académicos. Quizás las versiones futuras de Excel incluirán una opción para deshabilitar las funciones de formato automático de forma indefinida. Hasta entonces, los genetistas deberían verificar su trabajo dos veces o considerar cambiar a Google Sheets.