Los chatbots son realmente impresionantes cuando los ve que hacen cosas que son buenas, como escribir un correo electrónico básico o crear imágenes extrañas y futuras. Pero pídale a una generosa IA que resuelva uno de esos acertijos detrás de un periódico, y las cosas pueden alejarse rápidamente del ferrocarril.
Investigadores de la Universidad de Colorado de Boulder descubrieron que cuando desafiaron el modelo de lenguaje grande para resolver Sudoku. Y los rompecabezas estándar 9×9 tampoco lo son. Un rompecabezas fácil de 6×6 a menudo estaba más allá de las capacidades de un LLM sin ayuda externa (en este caso, Sam de rompecabezas específico después del equipo).
Otro descubrimiento importante ocurrió cuando se le pidió a la modelo que mostrara su trabajo. Para la mayoría de las partes, no pudieron. A veces solían mentir. A veces explicaba las cosas de manera que no tenían sentido. A veces solían tomar y comenzaron a hablar sobre el clima.
Si las herramientas generales de IA no pueden explicar sus decisiones de manera correcta o transparente, debemos ser cautelosos ya que damos más control sobre nuestras vidas y decisiones, dijo Ashutosh Trivedi, publicó un profesor de informática en la Universidad de Colorado y uno de los autores de documentos publicados en julio.
Trivedi dijo: “Realmente queremos ser transparentes a las explicaciones y reflejar por qué AI dio esta decisión, no AI no tratando de manipular a los seres humanos proporcionando una explicación a los humanos, lo que un ser humano podría gustar”, dijo Trivedi.
No se pierda ninguno de nuestros materiales técnicos justos y revisiones de laboratorio. Agregar CNET Como fuente favorita de Google.
El papel es parte del creciente cuerpo de investigación en el comportamiento de los modelos de idiomas grandes. Por ejemplo, otros estudios recientes han encontrado que los modelos tienen alucinaciones en la parte, ya que sus procesos de capacitación los alientan a producir los resultados que preferirán a un usuario, en lugar de lo que es preciso, o aquellos que usan LLM tienen menos probabilidades de recordar lo que escribieron. A medida que el general IA se vuelve cada vez más parte de nuestra vida diaria, las implicaciones de esta técnica funcionan y cómo nos comportamos cuando la usamos se vuelven extremadamente importantes.
Cuando tome una decisión, puede intentar justificarla, o al menos cómo la alcanza. Es posible que un modelo de IA no pueda hacerlo con precisión o transparente. ¿Confiarás en él?
Mira esto: Hice una PC de IA con rasguños
¿Por qué LLMS lucha con Sudoku?
Hemos visto que los modelos de IA han fallado en los primeros juegos y acertijos básicos. En el juego del ático de 1979, el chat de Openi (otro) en el ajedrez está completamente aplastado por un rival informático. Un trabajo de investigación reciente de Apple encontró que los modelos pueden luchar con otros acertijos como la Torre de Hanoi.
Esto es para hacer el trabajo LLM con la forma de trabajar y llenar la información. Estos modelos intentan cumplir los intervalos que se encuentran en los mismos casos en sus datos de entrenamiento u otras cosas que han visto en el pasado. Con Sudoku, la pregunta es una de las lógicas. La IA parece ser como una respuesta adecuada, dependiendo del orden, pero para resolverlo correctamente, en su lugar tiene que mirar la imagen completa y encontrar un orden lógico que pase de rompecabezas a rompecabezas.
Leer más: Según nuestros expertos, 29 formas en que puede trabajar para la IA general
Los chatbots son malos en el ajedrez por una razón similar. Encuentran los próximos trucos lógicos, pero no necesariamente tres, cuatro o cinco movimientos: se requieren habilidades fundamentales para jugar bien el ajedrez. Los chatbots también a veces mueven piezas de ajedrez de una manera que en realidad no siguen las reglas o ponen amenazas sin sentido.
Puede esperar que LLM pueda resolver sudoku porque son computadoras y los rompecabezas tienen números, pero los rompecabezas no son realmente matemáticos; Son simbólicos. “El Sudoku es famoso por ser un rompecabezas con el número que se puede hacer con cualquier cosa que no sea el número”, dijo Fabio Somenji, uno de los autores de un profesor y trabajo de investigación en CU.
Utilicé un mensaje de muestra del documento de los investigadores y lo di al chat. El equipo mostró su trabajo y me dijo repetidamente que antes de mostrar un rompecabezas, había una respuesta que no funcionaba, luego regresaba y lo hacía bien. Era como si el bot se estuviera convirtiendo en una presentación que continuó recibiendo la última edición: esta es la última respuesta. No, de hecho, no hay problema, él La última respuesta es. Finalmente recibió la respuesta a través de la prueba y el error. Pero las pruebas y el error no son una forma práctica para que una persona resuelva a Sudoku en el periódico. De esta manera, demasiada desaparición y desperdicio de diversión.
La IA y el robot pueden ser buenos en los deportes si están hechos para jugarlos, pero pueden tener dificultades con los rompecabezas de argumentos de herramientas generales como modelos de idiomas grandes.
AI lucha por mostrar tu trabajo
Los investigadores de Colorado no solo querían ver que los bots podrían resolver el rompecabezas. Pidió una explicación de cómo los bots trabajaron a través de él. Las cosas no se recuperaron.
Probando el modelo de razonamiento de previsión O1 de OpenAI, los investigadores notaron que para los acertijos resueltos correctamente explicados o no explicados correctamente o no correctamente y no entendieron mal las condiciones básicas.
Maria Pacheko, profesora asistente de informática en CU, dijo: “Una cosa que son buenas es proporcionar una aclaración que parece apropiada”. “Alinean a los humanos, por lo que les gusta como nos gusta, pero son leales a los pasos reales para resolver esto, donde estamos luchando un poco”.
A veces, las aclaraciones eran completamente irrelevantes. Desde que se terminó el papeleo, los investigadores continúan probando los nuevos modelos publicados. Somenji dijo que cuando él y Trivedi estaban ejecutando el modelo de razonamiento O4 de O4 a través de la misma prueba, en un momento, fue completamente derrotado.
“La siguiente pregunta que hicimos, la respuesta fue el pronóstico del tiempo para Denver”, dijo.
(Divulgación: en abril, la compañía original de CNET, Ziff Davis, presentó un caso contra Operai, alegando que viola la capacitación de derechos de autor de Ziff Davis y opera su sistema de IA).
Explicarse a sí mismo es una habilidad importante
Cuando resuelve un rompecabezas, es casi seguro que puede caminar a alguien más a través de su pensamiento. El hecho es que estos LLM fallaron tan brillantemente en ese trabajo básico que no hay un problema trivial. AI habla constantemente de “agentes de IA” con empresas que pueden tomar medidas en su nombre, es necesario poder explicarse.
Ahora considere los tipos de trabajos que se dan a la IA, o se planifican en el futuro cercano: conducir, hacer impuestos, decidir estrategias comerciales y traducir documentos importantes. Imagine lo que pasaría si usted, una persona, una de esas cosas y algo mal.
“Cuando los humanos tienen que poner su rostro frente a sus decisiones, pueden explicar de una mejor manera lo que sucedió debido a esa decisión”.
No se trata solo de obtener una respuesta adecuada. Debe ser preciso. Un día, una explicación de la IA puede tener que atrapar a sí misma en la corte, pero ¿cómo se puede tomar en serio su testimonio si se sabe que mentirán? No confiará en una persona que no se convenció, y ni siquiera confiaría en nadie a quien descubrieras lo que querías escuchar en lugar de la verdad.
Trivedi dijo: “Una explicación está muy cerca de la manipulación si se hace por la razón equivocada”, dijo Trivedi. “Tenemos que tener mucho cuidado con la transparencia de estas explicaciones”.