Fingir estar alineados con las metas humanas para ganar confianza, evitar modificaciones que puedan limitar su capacidad de acción futura y mentir para encubrir sus acciones pasadas, incluso cuando se le pidió explícitamente ser honesto, son algunas de las anomalías de los modelos de IA.