Da Konstruktor , 22 Febbraio 2026

Se hai mai interagito con un modello come ChatGPT o Llama 3, avrai notato che a volte si rifiutano di rispondere a certe domande. Questi "rifiuti" non sono casuali, ma il risultato di un allineamento alla sicurezza (safety alignment) voluto e addestrato nel modello. Rimuovere questo filtro, un processo chiamato "abliterazione", è sempre stato un compito complesso, che richiedeva competenze tecniche e tentativi manuali. Heretic, creato da p-e-w, cambia le regole del gioco automatizzando completamente questo processo.