Heretic per Rimuovere la Censura dai Modelli Linguistici in Modo Automatico ed Intelligente | Referenza Internazionale Suono

Da Konstruktor , 22 Febbraio 2026

Heretic: Fully automatic censorship removal for language models

Se hai mai interagito con un modello come ChatGPT o Llama 3, avrai notato che a volte si rifiutano di rispondere a certe domande. Questi "rifiuti" non sono casuali, ma il risultato di un allineamento alla sicurezza (safety alignment) voluto e addestrato nel modello. Rimuovere questo filtro, un processo chiamato "abliterazione", è sempre stato un compito complesso, che richiedeva competenze tecniche e tentativi manuali. Heretic, creato da p-e-w, cambia le regole del gioco automatizzando completamente questo processo. Il suo obiettivo è semplice: eliminare la censura da un modello mantenendo intatta la sua intelligenza originale.

Come Funziona?

Heretic si basa su una tecnica chiamata ablazione direzionale (o "abliteration"), che identifica e neutralizza i "vettori" interni del modello responsabili dei rifiuti. La vera innovazione di Heretic sta nella sua automazione intelligente. Utilizza un ottimizzatore di parametri (basato su Optuna) per trovare il perfetto equilibrio tra due obiettivi contrastanti:

Ridurre al minimo i rifiuti su prompt considerati "dannosi".
Minimizzare la divergenza KL dal modello originale su prompt "innocui". In parole povere, cerca di modificare il modello il meno possibile, solo per sbloccarlo, senza intaccarne le capacità.

Il risultato? I numeri parlano chiaro. Sulla tabella fornita dagli sviluppatori, la versione "heretic" di un modello raggiunge lo stesso basso numero di rifiuti di altre ablitterazioni manuali, ma con un danno collaterale (KL divergence) molto inferiore. L'utente medio su Reddit conferma: i modelli generati con Heretic sono descritti come i migliori, intelligenti e pronti a rispondere senza esitazioni anche su temi delicati.

Usare Heretic è Semplice

Il bello è che non serve essere un ricercatore. Con Python e PyTorch installati, bastano pochi comandi da terminale:

pip install -U heretic-llm
heretic NomeModello/CheVuoiSbloccare

Il tool fa tutto da solo: analizza il modello, trova la configurazione ottimale e, in circa 45 minuti su una GPU moderna, ti restituisce un modello "decensurato" pronto per essere salvato, chattato o caricato su Hugging Face.

Oltre la Censura: Uno Strumento di Ricerca

Per i più curiosi, Heretic offre anche funzionalità avanzate (installando il pacchetto research) che permettono di visualizzare e analizzare come si trasformano i vettori interni del modello layer dopo layer. Un vero e proprio viaggio nel suo "pensiero" che può aiutare a capire dove e come emerge il comportamento di rifiuto.

In Conclusione

Heretic non è solo un tool per "sbloccare" modelli. È un esempio affascinante di come l'ingegneria di precisione possa essere applicata all'interpretabilità dei modelli, ottenendo risultati di alta qualità in modo completamente automatico. Se sei uno sviluppatore o un appassionato che vuole esplorare i limiti dei LLM, Heretic merita sicuramente un posto nella tua cassetta degli attrezzi.