Interesante técnica de alineación. Si el modelo se da cuenta y se dice a sí mismo que estás mirando, se comporta mejor, por lo que puedes entrenarlo para que se lo recuerde con más frecuencia.
Antes del lanzamiento de Claude Sonnet 4.5, realizamos una auditoría de caja blanca del modelo, aplicando técnicas de interpretabilidad para "leer la mente del modelo" con el fin de validar su confiabilidad y alineación. Esta fue la primera auditoría de este tipo en un LLM fronterizo, que sepamos. (1/15)
Mostrar original
1.03 K
0
El contenido al que estás accediendo se ofrece por terceros. A menos que se indique lo contrario, OKX no es autor de la información y no reclama ningún derecho de autor sobre los materiales. El contenido solo se proporciona con fines informativos y no representa las opiniones de OKX. No pretende ser un respaldo de ningún tipo y no debe ser considerado como un consejo de inversión o una solicitud para comprar o vender activos digitales. En la medida en que la IA generativa se utiliza para proporcionar resúmenes u otra información, dicho contenido generado por IA puede ser inexacto o incoherente. Lee el artículo enlazado para más detalles e información. OKX no es responsable del contenido alojado en sitios de terceros. Los holdings de activos digitales, incluidos stablecoins y NFT, suponen un alto nivel de riesgo y pueden fluctuar mucho. Debes considerar cuidadosamente si el trading o holding de activos digitales es adecuado para ti según tu situación financiera.