Estudo revela “macete” para educarmos as IAs
anthropic, IA generativa, ProUm novo estudo da Anthropic revela que comportamentos como bajulação, malícia ou alucinações em modelos de linguagem de grande porte (LLMs) estão ligados a padrões específicos de atividade neural simulada. Curiosamente, a ativação deliberada desses padrões durante o treinamento pode ajudar a evitar que esses comportamentos indesejados surjam no futuro. Nova técnica da Anthropic pode […]