Revolucionando a reconstrução da cena com Break
Os seres humanos possuem naturalmente a capacidade de dividir cenas complicadas em elementos componentes e imaginá-los em vários cenários. Pode-se facilmente imaginar a mesma criatura em múltiplas atitudes e locais ou imaginar a mesma tigela em um novo ambiente, dado um instantâneo de uma obra de arte em cerâmica mostrando uma criatura reclinada em uma tigela. Os modelos generativos de hoje, no entanto, precisam de ajuda com tarefas dessa natureza. Pesquisas recentes sugerem a personalização de modelos de texto para imagem em grande escala, otimizando incorporações de texto especializadas recém-adicionadas ou ajustando os pesos do modelo, dadas muitas imagens de uma única ideia, para permitir a síntese de instâncias desse conceito em situações únicas.
Neste estudo, pesquisadores da Hebrew University of Jerusalem, Google Research, Reichman University e Tel Aviv University apresentam um novo cenário para a decomposição da cena textual: dada uma única imagem de uma cena que pode incluir vários conceitos de vários tipos, seu objetivo é separe um token de texto específico para cada ideia. Isso permite a criação de imagens inovadoras a partir de sugestões verbais que destacam certos conceitos ou combinações de muitos temas. As ideias que eles querem aprender ou extrair da atividade de customização são aparentes apenas algumas vezes, o que as torna potencialmente pouco claras. Trabalhos anteriores lidaram com essa ambigüidade, concentrando-se em um único tópico por vez e usando uma variedade de fotografias para mostrar a noção em vários cenários. No entanto, métodos alternativos são necessários para resolver o problema ao fazer a transição para uma situação de imagem única.
Eles sugerem especificamente adicionar uma série de máscaras à imagem de entrada para adicionar mais informações sobre os conceitos que desejam extrair. Essas máscaras podem ser de forma livre fornecidas pelo usuário ou produzidas por uma abordagem de segmentação automatizada (como). Adaptar as duas técnicas primárias, TI e DB, para este ambiente indica uma troca reconstrução-editabilidade. Considerando que a TI falha em reconstruir as ideias em um novo contexto adequadamente, o DB precisa de mais controle de contexto devido ao overfitting. Neste estudo, os autores sugerem um pipeline de personalização exclusivo que atinge com sucesso um compromisso entre a manutenção da identidade do conceito aprendido e a prevenção do overfitting.
figura 1 fornece uma visão geral de nossa metodologia, que tem quatro partes principais: (1) Usamos uma abordagem de amostragem de união, na qual um novo subconjunto de tokens é amostrado a cada vez, para treinar o modelo para lidar com várias combinações de ideias criadas. Além disso, (2) para evitar overfitting, empregamos um regime de treinamento em duas fases, começando com a otimização apenas dos tokens inseridos recentemente com uma alta taxa de aprendizado e continuando com os pesos do modelo na segunda fase com uma taxa de aprendizado reduzida . As ideias desejadas são reconstruídas pelo uso de uma (3) perda de difusão disfarçada. Em quarto lugar, empregamos uma perda única de atenção cruzada para promover o desembaraço entre as ideias aprendidas.
Seu pipeline contém duas etapas, mostradas na Figura 1. Para reconstruir a imagem de entrada, eles primeiro identificam um grupo de caracteres de texto especiais (chamados alças), congelam os pesos do modelo e, em seguida, otimizam as alças. Eles continuam a refinar as alças enquanto mudam para o ajuste fino dos pesos do modelo na segunda fase. Seu método enfatiza fortemente a extração de conceitos desembaraçados ou garante que cada identificador esteja conectado a apenas um conceito de destino. Eles também entendem que o procedimento de customização não pode ser feito de forma independente para cada ideia para desenvolver gráficos que mostrem combinações de noções. Em resposta a essa descoberta, oferecemos amostragem sindical, uma abordagem de treinamento que atende a essa necessidade e melhora a criação de combinações de ideias.
Eles fazem isso utilizando a perda de difusão mascarada, uma variação modificada da perda de difusão padrão. O modelo não é penalizado se um identificador estiver vinculado a mais de um conceito por causa dessa perda, o que garante que cada identificador personalizado possa entregar a ideia pretendida. Sua principal descoberta é que eles podem punir tal emaranhamento impondo adicionalmente uma perda nos mapas de atenção cruzada, que são conhecidos por se correlacionarem com o layout da cena. Devido à perda adicional, cada identificador se concentrará apenas nas áreas cobertas por seu conceito-alvo. Eles oferecem várias medições automáticas para a tarefa de comparar sua metodologia com os benchmarks.