1. Aquisição de conhecimento
Os temas surgem naturalmente à medida que você explora a tipologia das partes interessadas, captura as necessidades exclusivas de informações e aplica diferentes granularidades para enquadrar suas perguntas. Para ajudar você a classificar e estruturar seu tema de perguntas, criamos um modelo de aquisição de conhecimento que oferece uma abordagem robusta, deliberada e repetível para produzir documentação de transparência.
A aquisição de conhecimento é a extração, estruturação e organização de conhecimento de uma fonte, geralmente especialistas humanos, para que ele possa ser usado, por exemplo, no produto ou na tecnologia em que você trabalha.
Nosso framework é chamado OFTEn, uma ferramenta conceitual para considerar sistematicamente como os temas são divulgados em todas as partes de um card de dados. Ele foi criado com investigações detalhadas de transparência de conjuntos de dados indutivas e dedutivas.
OFTEn
OFTEn é uma abreviação das etapas gerais do ciclo de vida do conjunto de dados: Origens, Fatos reais, Transformações, Experiência e n = 1 (amostras).
Origins
A etapa de origens envolve as várias atividades de planejamento que determinam o resultado final, como a definição de requisitos, métodos de coleta ou origem e decisões de design e política.
Os temas que surgem de perguntas sobre a origem incluem:
- Autores e proprietários
- Motivações
- Aplicativos pretendidos
- Métodos de coleta
- Licenças
- Versões
- Fontes
- Errata
- Partes responsáveis
Fatos
A etapa "Fatos" representa os atributos estatísticos e outros atributos factuais que descrevem o conjunto de dados, os desvios do plano original e qualquer análise prévia de tratamento.
Os temas que surgem de perguntas factuais incluem:
- Número de instâncias
- Número de elementos
- Número de rótulos
- Origem dos rótulos
- Fonte de dados
- Detalhamento de subgrupos
- Formato dos recursos
- Descrição dos recursos
- Ausentes ou duplicados
- Critério de inclusão
Transformações
A etapa "Transformações" inclui resumos de tarefas de rotulagem, anotação ou validação. Dependendo do conjunto de dados, podem surgir processos de adjudicação entre avaliadores. Além disso, a engenharia de recursos e as modificações feitas para lidar com privacidade, segurança ou informações de identificação pessoal (PII) contam como transformações.
Os temas que capturam perguntas do tipo transformação incluem:
- Nota ou anotação
- Filtragem
- Processando
- Validação
- Propriedades estatísticas
- Atributos sintéticos
- Como lidar com PII
- Variáveis sensíveis
- Impacto na justiça
- Distorções ou vieses
Experiência
A fase de experiência envolve o uso dos dados para tarefas específicas, o treinamento de acesso, a realização de modificações para adequar à tarefa, a aquisição de resultados e a comparação com outros conjuntos de dados semelhantes, além da observação de comportamentos esperados ou inesperados.
Os temas que ilustram perguntas sobre experiências incluem:
- Performance pretendida
- Uso indevido
- Performance inesperada
- Advertências
- Insights
- Experiências
- Histórias
- Usar
- Avaliação de caso de uso
n = 1 (amostras)
A etapa n = 1 (amostras) envolve os detalhes dos pontos de dados de distribuição, a demonstração de pontos de dados notáveis com atributos específicos e, quando aplicável, a modelagem de resultados neles.
Os temas que as perguntas de exemplo demonstram incluem:
- Exemplos ou links para exemplos típicos e outliers.
- Exemplos que geram falsos positivos ou falsos negativos.
- Exemplos que demonstram o tratamento de valores de recursos nulos ou zero.
Exemplo
Por exemplo, o seguinte conjunto de perguntas foi organizado com o OFTEn:
Quem | O que | Quando | Onde | Por quê? | Como | |
Origens | Quem publica o conjunto de dados? Eles são diferentes dos proprietários do conjunto de dados? | Quais são os incentivos para rotuladores, provedores e especialistas de dados empregados para esse conjunto de dados? | Quando este conjunto de dados foi criado? Lançado? | De onde veio o financiamento? | Por que esse conjunto de dados foi criado? Qual era a distribuição a priori do processo? | Como os métodos foram decididos e quantas partes estavam envolvidas? |
Fatos | Sobre quem são os dados? Os rotuladores são representativos das pessoas nos dados? | Quais são os subgrupos nos dados que podem afetar os resultados no machine learning? | Que período os dados representam? Quando os dados expiram ou são executados de maneira anormal? | Onde posso acessar o conjunto de dados? Onde os dados foram coletados ou criados? | Por que as métricas informadas foram escolhidas? Por que os rótulos específicos foram escolhidos? | Quantos rótulos exclusivos existem no conjunto de dados? Como elas foram geradas? |
Transformações | Como as PII foram tratadas neste conjunto de dados? Os resultados desse conjunto de dados podem ser usados para identificar indivíduos? | Quais métodos foram usados para limpar ou verificar esse conjunto de dados? | Quando e como os recursos devem ser projetados? Elas precisam ser atualizadas? | Os recursos de localização se correlacionam com outros recursos sensíveis? | Por que as transformações escolhidas foram aplicadas ao conjunto de dados? | Como os vieses ou as PII são tratados nos dados? |
Experiência | Quem pode usar esse conjunto de dados e para quais tarefas? É necessário fazer algum treinamento? | Quais foram os métodos, resultados ou erros descobertos quando o conjunto de dados foi usado? | Em que circunstâncias e quando esse conjunto de dados não deve ser usado? | Onde esse conjunto de dados está acessível? Onde ele foi usado? | Por que a representação esperada do conjunto de dados é diferente da representação observada? | Quanto custam os dados em diferentes partes do mundo? |
n = 1 (amostras) | O ponto de dados é típico ou atípico? Como os modelos se comportam aqui? | Qual é o tamanho do ponto de dados? Qual é o processo de consentimento, redação e desistência para intervir em um ponto de dados? | Quando o resultado em um ponto de dados muda? Mostrar exemplos usando contrafactuais? | Quais fatores estão incluídos no ponto de dados? Quais são os riscos envolvidos se as previsões derem errado? | Por que esse ponto de dados de imagem é cortado de uma determinada maneira? Por que algumas categorias não são preenchidas neste ponto de dados? | Como esse ponto de dados se relaciona a uma entrada do mundo real? Como o resultado se relaciona a uma saída do mundo real? |
Descobrimos que os cards de dados com uma estrutura OFTEn clara são fáceis de expandir e atualizar. Com o OFTEn, os cards de dados podem crescer com o tempo para incluir tópicos que normalmente são excluídos da documentação, como feedback de agentes downstream, diferenças notáveis entre versões e auditorias ou investigações ad hoc de produtores ou agentes.
Resumo
A tabela a seguir resume a estrutura OFTEn e descreve as etapas gerais no ciclo de vida de um conjunto de dados:
Etapa | Descrição |
Origens | Estágios iniciais do ciclo de vida de um conjunto de dados, quando são tomadas decisões sobre a criação dele. |
Fatos | Processos reais de coleta de dados e saídas brutas. |
Transformações | Os dados brutos são transformados em uma forma utilizável por operações como filtragem, validação, análise, formatação e limpeza. |
Experiência | O conjunto de dados é testado, comparado ou implantado na prática (experimental, produção ou pesquisa). |
n = 1 (amostras) | Exemplos reais do conjunto de dados (ou vinhetas) que representam pontos de dados normais e outliers. |
Há duas maneiras de usar o OFTEn ao criar um card de dados:
- De forma indutiva, o OFTEn apoia atividades com agentes para formular perguntas sobre conjuntos de dados e modelos relacionados que são essenciais para a tomada de decisões. Descobrimos que, quando muitos agentes se reúnem para fazer um brainstorming de perguntas com uma estrutura OFTEn, isso revela informações necessárias para a tomada de decisões direcionada.
- De forma dedutiva, o OFTEn pode ser usado para avaliar se um cartão de dados representa com precisão o conjunto de dados, o que resulta em efeitos formativos na documentação e no conjunto de dados. Por exemplo, os conjuntos de dados iniciais são mais inclinados a Origens e Fatos, enquanto os conjuntos de dados avançados são mais inclinados a Experiência.
Com o OFTEn, você pode fazer brainstorming e verificar se as perguntas abrangem o ciclo de vida do conjunto de dados, garantindo que o conteúdo seja abrangente e simplificado. Ele ajuda a encontrar redundâncias nos tipos de perguntas criadas e também aborda as lacunas que você pode encontrar ao longo do caminho.
2. Formular perguntas com o OFTEn
- Pense em alguns dos seus stakeholders e nas jornadas de informações do agente (AIJs, na sigla em inglês) que você formulou no módulo anterior e use os comandos a seguir para estruturar suas ideias.
- Se algumas das suas perguntas já se enquadrarem em uma das categorias do OFTEn, rotule-as como tal.
- Se as suas perguntas não se encaixarem em uma das categorias do OFTEn, escolha um dos seus agentes do módulo anterior e crie pelo menos uma pergunta por categoria do OFTEn para o agente.
- Crie outras perguntas com base nos cinco Ws (quem, o quê, onde, quando e por quê) e um H (como) para aumentar a profundidade da sua categoria OFTEn.
- Se for o caso, repita essas etapas para o próximo agente.
3. Dimensões
Agora que você entende o OFTEn e criou perguntas para incluir no seu cartão de dados, é hora de descobrir insights sobre elas fazendo uma primeira análise do cartão. Para isso, estamos apresentando as dimensões, que são descrições de alto nível dos diferentes tipos de julgamentos feitos pelos leitores e fornecem insights direcionais sobre a utilidade e a legibilidade do card de dados. Em outras palavras, o card de dados ajuda os leitores a chegar a uma conclusão embasada sobre seu conjunto de dados?
Accountable
Um card de dados responsável é de propriedade e mantido por pessoas que demonstram propriedade, reflexão, raciocínio e tomada de decisão sistemática adequados em relação ao conjunto de dados e ao uso dele.
Exemplos de áreas | Exemplos de perguntas |
Autoria, responsabilidade, manutenção, intenções | Como um [ponto de vista], quero saber... |
Utilidade ou uso
Um card de dados útil fornece detalhes que atendem às necessidades de informação dos leitores, o que leva a um processo de tomada de decisão responsável que estabelece a adequação do conjunto de dados para as tarefas e metas deles.
Exemplos de áreas | Exemplos de perguntas |
Necessidades do produtor, do agente, do usuário e da sociedade | Como um [ponto de vista], quero saber... |
Qualidade
Um cartão de dados de alta qualidade resume o rigor, a integridade e a integridade do conjunto de dados, geralmente comunicado de maneira acessível e compreensível para leitores de diferentes origens.
Exemplos de áreas | Exemplos de perguntas |
Validade,confiabilidade, integridade, reprodutibilidade | Como uma [perspectiva], quero saber... |
Impacto ou consequências do uso
Um card de dados que detalha adequadamente o impacto do uso do conjunto de dados define expectativas de resultados ao usar e gerenciar o conjunto de dados e reconhece as consequências de primeira ou segunda ordem que podem afetar negativamente as metas dos leitores.
Exemplos de áreas | Exemplos de perguntas |
Eficácia, relevância, benefício para o grupo,implicações de desvios | Como um [ponto de vista], quero saber... |
Riscos e recomendações
Um card de dados que oferece boas recomendações alerta os leitores sobre riscos e limitações conhecidos e potenciais decorrentes da origem, representação, uso ou contexto de uso, além de fornecer informações e alternativas suficientes para ajudar os leitores a fazer escolhas responsáveis.
Exemplos de áreas | Exemplos de perguntas |
Magnitude do risco, mitigação, recomendações, danos ao grupo | Como um [ponto de vista], quero saber... |
Resumo
Com as dimensões, você pode avaliar seu conjunto de perguntas para garantir que elas estejam alinhadas às suas metas e aos resultados desejados. Mesmo que você ainda não tenha respondido a uma pergunta no seu cartão de dados, é melhor corrigir os erros antes de se aprofundar no processo de documentação do conjunto de dados.
A tabela a seguir resume as cinco dimensões:
Etapa | Descrição |
Responsabilidade | Declarações que expressam decisões reflexivas, razoáveis e sistemáticas de diferentes partes interessadas sobre a confiança no conjunto de dados. |
Utilitário | Fornece detalhes que atendem às necessidades do processo de tomada de decisão responsável dos leitores e estabelece a adequação dos casos de uso em relação às metas deles. |
Qualidade | Resume o rigor, a integridade e a integridade do conjunto de dados de maneira acessível a muitos leitores. |
Impacto e consequências | Informações que ajudam os leitores a alcançar os resultados desejados ao usar e gerenciar o conjunto de dados, além de reconhecer as consequências que podem afetar negativamente as metas deles. |
Riscos e recomendações | Informa os leitores sobre riscos conhecidos e potenciais associados ao conjunto de dados que decorrem da representação, do uso ou do contexto de uso. |
Com esses diferentes tipos de dimensões, é possível descobrir insights sobre a qualidade, a legibilidade e a utilidade do conteúdo do seu card de dados antes mesmo de começar a preenchê-lo. Elas ajudam a identificar itens de ação que contribuem para um modelo de card de dados mais robusto e refinado.
4. Avaliar suas perguntas com dimensões
- Comece com uma única dimensão e determine o nível de fluência e experiência necessário para chegar a uma conclusão embasada com base na complexidade do seu conjunto de perguntas.
- Forneça uma justificativa e um raciocínio sobre o nível de suporte atual dessa dimensão pelo seu conjunto de perguntas.
- Apresente evidências que apoiem sua justificativa com uma ou duas perguntas de exemplo do seu conjunto.
- Se a dimensão parecer indesejável, anote as etapas necessárias para refinar ou resolver as deficiências. Se você trabalha com uma equipe de partes interessadas, atribua responsabilidades caso algumas delas estejam mais preparadas para responder a determinadas perguntas.
- Repita essas etapas para a próxima dimensão.
Confira a seguir um exemplo de modelo que você pode usar para capturar sua avaliação de dimensões:
Esse processo de avaliação pode levar de 15 minutos a uma hora, dependendo da quantidade de perguntas criadas e da variedade de partes interessadas que você precisa considerar para sua ficha de dados.
5. Parabéns
Parabéns! Você tem uma maneira de inspecionar as perguntas criadas para seu card de dados. Agora você já pode responder.