1. Definir os principais pontos
Você escolheu um conjunto de perguntas que quer incluir no card de dados, perguntas que você considera importantes para seus leitores. No entanto, não é tão simples quanto responder a essas perguntas e chamar isso de card de dados. É preciso considerar cuidadosamente para garantir que o cartão de dados final seja otimizado para a experiência do leitor.
Ao ler cards de dados, as pessoas querem tomar decisões muito específicas, como:
- Esse conjunto de dados é adequado para meu caso de uso?
- Posso permitir que outras pessoas usem esse conjunto de dados?
- Como posso usar esse conjunto de dados com segurança sem adicionar risco aos meus modelos?
Se os leitores puderem acessar as informações certas de maneira eficiente, eles vão tomar decisões relacionadas a conjuntos de dados nos contextos deles com muita facilidade. A importância ou utilidade das informações depende do tipo de decisão que o leitor precisa tomar e da experiência dele. Por exemplo, ao decidir se vai usar um conjunto de dados, um compliance officer pode analisar as licenças associadas a ele, mas um engenheiro analisa a pilha técnica. Os dois leitores fazem as mesmas perguntas, mas esperam respostas diferentes.
Os cards de dados precisam descrever seu conjunto de dados de forma abrangente para que os leitores possam tomar decisões com confiança. Essas descrições abrangentes ajudam você a decidir o que quer que os leitores entendam do card de dados e a determinar o tipo de informação precisa, robusta e organizada que deve ser documentada nele. O desafio é que é impossível determinar todas as decisões que os leitores da sua ficha de dados precisam tomar.
2. Planejar seu card de dados
- Para determinar as decisões que os leitores do card de dados precisam tomar e o nível de detalhe que o card deve incluir, responda à pergunta de cada categoria na tabela a seguir:
Leitores | Decisões | Metas | Relevância | Nuance |
Quem é o público principal? | Quais decisões eles vão tomar sobre o conjunto de dados? | O que eles querem do card de dados? | Que conteúdo específico eles precisam do card de dados para atingir as metas? | Considerando o que você sabe sobre o leitor, qual nível de detalhe ou sutileza seu conteúdo precisa ter? |
Exemplo: engenheiros de software de produção | Exemplo: devo usar o conjunto de dados para testar um modelo de machine learning (ML) em produção? | Exemplo: me dê uma visão geral do conjunto de dados. Me diga como isso é implementado. | Exemplo: usos pretendidos e inadequados, uso anterior e resultados em modelos anteriores. | Exemplo: muito sutil. Ênfase no uso técnico e na usabilidade para fins de integração em sistemas de produção. |
Use a tabela para avaliar o cartão de dados e garantir que os leitores de alta prioridade o considerem útil. Há muitas abordagens para avaliar sua ficha de dados, mas uma que recomendamos envolve classificar a gravidade da usabilidade.
Embora as definições precisas possam variar, a escala de gravidade a seguir fornece uma classificação de quão danificado algo está e o impacto do problema, sem considerar a priorização. Nesse contexto, nos referimos à usabilidade do card de dados, que, se não for abordada, pode afetar a confiança de um leitor no card e a utilidade dele.
- Para avaliar a utilidade do estado do card de dados para cada grupo de público-alvo na tabela anterior, responda às perguntas na seguinte escala de gravidade:
Violação | Gravidade | Correção |
Quais respostas não são úteis para o leitor? | Qual é o nível de urgência para corrigir isso em uma escala de 1 a 5? (Marque a caixa de seleção aplicável):
| Qual é a solução? |
3. Buscando o suficiente
Na maioria das vezes, uma das duas situações a seguir acontece quando você cria seu primeiro card de dados:
- Muita informação sobrecarrega os leitores.
- Poucas informações confundem os leitores.
Como criador de um card de dados, você precisa selecionar e priorizar as informações nele. Um bom artefato de transparência oferece contexto suficiente para que os leitores tenham uma compreensão clara. Caso contrário, ele informa para onde ir em seguida.
Você quer fornecer informações que facilitem a compreensão e o uso do conjunto de dados. Às vezes, a complexidade do conjunto de dados aumenta, o que afeta a densidade de informações e explicações que você precisa resumir no card de dados.
Independente do nível de conhecimento dos leitores, qualquer pessoa pode sofrer sobrecarga de informações. Por isso, é importante apresentar as informações corretas, que incluem o seguinte:
- O tipo de informação que você precisa fornecer.
- A quantidade de informações que você tem a oferecer.
- Os detalhes.
As respostas precisam resumir tudo sem detalhar demais e refletir o contexto necessário para que os leitores entendam seu conjunto de dados.
Heurísticas
Criamos um conjunto de heurísticas que você pode usar para avaliar a experiência geral de leitura do seu card de dados. Consideramos essas heurísticas como objetivos que os cards de dados precisam cumprir para serem bem-sucedidos e adotados de maneira adequada na prática e em grande escala. A tabela a seguir contém esses objetivos e as descrições deles:
Objetivo | Descrição |
Consistente | Os cards de dados precisam ser comparáveis entre si, independente da modalidade ou do domínio dos dados, para que as declarações sejam fáceis de interpretar e validar no contexto de uso. Embora a implantação de cards de dados únicos seja relativamente fácil, descobrimos que as equipes e organizações precisam preservar a comparabilidade ao aumentar a adoção. |
Abrangente | Em vez de ser criada como a última etapa no ciclo de vida de um conjunto de dados, ela precisa ser fácil de criar simultaneamente com o conjunto de dados. Além disso, a responsabilidade de preencher os campos em um card de dados deve ser distribuída e atribuída à pessoa mais adequada. Isso exige métodos padronizados que vão além do cartão de dados e se aplicam aos vários relatórios gerados no ciclo de vida do conjunto de dados. |
Inteligível e conciso | Os leitores têm níveis de proficiência variados, o que afeta a interpretação do card de dados. Em cenários em que a proficiência das partes interessadas é diferente, as pessoas com o modelo mental mais forte do conjunto de dados se tornam tomadores de decisão de fato. Por fim, tarefas mais urgentes ou desafiadoras podem reduzir a participação de partes interessadas não tradicionais nas decisões, que são deixadas para "o especialista". Isso pode omitir perspectivas importantes que refletem as necessidades de partes interessadas laterais e downstream. Um card de dados precisa se comunicar de forma eficiente com o leitor menos proficiente e permitir que leitores mais experientes encontrem mais informações conforme necessário. O conteúdo e o design precisam avançar o processo de deliberação do leitor sem sobrecarregá-lo e incentivar a cooperação das partes interessadas em direção a um modelo mental compartilhado do conjunto de dados para a tomada de decisões. |
4. Pontuar suas heurísticas
- Para revisar as respostas do seu card de dados, use o seguinte quadro de pontuação que criamos para pontuar cada heurística. No final, você pode calcular a pontuação geral do card de dados, o que ajuda a manter o controle. Você também pode incluir comentários para capturar mais contexto e ações necessárias para melhorar cada heurística.
Heurística | Critérios | Comentários | Pontuação |
Faça uma autoavaliação do card de dados concluído com base nas seguintes heurísticas. | Critérios para heurística | Preste atenção especial às áreas em que o card de dados pode ser melhorado. | Apenas números, autoavaliação (0 a 10) |
Inteligível |
| . | . |
Abrangente |
| . | . |
Consistente |
| . | . |
Conciso |
| . | . |
Pontuação total = (Total de pontos/120) | . | . | /120 |
5. Análise cuidadosa
Sabemos que dados são informações sobre pessoas, culturas ou empresas que foram capturadas de maneira estruturada para uma finalidade específica. No entanto, como afirmado repetidamente, todos são sutis, entrelaçados por várias dimensões com graus variados. Assim, a análise que você realiza no conjunto de dados oferece uma janela para o pensamento que foi colocado nele, o que ajuda a entender as complexidades.
Por exemplo, uma análise interseccional de pessoas pode explorar as combinações de fatores humanos em um conjunto de dados para identificar possíveis resultados desproporcionais, como quando um modelo treinado em um conjunto de dados tem uma performance melhor para um subgrupo do que para outros. Uma análise desagregada divide o conjunto de dados com base em diferentes fatores para revelar padrões importantes para subgrupos ou populações marginalizadas que geralmente são mascarados por dados agregados maiores, para que os leitores possam antecipar resultados.
Com isso, descobrimos que a interseccionalidade e as análises desagregadas (IDA, na sigla em inglês) são maneiras eficazes de comunicar uma variedade de resultados plausíveis em diferentes circunstâncias em uma ficha de dados, estabelecendo relações claras em um conjunto de dados. A IDA pode oferecer aos leitores pistas vitais sobre a representação no seu conjunto de dados, como a correlação entre rótulos e entidades sensíveis, lacunas no conjunto de dados, como o fato de ele ter apenas fotografias tiradas durante o dia, e a relação entre variáveis que podem fazer com que os modelos de IA aprendam correlações espúrias ou escolham proxies. Essas análises se tornam ainda mais úteis quando são situadas em circunstâncias do mundo real que refletem a experiência que os usuários afetados podem ter com um produto ou serviço que usa seu conjunto de dados.
Por exemplo, a apresentação dos resultados da IDA em um cartão de dados ajuda os leitores a criar proativamente uma intuição sobre o desempenho do modelo de ML em subconjuntos, também conhecidos como fatias, no conjunto de dados. Embora isso exija que os criadores de conjuntos de dados sejam mais diligentes nas análises e na apresentação na ficha de dados, pode levar a melhores resultados de produtos para as partes interessadas.
A IDA pode ajudar os leitores a entender melhor como usar seu conjunto de dados nos modelos deles. Se tiver dificuldades, trabalhe com especialistas, equipes de produtos e pessoas com experiência para ajudar a estruturar suas análises. A IDA geralmente está enraizada em contextos que precisam ser explicados aos leitores ou exigem suporte adicional para que eles possam interpretar adequadamente.
6. Analise seus dados
Para analisar seu conjunto de dados, siga estas etapas:
- Explore antes de começar a análise. Desenvolva uma intuição sobre os desvios e desequilíbrios no seu conjunto de dados com uma ferramenta, como o TensorFlow Data Validation (TFDV) ou a Learning Interpretability Tool (LIT). Use os resultados para embasar o design da sua análise.
- Planeje sua análise com cuidado. Os resultados da análise são muito influenciados pelas metas da sua avaliação, pelo acesso a conhecimentos e recursos para realizar a análise, por quando e onde você realiza a análise e pelos contextos dos modelos de IA em que a análise é realizada.
- Comece com fatores relevantes para o uso pretendido. Alinhe fatores demográficos, socioculturais, comportamentais e morfológicos que podem afetar mais seus casos de uso pretendidos ao criar grupos de interesse e expandir a partir daí.
- Denuncie, não comente. Os fatores e as proposições que afetam as análises de justiça existem em construções sociais específicas de cada cultura e período histórico, que são difíceis de quantificar. Evite adicionar comentários que possam confundir o leitor. Em vez disso, ofereça maneiras de reproduzir análises que ajudem os leitores a calibrar os resultados no próprio contexto.
- Planeje para o futuro. Considere outros fatores que podem aparecer no futuro analisando a representação no conjunto de dados, mantendo os valores constantes em diferentes cenários ou combinando sua análise com uma variedade de valores de outros fatores relevantes para o conjunto de dados.
- Forneça mais contexto para resultados não reproduzíveis. Se as métricas não puderem ser reproduzidas por partes interessadas downstream, forneça contexto suficiente sobre a análise. Se um leitor puder usar essas informações para ponderar os prós e contras do conjunto de dados, isso vai gerar confiança nele.
7. Parabéns
Parabéns! Você tem algumas maneiras de fornecer as respostas certas no seu cartão de dados. Agora você pode fazer a auditoria.