Cómo fragmentar los archivos de feeds

Según tu inventario, es posible que debas fragmentar (o dividir los feeds en varios archivos).

Cuándo usar el particionado

  • El feed supera los 200 MB para 1 archivo (después de la compresión gzip).

    • Ejemplo: El feed de disponibilidad generado es de 1 GB. Debe estar fragmentado en más de 5 archivos (o fragmentos) separados.
  • El inventario de socios se distribuye en sistemas o regiones, lo que dificulta la conciliación del inventario.

    • Ejemplo: El socio tiene inventario de EE.UU. y de la UE que se encuentra en sistemas separados. El feed se puede generar con 2 archivos (o fragmentos), 1 para EE.UU. y 1 para la UE, con los mismos nonce y generation_timestamp.

Reglas Generales

  • Cada fragmento no puede superar los 200 MB para 1 archivo (después de la compresión gzip).
  • Te recomendamos que no incluyas más de 20 fragmentos por feed. Si tienes una justificación comercial que requiera más de ese importe, comunícate con el equipo de asistencia para obtener más instrucciones.
  • Los registros individuales (por ejemplo, un objeto Merchant) se deben enviar en un fragmento y no se pueden dividir en varios fragmentos. Sin embargo, no es necesario que se envíen en el fragmento con el mismo shard_number para los feeds futuros.
  • Para obtener un mejor rendimiento, divide los datos de manera uniforme entre los fragmentos para que todos tengan un tamaño similar.

Cómo fragmentar feeds

Para particionar el feed de eventos, divide un solo archivo JSON en archivos JSON separados con eventos que no se superponen y actualiza el descriptor de archivo JSON con la lista de nombres de archivos JSON.

Recomendado: Para cada archivo (o fragmento), establece el nombre del archivo para indicar el tipo de feed, la marca de tiempo y el número de fragmento. Los fragmentos deben tener aproximadamente el mismo tamaño y se procesan una vez que se suben todos.

Ejemplo fragmentado

Descriptor de archivo: event.feeddata.v1_1728306001.filedescriptor.json

{
  "generation_timestamp": 1728306001,
  "name": "event.feeddata.v1",
  "data_file": [
    "event.feeddata.v1_1728306001_001.json",
    "event.feeddata.v1_1728306001_002.json"
  ]
}

Fragmento 0: event.feeddata.v1_1728306001_001.json

{
  "data": [
    {
      "id": "event-1",
      ...
    },
    {
      "id": "event-2",
      ...
    }
  ]
}

Fragmento 1: event.feeddata.v1_1728306001_002.json

{
  "data": [
    {
      "id": "event-3",
      ...
    },
    {
      "id": "event-4",
      ...
    }
  ]
}

Fragmentos para el inventario distribuido por socios

Para los socios, puede ser un desafío consolidar el inventario distribuido en varios sistemas o regiones en un solo feed. El fragmentación se puede usar para resolver los desafíos de conciliación configurando cada fragmento para que coincida con cada conjunto de inventario del sistema distribuido.

Por ejemplo, supongamos que el inventario de un socio está dividido en 2 regiones (inventario de EE.UU. y de la UE), que se encuentran en 2 sistemas separados.

El socio puede dividir cada feed en 2 archivos (o fragmentos):

Sigue estos pasos para asegurarte de que los feeds se procesen correctamente:

  1. Elige un programa de carga y configura cada instancia del inventario para que siga el programa.
  2. Asigna números de fragmento únicos para cada instancia (p. ej., EE.UU. = N, UE = N + 1). Establece total_shards en la cantidad total de fragmentos.
  3. En cada hora de carga programada, elige un generation_timestamp. En el archivo descriptor, establece todos los nombres de archivo para que contengan los mismos valores para estos dos campos y enumera todos los nombres de archivo esperados.
    • generation_timestamp debe ser actual o reciente (idealmente, la marca de tiempo de la base de datos de lectura del socio).
  4. Después de subir todos los fragmentos, Google los agrupa con generation_timestamp y nonce.

Google procesará el feed como uno solo, aunque cada fragmento represente una región diferente del inventario del socio y se pueda subir en un momento diferente del día, siempre y cuando el generation_timestamp sea el mismo en todos los fragmentos.