رصد العناصر وتتبُّعها باستخدام ML Kit على Android

تنظيم صفحاتك في مجموعات يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.

يمكنك استخدام حزمة تعلّم الآلة لرصد العناصر وتتبّعها في إطارات الفيديو المتتالية.

عند تمرير صورة إلى حزمة تعلّم الآلة، يتم رصد ما يصل إلى خمسة عناصر في الصورة إلى جانب موضع كل عنصر في الصورة. وعند رصد عناصر في فيديوهات الفيديو، يكون لكل عنصر معرّف فريد يمكنك استخدامه لتتبّع العنصر من إطار إلى آخر. يمكنك أيضًا اختياريًا تفعيل التصنيف التقريبي للعناصر، والذي يصنّف العناصر ذات أوصاف الفئة الواسعة.

قبل البدء

  1. في ملف build.gradle على مستوى المشروع، تأكَّد من تضمين مستودع Google Maven في قسمَي buildscript وallprojects.
  2. أضِف المهام التابعة لمكتبات Android ML Kit إلى ملف الدرجات على مستوى التطبيق التابع للوحدة التنظيمية، والذي يكون عادةً app/build.gradle:
    dependencies {
      // ...
    
      implementation 'com.google.mlkit:object-detection:17.0.0'
    
    }
    

1- إعداد أداة رصد العنصر

لاكتشاف العناصر وتتبُّعها، أنشئ أولاً نسخة افتراضية من ObjectDetector وحدِّد اختياريًا أي إعدادات أداة رصد تريد تغييرها من الإعداد التلقائي.

  1. يمكنك إعداد أداة رصد العنصر لحالة الاستخدام باستخدام عنصر ObjectDetectorOptions. يمكنك تغيير الإعدادات التالية:

    إعدادات أداة كشف العنصر
    وضع الرصد STREAM_MODE (تلقائي) | SINGLE_IMAGE_MODE

    وفي STREAM_MODE (الإعداد التلقائي)، تعمل أداة الكشف عن العناصر بوقت استجابة سريع، ولكنها قد تؤدي إلى نتائج غير مكتملة (مثل المربّعات المقيّدة أو تصنيفات الفئات غير محدّدة) عند الاستدعاءات القليلة الأولى لأداة الكشف. في STREAM_MODE، تُخصِّص أداة الرصد أرقام تعريف التتبُّع للعناصر، التي يمكنك استخدامها لتتبُّع العناصر في جميع الإطارات. استخدِم هذا الوضع عندما تريد تتبّع العناصر أو عندما يكون وقت الاستجابة مهمًا، مثلاً عند معالجة فيديوهات البث في الوقت الفعلي.

    في SINGLE_IMAGE_MODE، تعرض أداة رصد العنصر النتيجة بعد تحديد مربّع التعرّف على الكائن. وفي حال تفعيل التصنيف أيضًا، سيتم عرض النتيجة بعد توفّر مربّع الاختيار وتصنيف الفئة. ونتيجةً لذلك، قد يكون وقت الاستجابة للرصد أعلى. ولا يتم تخصيص أرقام تعريف التتبّع في SINGLE_IMAGE_MODE. استخدِم هذا الوضع إذا كان وقت الاستجابة مهمًا ولا تريد التعامل مع النتائج الجزئية.

    اكتشاف كائنات متعددة وتتبعها false (تلقائي) | true

    يمكنك رصد ما يصل إلى خمسة عناصر وتتبُّعها فقط أو عرض العنصر الأكثر بروزًا فقط (تلقائي).

    تصنيف العناصر false (تلقائي) | true

    لتحديد ما إذا كان سيتم تصنيف العناصر التي تم رصدها ضمن فئات تقريبية. عندما تكون هذه الأداة مفعّلة، تصنّف العناصر ضمن الفئات التالية: سلع الأزياء والطعام والسلع المنزلية والأماكن والنباتات.

    تم تحسين واجهة برمجة تطبيقات اكتشاف الكائنات والتتبّع من أجل حالتي الاستخدام الأساسيتَين:

    • الرصد المباشر للأشياء الأكثر أهمية وتتبّعها في عدسة الكاميرا
    • يتم رصد عناصر متعدّدة من صورة ثابتة.

    لضبط واجهة برمجة التطبيقات لحالات الاستخدام هذه:

    Kotlin

    // Live detection and tracking
    val options = ObjectDetectorOptions.Builder()
            .setDetectorMode(ObjectDetectorOptions.STREAM_MODE)
            .enableClassification()  // Optional
            .build()
    
    // Multiple object detection in static images
    val options = ObjectDetectorOptions.Builder()
            .setDetectorMode(ObjectDetectorOptions.SINGLE_IMAGE_MODE)
            .enableMultipleObjects()
            .enableClassification()  // Optional
            .build()

    Java

    // Live detection and tracking
    ObjectDetectorOptions options =
            new ObjectDetectorOptions.Builder()
                    .setDetectorMode(ObjectDetectorOptions.STREAM_MODE)
                    .enableClassification()  // Optional
                    .build();
    
    // Multiple object detection in static images
    ObjectDetectorOptions options =
            new ObjectDetectorOptions.Builder()
                    .setDetectorMode(ObjectDetectorOptions.SINGLE_IMAGE_MODE)
                    .enableMultipleObjects()
                    .enableClassification()  // Optional
                    .build();
  2. الحصول على مثال من ObjectDetector:

    Kotlin

    val objectDetector = ObjectDetection.getClient(options)

    Java

    ObjectDetector objectDetector = ObjectDetection.getClient(options);

2. إعداد صورة الإدخال

لاكتشاف العناصر وتتبّعها، مرِّر الصور إلى طريقة process() بالمثيل ObjectDetector#.

تعمل أداة رصد الكائن مباشرةً من Bitmap أو NV21 ByteBuffer أو YUV_420_888 media.Image. ننصحك بإنشاء InputImage من هذه المصادر إذا كان لديك مباشرةً إمكانية الوصول إلى أحدها. إذا أنشأت InputImage من مصادر أخرى، سنعالج الإحالة الناجحة داخليًا نيابةً عنك وقد تكون أقل كفاءة.

نفِّذ ما يلي لكل إطار فيديو أو صورة في التسلسل:

يمكنك إنشاء كائن InputImage من مصادر مختلفة، وسيتم توضيح كل منها في ما يلي.

باستخدام media.Image

لإنشاء عنصر InputImage من كائن media.Image، مثلاً عند التقاط صورة من كاميرا الجهاز، مرِّر الكائن media.Image وتدوير الصورة إلى InputImage.fromMediaImage().

إذا كنت تستخدم مكتبة XX، تحسب الفئتان OnImageCapturedListener وImageAnalysis.Analyzer قيمة التدوير نيابةً عنك.

Kotlin

private class YourImageAnalyzer : ImageAnalysis.Analyzer {

    override fun analyze(imageProxy: ImageProxy) {
        val mediaImage = imageProxy.image
        if (mediaImage != null) {
            val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees)
            // Pass image to an ML Kit Vision API
            // ...
        }
    }
}

Java

private class YourAnalyzer implements ImageAnalysis.Analyzer {

    @Override
    public void analyze(ImageProxy imageProxy) {
        Image mediaImage = imageProxy.getImage();
        if (mediaImage != null) {
          InputImage image =
                InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees());
          // Pass image to an ML Kit Vision API
          // ...
        }
    }
}

إذا لم تكن تستخدم مكتبة كاميرا تمنحك درجة تدوير الصورة، يمكنك احتسابها من درجة تدوير الجهاز واتجاه جهاز استشعار الكاميرا في الجهاز:

Kotlin

private val ORIENTATIONS = SparseIntArray()

init {
    ORIENTATIONS.append(Surface.ROTATION_0, 0)
    ORIENTATIONS.append(Surface.ROTATION_90, 90)
    ORIENTATIONS.append(Surface.ROTATION_180, 180)
    ORIENTATIONS.append(Surface.ROTATION_270, 270)
}

/**
 * Get the angle by which an image must be rotated given the device's current
 * orientation.
 */
@RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
@Throws(CameraAccessException::class)
private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int {
    // Get the device's current rotation relative to its "native" orientation.
    // Then, from the ORIENTATIONS table, look up the angle the image must be
    // rotated to compensate for the device's rotation.
    val deviceRotation = activity.windowManager.defaultDisplay.rotation
    var rotationCompensation = ORIENTATIONS.get(deviceRotation)

    // Get the device's sensor orientation.
    val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager
    val sensorOrientation = cameraManager
            .getCameraCharacteristics(cameraId)
            .get(CameraCharacteristics.SENSOR_ORIENTATION)!!

    if (isFrontFacing) {
        rotationCompensation = (sensorOrientation + rotationCompensation) % 360
    } else { // back-facing
        rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360
    }
    return rotationCompensation
}

Java

private static final SparseIntArray ORIENTATIONS = new SparseIntArray();
static {
    ORIENTATIONS.append(Surface.ROTATION_0, 0);
    ORIENTATIONS.append(Surface.ROTATION_90, 90);
    ORIENTATIONS.append(Surface.ROTATION_180, 180);
    ORIENTATIONS.append(Surface.ROTATION_270, 270);
}

/**
 * Get the angle by which an image must be rotated given the device's current
 * orientation.
 */
@RequiresApi(api = Build.VERSION_CODES.LOLLIPOP)
private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing)
        throws CameraAccessException {
    // Get the device's current rotation relative to its "native" orientation.
    // Then, from the ORIENTATIONS table, look up the angle the image must be
    // rotated to compensate for the device's rotation.
    int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation();
    int rotationCompensation = ORIENTATIONS.get(deviceRotation);

    // Get the device's sensor orientation.
    CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE);
    int sensorOrientation = cameraManager
            .getCameraCharacteristics(cameraId)
            .get(CameraCharacteristics.SENSOR_ORIENTATION);

    if (isFrontFacing) {
        rotationCompensation = (sensorOrientation + rotationCompensation) % 360;
    } else { // back-facing
        rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360;
    }
    return rotationCompensation;
}

بعد ذلك، اضبط العنصر media.Image وقيمة درجة التدوير على InputImage.fromMediaImage():

Kotlin

val image = InputImage.fromMediaImage(mediaImage, rotation)

Java

InputImage image = InputImage.fromMediaImage(mediaImage, rotation);

استخدام معرف موارد منتظم (URI) للملف

لإنشاء عنصر InputImage من معرّف موارد منتظم (URI)، يجب تمرير سياق التطبيق ومعرّف الموارد المنتظم (URI) إلى InputImage.fromFilePath(). ويكون هذا الإجراء مفيدًا عندما تستخدم نيّة ACTION_GET_CONTENT لحثّ المستخدم على اختيار صورة من تطبيق معرض الصور.

Kotlin

val image: InputImage
try {
    image = InputImage.fromFilePath(context, uri)
} catch (e: IOException) {
    e.printStackTrace()
}

Java

InputImage image;
try {
    image = InputImage.fromFilePath(context, uri);
} catch (IOException e) {
    e.printStackTrace();
}

باستخدام ByteBuffer أو ByteArray

لإنشاء عنصر InputImage من ByteBuffer أو ByteArray، يجب أولاً حساب درجة عرض الصور بالتناوب كما هو موضّح سابقًا في إدخال media.Image. بعد ذلك، يمكنك إنشاء العنصر InputImage باستخدام المخزن المؤقت أو المصفوفة، مع طول الصورة وعرضها وتنسيق ترميز الألوان ودرجة الدوران:

Kotlin

val image = InputImage.fromByteBuffer(
        byteBuffer,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
)
// Or:
val image = InputImage.fromByteArray(
        byteArray,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
)

Java

InputImage image = InputImage.fromByteBuffer(byteBuffer,
        /* image width */ 480,
        /* image height */ 360,
        rotationDegrees,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
);
// Or:
InputImage image = InputImage.fromByteArray(
        byteArray,
        /* image width */480,
        /* image height */360,
        rotation,
        InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12
);

باستخدام Bitmap

لإنشاء كائن InputImage من كائن Bitmap، عليك اتخاذ الإجراء التالي:

Kotlin

val image = InputImage.fromBitmap(bitmap, 0)

Java

InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);

ويتم تمثيل الصورة من خلال عنصر Bitmap جنبًا إلى جنب مع درجات التدوير.

3- معالجة الصورة

تمرير الصورة إلى الطريقة process():

Kotlin

objectDetector.process(image)
    .addOnSuccessListener { detectedObjects ->
        // Task completed successfully
        // ...
    }
    .addOnFailureListener { e ->
        // Task failed with an exception
        // ...
    }

Java

objectDetector.process(image)
    .addOnSuccessListener(
        new OnSuccessListener<List<DetectedObject>>() {
            @Override
            public void onSuccess(List<DetectedObject> detectedObjects) {
                // Task completed successfully
                // ...
            }
        })
    .addOnFailureListener(
        new OnFailureListener() {
            @Override
            public void onFailure(@NonNull Exception e) {
                // Task failed with an exception
                // ...
            }
        });

4. الحصول على معلومات عن العناصر التي تم رصدها

في حال نجاح الاتصال بـ process()، سيتم تمرير قائمة DetectedObjects إلى المستمع الناجح.

يحتوي كل DetectedObject على السمات التالية:

مربّع ربط تشير هذه السمة Rect إلى موضع العنصر في الصورة.
الرقم التعريفي للتتبع عدد صحيح يحدد العنصر عبر الصور. قيمة فارغة في SINGLE_IMAGE_MODE.
التصنيفات
وصف التصنيف وصف نص التصنيف. وستكون هذه العملية واحدة من ثوابت السلسلة التي تم تحديدها في PredefinedCategory.
فهرس التصنيفات فهرس "التصنيفات" بين جميع التصنيفات المتاحة في المصنِّف. وستكون هذه الصورة واحدة من ثوابت العدد الصحيح المحدّدة في PredefinedCategory.
ثقة التصنيف قيمة الثقة لتصنيف العنصر.

Kotlin

for (detectedObject in detectedObjects) {
    val boundingBox = detectedObject.boundingBox
    val trackingId = detectedObject.trackingId
    for (label in detectedObject.labels) {
        val text = label.text
        if (PredefinedCategory.FOOD == text) {
            ...
        }
        val index = label.index
        if (PredefinedCategory.FOOD_INDEX == index) {
            ...
        }
        val confidence = label.confidence
    }
}

Java

// The list of detected objects contains one item if multiple
// object detection wasn't enabled.
for (DetectedObject detectedObject : detectedObjects) {
    Rect boundingBox = detectedObject.getBoundingBox();
    Integer trackingId = detectedObject.getTrackingId();
    for (Label label : detectedObject.getLabels()) {
        String text = label.getText();
        if (PredefinedCategory.FOOD.equals(text)) {
            ...
        }
        int index = label.getIndex();
        if (PredefinedCategory.FOOD_INDEX == index) {
            ...
        }
        float confidence = label.getConfidence();
    }
}

ضمان تقديم تجربة رائعة للمستخدمين

للحصول على أفضل تجربة للمستخدم، اتّبع الإرشادات التالية في تطبيقك:

  • يعتمد الاكتشاف الناجح للعناصر على التعقيد المرئي للكائن. لكي يتم اكتشاف العناصر التي تحتاج إلى عدد قليل من الميزات المرئية، قد تحتاج إلى أن تشغل مساحة أكبر من الصورة. يجب تزويد المستخدمين بإرشادات حول التقاط البيانات التي تؤدي بشكل جيد مع أنواع العناصر التي تريد اكتشافها.
  • عند استخدام التصنيف، إذا أردت رصد كائنات لا تندرج ضمن الفئات المتوافقة، يمكنك تنفيذ معالجة خاصة للكائنات غير المعروفة.

يمكنك أيضًا الاطّلاع على مجموعة ML Kit Material Design لعرض وتصميم المواد المتعددة للأنماط المستندة إلى تعلُّم الآلة.

Improving performance

إذا أردت استخدام ميزة "رصد الكائنات" في تطبيق في الوقت الفعلي، اتّبِع الإرشادات التالية للحصول على أفضل معدّلات عرض الإطارات:

  • عند استخدام وضع البث في تطبيق في الوقت الفعلي، لا تستخدم ميزة "رصد كائنات متعددة"، لأن معظم الأجهزة لن تتمكّن من إنشاء معدل عرض إطارات كافٍ.

  • أوقِف التصنيف إذا كنت لا تحتاج إليه.

  • إذا كنت تستخدم Camera أو واجهة برمجة التطبيقات camera2، يمكنك تقييد الاتصالات إلى أداة الرصد. وفي حال توفّر إطار فيديو جديد أثناء تشغيل أداة الرصد، أفلِت الإطار. يمكنك الاطّلاع على السمة VisionProcessorBase في نموذج البدء السريع للحصول على مثال.
  • إذا كنت تستخدم واجهة برمجة تطبيقات CameraX، تأكد من ضبط استراتيجية الضغط على القيمة التلقائية ImageAnalysis.STRATEGY_KEEP_ONLY_LATEST. وهذا يضمن تسليم صورة واحدة فقط للتحليل في كل مرة. وإذا تم إنشاء المزيد من الصور عندما تكون أداة التحليل مشغولة، سيتم إدراجها تلقائيًا ولن يتم وضعها في قائمة الانتظار للتسليم. بعد أن يتم إغلاق الصورة التي يتم تحليلها من خلال استدعاء ImageProxy.close()، سيتم تسليم الصورة التالية التالية.
  • إذا كنت تستخدم ناتج أداة الكشف لتراكب الرسومات على الصورة المُدخلة، عليك أولاً الحصول على النتيجة من حزمة تعلّم الآلة، ثم عرض الصورة والتراكب على خطوة واحدة. ويتم العرض على مساحة العرض مرة واحدة فقط لكل إطار إدخال. يمكنك الاطّلاع على السمتَين CameraSourcePreview و GraphicOverlay في نموذج التطبيق السريع للبدء كمثال.
  • إذا كنت تستخدم واجهة برمجة التطبيقات للكاميرا 2، التقِط صورًا بتنسيق ImageFormat.YUV_420_888. إذا كنت تستخدم واجهة برمجة تطبيقات الكاميرا القديمة، التقِط صورًا بتنسيق ImageFormat.NV21.