واژه نامه یادگیری ماشینی: مدل های تصویری

با مجموعه‌ها، منظم بمانید ذخیره و دسته‌بندی محتوا براساس اولویت‌های شما.

این صفحه شامل اصطلاحات واژه نامه Image Models است. برای همه اصطلاحات واژه نامه، اینجا را کلیک کنید .

آ

واقعیت افزوده

#تصویر

فناوری ای که یک تصویر تولید شده توسط کامپیوتر را بر روی دید کاربر از دنیای واقعی قرار می دهد و بنابراین یک نمای ترکیبی ارائه می دهد.

ب

جعبه مرزی

#تصویر

در یک تصویر، مختصات ( x ، y ) یک مستطیل در اطراف ناحیه مورد نظر، مانند سگ در تصویر زیر.

عکس سگی که روی مبل نشسته است. یک کادر سبز رنگ با مختصات بالا سمت چپ (275، 1271) و مختصات پایین سمت راست (2954، 2761) بدن سگ را مشخص می کند.

سی

پیچیدگی

#تصویر

در ریاضیات، به طور معمول، ترکیبی از دو تابع. در یادگیری ماشین، یک کانولوشن فیلتر کانولوشن و ماتریس ورودی را با هم مخلوط می‌کند تا وزنه‌ها را آموزش دهد.

اصطلاح "کانولوشن" در یادگیری ماشین اغلب یک روش کوتاه برای اشاره به عملیات کانولوشن یا لایه کانولوشن است .

بدون کانولوشن، یک الگوریتم یادگیری ماشین باید وزن جداگانه ای برای هر سلول در یک تانسور بزرگ یاد بگیرد. به عنوان مثال، آموزش الگوریتم یادگیری ماشین بر روی تصاویر 2K x 2K مجبور می شود 4M وزن جداگانه پیدا کند. به لطف کانولوشن‌ها، یک الگوریتم یادگیری ماشین فقط باید وزن‌هایی را برای هر سلول در فیلتر کانولوشن پیدا کند و حافظه مورد نیاز برای آموزش مدل را به‌طور چشمگیری کاهش دهد. هنگامی که فیلتر کانولوشن اعمال می شود، به سادگی در بین سلول ها تکرار می شود به طوری که هر یک در فیلتر ضرب می شود.

فیلتر کانولوشنال

#تصویر

یکی از دو بازیگر در یک عملیات کانولوشن . (بازیگر دیگر تکه‌ای از یک ماتریس ورودی است.) فیلتر کانولوشنال ماتریسی است که رتبه‌ای مشابه با ماتریس ورودی دارد، اما شکل کوچک‌تری دارد. به عنوان مثال، با توجه به یک ماتریس ورودی 28x28، فیلتر می تواند هر ماتریس دو بعدی کوچکتر از 28x28 باشد.

در دستکاری عکاسی، تمام سلول‌های یک فیلتر کانولوشن معمولاً روی یک الگوی ثابت از یک و صفر تنظیم می‌شوند. در یادگیری ماشینی، فیلترهای کانولوشنال معمولاً با اعداد تصادفی کاشته می‌شوند و سپس شبکه مقادیر ایده‌آل را آموزش می‌دهد.

لایه کانولوشن

#تصویر

لایه ای از یک شبکه عصبی عمیق که در آن یک فیلتر کانولوشن از امتداد یک ماتریس ورودی عبور می کند. به عنوان مثال، فیلتر کانولوشنال 3x3 زیر را در نظر بگیرید:

یک ماتریس 3x3 با مقادیر زیر: [[0,1,0], [1,0,1], [0,1,0]]

انیمیشن زیر یک لایه کانولوشن را نشان می دهد که از 9 عملیات کانولوشن شامل ماتریس ورودی 5×5 تشکیل شده است. توجه داشته باشید که هر عملیات کانولوشنی روی یک برش 3x3 متفاوت از ماتریس ورودی کار می کند. ماتریس 3x3 حاصل (در سمت راست) از نتایج 9 عملیات کانولوشنی تشکیل شده است:

انیمیشنی که دو ماتریس را نشان می دهد. ماتریس اول ماتریس 5x5 است: [[128,97,53,201,198], [35,22,25,200,195]، [37,24,28,197,182]، [33,28,92,195,179], 201,179], 10,174, 20,174. ماتریس دوم ماتریس 3x3 است: [[181,303,618], [115,338,605], [169,351,560]]. ماتریس دوم با اعمال فیلتر کانولوشنال [[0, 1, 0], [1, 0, 1], [0, 1, 0]] در زیر مجموعه های مختلف 3x3 ماتریس 5x5 محاسبه می شود.

شبکه عصبی کانولوشنال

#تصویر

یک شبکه عصبی که در آن حداقل یک لایه یک لایه کانولوشن است . یک شبکه عصبی کانولوشنال معمولی از ترکیبی از لایه های زیر تشکیل شده است:

شبکه های عصبی کانولوشنال در انواع خاصی از مشکلات، مانند تشخیص تصویر، موفقیت زیادی داشته اند.

عملیات کانولوشن

#تصویر

عملیات ریاضی دو مرحله ای زیر:

  1. ضرب عنصری فیلتر کانولوشن و تکه ای از یک ماتریس ورودی. (برش ماتریس ورودی دارای رتبه و اندازه یکسانی با فیلتر کانولوشن است.)
  2. مجموع تمام مقادیر در ماتریس محصول حاصل.

به عنوان مثال، ماتریس ورودی 5x5 زیر را در نظر بگیرید:

ماتریس 5x5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182]، [33,28,92,195,179]، [31,410,7]210.

حالا فیلتر کانولوشنال 2x2 زیر را تصور کنید:

ماتریس 2x2: [[1، 0]، [0، 1]]

هر عملیات کانولوشن شامل یک تکه 2×2 از ماتریس ورودی است. به عنوان مثال، فرض کنید از برش 2x2 در سمت چپ بالای ماتریس ورودی استفاده می کنیم. بنابراین، عملیات پیچیدگی در این برش به صورت زیر است:

اعمال فیلتر کانولوشنال [[1، 0]، [0، 1]] در بخش 2x2 بالا سمت چپ ماتریس ورودی، که [[128،97]، [35،22]] است. فیلتر کانولوشن 128 و 22 را دست نخورده باقی می گذارد، اما 97 و 35 را صفر می کند. در نتیجه، عملیات پیچیدگی مقدار 150 (128+22) را به دست می دهد.

یک لایه کانولوشن شامل یک سری عملیات کانولوشنی است که هر کدام بر روی یک برش متفاوت از ماتریس ورودی عمل می کنند.

D

افزایش داده ها

#تصویر

تقویت مصنوعی دامنه و تعداد نمونه های آموزشی با تبدیل نمونه های موجود برای ایجاد نمونه های اضافی. برای مثال، فرض کنید تصاویر یکی از ویژگی‌های شما هستند، اما مجموعه داده‌های شما حاوی نمونه‌های تصویری کافی برای یادگیری مدل‌های مفید نیست. در حالت ایده‌آل، به اندازه کافی تصاویر برچسب‌دار را به مجموعه داده خود اضافه می‌کنید تا مدل خود را به درستی آموزش دهد. اگر این امکان پذیر نباشد، افزایش داده می‌تواند هر تصویر را بچرخاند، کشیده و منعکس کند تا انواع زیادی از تصویر اصلی تولید شود، و احتمالاً داده‌های برچسب‌گذاری شده کافی برای آموزش عالی به دست می‌آید.

شبکه عصبی کانولوشنال قابل تفکیک عمیق (sepCNN)

#تصویر

یک معماری شبکه عصبی کانولوشن مبتنی بر Inception ، اما جایی که ماژول‌های Inception با پیچیدگی‌های قابل تفکیک عمیق جایگزین می‌شوند. همچنین به عنوان Xception شناخته می شود.

یک کانولوشن تفکیک پذیر عمقی (همچنین به اختصار به عنوان کانولوشن قابل جداسازی شناخته می شود) یک پیچیدگی سه بعدی استاندارد را به دو عملیات کانولوشن مجزا تبدیل می کند که از نظر محاسباتی کارآمدتر هستند: اول، یک کانولوشن در عمق، با عمق 1 (n ✕ n ✕ 1) و سپس دوم، یک پیچش نقطه‌ای، با طول و عرض 1 (1 ✕ 1 ✕ n).

برای کسب اطلاعات بیشتر، به Xception: Deep Learning with Depthwise Separable Convolutions مراجعه کنید.

پایین نمونه گیری

#تصویر

عبارت Overloaded که می تواند به معنی یکی از موارد زیر باشد:

  • کاهش حجم اطلاعات در یک ویژگی به منظور آموزش کارآمدتر یک مدل. به عنوان مثال، قبل از آموزش یک مدل تشخیص تصویر، نمونه برداری از تصاویر با وضوح بالا به یک فرمت با وضوح پایین تر.
  • آموزش بر روی درصد بسیار پایینی از نمونه‌های کلاسی که بیش از حد ارائه شده‌اند به منظور بهبود آموزش مدل در کلاس‌های کم‌نماینده. به عنوان مثال، در یک مجموعه داده با کلاس نامتعادل ، مدل‌ها تمایل دارند تا چیزهای زیادی در مورد کلاس اکثریت بیاموزند و به اندازه کافی در مورد کلاس اقلیت نیستند. کاهش نمونه به تعادل میزان آموزش در طبقات اکثریت و اقلیت کمک می کند.

من

تشخیص تصویر

#تصویر

فرآیندی که شی(ها)، الگو(ها)، یا مفهوم(ها) را در یک تصویر طبقه بندی می کند. تشخیص تصویر به عنوان طبقه بندی تصویر نیز شناخته می شود.

برای اطلاعات بیشتر، تمرین ML: طبقه بندی تصاویر را ببینید.

تقاطع روی اتحاد (IoU)

#تصویر

تقاطع دو مجموعه تقسیم شده توسط اتحاد آنها. در وظایف تشخیص تصویر یادگیری ماشینی، IoU برای اندازه‌گیری دقت جعبه مرزی پیش‌بینی‌شده مدل با توجه به جعبه مرزی حقیقت زمین استفاده می‌شود. در این مورد، IoU برای دو جعبه، نسبت بین سطح همپوشانی و مساحت کل است و مقدار آن از 0 (بدون همپوشانی جعبه مرزی پیش‌بینی‌شده و جعبه مرزی حقیقت-زمینی) تا 1 (جعبه مرزی و زمین پیش‌بینی‌شده) است. -جعبه مرزی حقیقت دقیقاً مختصات یکسانی دارد).

برای مثال در تصویر زیر:

  • جعبه مرزی پیش‌بینی‌شده (مختصات تعیین‌کننده جایی که مدل جدول شب را در نقاشی پیش‌بینی می‌کند) به رنگ بنفش مشخص شده است.
  • جعبه مرزی حقیقت زمین (مختصات تعیین کننده جایی که میز شب در نقاشی واقعاً قرار دارد) با رنگ سبز مشخص شده است.

نقاشی ون گوگ "اتاق خواب وینسنت در آرل" با دو جعبه متفاوت در اطراف میز شب کنار تخت. جعبه مرزی حقیقت زمین (به رنگ سبز) میز شب را کاملاً مشخص می کند. جعبه مرزی پیش‌بینی‌شده (به رنگ بنفش) 50% به سمت پایین و سمت راست جعبه مرزی حقیقت-زمینی جابجا می‌شود. یک چهارم پایین سمت راست جدول شب را در بر می گیرد، اما بقیه جدول را از دست می دهد.

در اینجا، محل تقاطع جعبه‌های مرزی برای پیش‌بینی و حقیقت زمین (در پایین سمت چپ) 1 است، و اتحاد کادرهای مرزی برای پیش‌بینی و حقیقت زمینه (زیر سمت راست) 7 است، بنابراین IoU \(\frac{1}{7}\)است.

همان تصویر بالا، اما با هر کادر محدود به چهار ربع تقسیم شده است. در مجموع هفت ربع وجود دارد، زیرا ربع پایین سمت راست کادر محدود کننده حقیقت زمین و ربع بالا سمت چپ جعبه مرزی پیش بینی شده روی یکدیگر همپوشانی دارند. این بخش همپوشانی (که با رنگ سبز مشخص شده است) تقاطع را نشان می دهد و مساحت آن 1 است.همان تصویر بالا، اما با هر کادر محدود به چهار ربع تقسیم شده است. در مجموع هفت ربع وجود دارد، زیرا ربع پایین سمت راست کادر محدود کننده حقیقت زمین و ربع بالا سمت چپ جعبه مرزی پیش بینی شده روی یکدیگر همپوشانی دارند. کل فضای داخلی محصور شده توسط هر دو جعبه مرزی (با رنگ سبز برجسته شده) نشان دهنده اتحاد است و دارای مساحت 7 است.

ک

امتیاز کلیدی

#تصویر

مختصات ویژگی های خاص در یک تصویر. به عنوان مثال، برای یک مدل تشخیص تصویر که گونه‌های گل را متمایز می‌کند، نقاط کلیدی ممکن است مرکز هر گلبرگ، ساقه، پرچم و غیره باشد.

L

نقاط دیدنی

#تصویر

مترادف برای نقاط کلیدی .

م

MNIST

#تصویر

یک مجموعه داده دامنه عمومی که توسط LeCun، Cortes و Burges گردآوری شده است، حاوی 60000 تصویر است که هر تصویر نشان می دهد که چگونه یک انسان به صورت دستی یک رقم خاص از 0 تا 9 را نوشته است. هر تصویر به عنوان یک آرایه 28x28 از اعداد صحیح ذخیره می شود، که در آن هر عدد صحیح یک مقدار خاکستری بین 0 تا 255، شامل می شود.

MNIST یک مجموعه داده متعارف برای یادگیری ماشین است که اغلب برای آزمایش رویکردهای جدید یادگیری ماشین استفاده می شود. برای جزئیات، به پایگاه داده ارقام دست‌نویس MNIST مراجعه کنید.

پ

ادغام

#تصویر

کاهش یک ماتریس (یا ماتریس) ایجاد شده توسط یک لایه کانولوشن قبلی به یک ماتریس کوچکتر. ادغام معمولاً شامل گرفتن حداکثر یا میانگین مقدار در سطح منطقه است. به عنوان مثال، فرض کنید ماتریس 3x3 زیر را داریم:

ماتریس 3x3 [[5،3،1]، [8،2،5]، [9،4،3]].

یک عملیات ادغام، درست مانند یک عملیات کانولوشن، آن ماتریس را به برش ها تقسیم می کند و سپس آن عملیات کانولوشن را با گام می لغزد. به عنوان مثال، فرض کنید عملیات ادغام، ماتریس کانولوشن را با یک گام 1x1 به برش های 2x2 تقسیم می کند. همانطور که نمودار زیر نشان می دهد، چهار عملیات ادغام انجام می شود. تصور کنید که هر عملیات ادغام حداکثر مقدار چهار در آن برش را انتخاب می کند:

ماتریس ورودی 3x3 با مقادیر: [[5،3،1]، [8،2،5]، [9،4،3]] است. زیر ماتریس 2x2 بالا سمت چپ ماتریس ورودی [[5،3]، [8،2]] است، بنابراین عملیات ادغام بالا سمت چپ مقدار 8 را به دست می‌دهد (که حداکثر 5، 3، 8 و 2 است. ). زیر ماتریس 2x2 بالا سمت راست ماتریس ورودی [[3،1]، [2،5]] است، بنابراین عملیات ادغام بالا سمت راست مقدار 5 را به دست می‌دهد. زیرماتریس 2x2 پایین سمت چپ ماتریس ورودی [[ 8،2]، [9،4]]، بنابراین عملیات ادغام پایین سمت چپ مقدار 9 را به دست می دهد. زیر ماتریس 2x2 پایین سمت راست ماتریس ورودی [[2،5]، [4،3]] است، بنابراین عملیات ادغام پایین سمت راست مقدار 5 را به دست می دهد. به طور خلاصه، عملیات ادغام ماتریس 2x2 [[8،5]، [9،5]] را به دست می دهد.

ادغام به اعمال تغییر ناپذیری ترجمه در ماتریس ورودی کمک می کند.

ادغام برای کاربردهای بینایی به طور رسمی تر به عنوان ادغام فضایی شناخته می شود. برنامه های کاربردی سری زمانی معمولاً به ادغام به عنوان ادغام زمانی اشاره می کنند. کمتر به طور رسمی، ادغام اغلب به عنوان نمونه برداری فرعی یا پایین نمونه نامیده می شود.

آر

تغییر ناپذیری چرخشی

#تصویر

در یک مسئله طبقه بندی تصویر، توانایی یک الگوریتم برای طبقه بندی موفقیت آمیز تصاویر حتی زمانی که جهت تصویر تغییر می کند. برای مثال، الگوریتم همچنان می‌تواند یک راکت تنیس را که به سمت بالا، پهلو یا پایین است، تشخیص دهد. توجه داشته باشید که تغییر ناپذیری چرخشی همیشه مطلوب نیست. برای مثال، 9 وارونه نباید به عنوان 9 طبقه بندی شود.

همچنین به عدم تغییر ترجمه و عدم تغییر اندازه مراجعه کنید.

اس

عدم تغییر اندازه

#تصویر

در یک مسئله طبقه بندی تصویر، توانایی یک الگوریتم برای طبقه بندی موفقیت آمیز تصاویر حتی زمانی که اندازه تصویر تغییر می کند. به عنوان مثال، این الگوریتم همچنان می‌تواند گربه را تشخیص دهد که آیا 2 میلیون پیکسل مصرف می‌کند یا 200 هزار پیکسل. توجه داشته باشید که حتی بهترین الگوریتم‌های طبقه‌بندی تصویر هنوز محدودیت‌های عملی در تغییر اندازه دارند. به عنوان مثال، یک الگوریتم (یا انسان) بعید است که تصویر گربه ای را که تنها 20 پیکسل مصرف می کند، به درستی طبقه بندی کند.

همچنین به عدم تغییر ترجمه و عدم تغییر چرخشی مراجعه کنید.

ادغام فضایی

#تصویر

ادغام را ببینید.

گام های بلند برداشتن

#تصویر

در یک عملیات کانولوشن یا ادغام، دلتا در هر بعد سری بعدی از برش های ورودی. به عنوان مثال، انیمیشن زیر یک گام (1،1) را در طول یک عملیات کانولوشن نشان می دهد. بنابراین، برش ورودی بعدی یک موقعیت در سمت راست برش ورودی قبلی شروع می شود. هنگامی که عملیات به لبه سمت راست می رسد، برش بعدی تماماً به سمت چپ است اما یک موقعیت پایین است.

یک ماتریس ورودی 5x5 و یک فیلتر کانولوشنال 3x3. از آنجا که گام (1،1) است، یک فیلتر کانولوشن 9 بار اعمال می شود. اولین برش کانولوشن، زیر ماتریس 3x3 بالا سمت چپ ماتریس ورودی را ارزیابی می کند. برش دوم زیر ماتریس 3x3 بالا و میانی را ارزیابی می کند. سومین برش کانولوشنال زیرماتریس 3x3 بالا سمت راست را ارزیابی می کند. برش چهارم زیر ماتریس 3x3 وسط چپ را ارزیابی می کند. برش پنجم زیرماتریس 3x3 میانی را ارزیابی می کند. برش ششم زیر ماتریس 3x3 وسط سمت راست را ارزیابی می کند. برش هفتم زیر ماتریس 3x3 پایین سمت چپ را ارزیابی می کند. برش هشتم زیر ماتریس 3x3 پایین و وسط را ارزیابی می کند. برش نهم زیر ماتریس 3x3 پایین سمت راست را ارزیابی می کند.

مثال قبل یک گام دو بعدی را نشان می دهد. اگر ماتریس ورودی سه بعدی باشد، گام نیز سه بعدی خواهد بود.

نمونه گیری فرعی

#تصویر

ادغام را ببینید.

تی

تغییر ناپذیری ترجمه

#تصویر

در یک مسئله طبقه بندی تصویر، توانایی یک الگوریتم برای طبقه بندی موفقیت آمیز تصاویر حتی زمانی که موقعیت اشیاء درون تصویر تغییر می کند. به عنوان مثال، الگوریتم هنوز هم می تواند سگ را شناسایی کند، چه در مرکز کادر باشد یا در انتهای سمت چپ قاب.

همچنین به عدم تغییر اندازه و عدم تغییر چرخشی مراجعه کنید.