ما هي رؤية الكمبيوتر؟
الرؤية الحاسوبية هي تقنية تستخدمها الآلات للتعرف تلقائيًا على الصور ووصفها بدقة وكفاءة. اليوم، تتمتع أنظمة الكمبيوتر بإمكانية الوصول إلى حجم كبير من الصور وبيانات الفيديو التي يتم الحصول عليها أو إنشاؤها من الهواتف الذكية وكاميرات المرور وأنظمة الأمان والأجهزة الأخرى. تطبيقات الرؤية الحاسوبية تستخدم الذكاء الاصطناعي وتعلم الآلة (AI/ML) لمعالجة هذه البيانات بدقة لتحديد الأشياء والتعرف على الوجه، بالإضافة إلى التصنيف والتوصية والمراقبة والكشف.
لماذا تعتبر الرؤية الحاسوبية مهمة؟
في حين أن تقنية معالجة المعلومات المرئية موجودة منذ بعض الوقت، إلا أن جزءًا كبيرًا من العملية يتطلب تدخلًا بشريًا وكانت تستغرق وقتًا طويلاً وعرضة للخطأ. على سبيل المثال، كان تطبيق نظام التعرف على الوجه في الماضي يتطلب من المطورين وضع علامات يدوية على آلاف الصور باستخدام نقاط البيانات الرئيسية، مثل عرض الأنف والمسافة بين العينين. تتطلب أتمتة هذه المهام قوة حوسبة واسعة لأن بيانات الصور غير منظمة ومعقدة حيث يَصعُب على أجهزة الكمبيوتر تنظيمها. وبالتالي كانت تطبيقات الرؤية باهظة الثمن ولا يمكن الوصول إليها من قبل معظم المنظمات.
اليوم، أدى التقدم في هذا المجال والزيادة الكبيرة في القوة الحسابية إلى تحسين حجم ودقة معالجة بيانات الصور. أصبحت أنظمة الرؤية الحاسوبية المدعومة بموارد الحوسبة السحابية متاحة الآن للجميع. يمكن لأي مؤسسة استخدام تكنولوجيا التحقق من الهوية، وإدارة المحتوى، وتحليل الفيديو المتدفق، واكتشاف الأخطاء، والمزيد.
حالات الاستخدام
كيف تعمل رؤية الكمبيوتر؟
تستخدم أنظمة الرؤية الحاسوبية تقنية الذكاء الاصطناعي (AI) لتقليد قدرات الدماغ البشري المسؤولة عن التعرف على الأشياء وتصنيفها. يقوم علماء الكمبيوتر بتدريب أجهزة الكمبيوتر على التعرف على البيانات المرئية عن طريق إدخال كميات هائلة من المعلومات. تحدد خوارزميات تعلم الآلة (ML) الأنماط الشائعة في هذه الصور أو مقاطع الفيديو وتطبق هذه المعرفة لتحديد الصور غير المعروفة بدقة. على سبيل المثال، إذا قامت أجهزة الكمبيوتر بمعالجة الملايين من صور السيارات، فسوف تبدأ في بناء أنماط هوية يمكنها اكتشاف السيارة بدقة في الصورة. تستخدم الرؤية الحاسوبية تقنيات مثل تلك الواردة أدناه.
التعلم العميق
التعلم العميق هو نوع من تعلم الآلة يستخدم الشبكات العصبونية. تتكون الشبكات العصبونية الخاصة بالتعلم العميق من عدة طبقات من وحدات البرامج تسمى الخلايا العصبية الاصطناعية التي تعمل معًا داخل الكمبيوتر. هذه الخلايا العصبية تستخدم الحسابات الرياضية لمعالجة جوانب مختلفة من بيانات الصورة تلقائيًا وتطوير فهم مشترك للصورة تدريجيًا.
الشبكات العصبونية الالتفافية
تستخدم الشبكات العصبونية الالتفافية (CNNs) نظام تصنيف لتصنيف البيانات المرئية وفهم الصورة بأكملها. إنها تقوم بتحليل الصور على هيئة وحدات بكسل وتعطي كل بكسل قيمة تصنيفية. يتم إدخال القيمة لإجراء عملية رياضية تسمى «الالتفاف» وعمل تنبؤات حول الصورة. مثل الإنسان الذي يحاول التعرف على كائن من مسافة كبيرة، تحدد CNN أولاً الخطوط العريضة والأشكال البسيطة قبل ملء تفاصيل إضافية مثل اللون والنماذج الداخلية والملمس. أخيرًا، تكرر عملية التنبؤ على عدة تكرارات لتحسين الدقة.
الشبكات العصبونية المتكررة
الشبكات العصبونية المتكررة (RNNs) تشبه شبكات CNN، ولكن يمكنها معالجة سلسلة من الصور للعثور على روابط بينها. بينما يتم استخدام شبكات CNN لتحليل صورة واحدة، يمكن لـ RNNs تحليل مقاطع الفيديو وفهم العلاقات بين الصور.
ما الفرق بين الرؤية الحاسوبية ومعالجة الصور؟
تستخدم معالجة الصور خوارزميات لتغيير الصور، بما في ذلك التوضيح أو التنعيم أو التصفية أو التحسين. الرؤية الحاسوبية مختلفة لأنها لا تغير الصورة، ولكنها بدلاً من ذلك تفهم ما تراه وتنفذ مهمة، مثل التصنيف. في بعض الحالات، يمكنك استخدام معالجة الصور لتعديل صورة حتى يتمكن نظام الرؤية الحاسوبية من فهمها بشكل أفضل. في حالات أخرى، تستخدم الرؤية الحاسوبية لتحديد الصور أو أجزاء من الصورة ثم تستخدم معالجة الصور لتعديل الصورة بشكل أكبر.
ما المهام الشائعة التي يمكن أن تؤديها رؤية الكمبيوتر؟
تصنيف الصور
تصنيف الصور يمكّن أجهزة الكمبيوتر من رؤية الصورة وتصنيف الفئة التي تندرج تحتها بدقة. تقوم الرؤية الحاسوبية بفهم الفئات وتصنيفها، على سبيل المثال الأشجار أو الطائرات أو المباني. أحد الأمثلة على ذلك هو أن الكاميرا يمكنها التعرف على الوجوه في الصورة والتركيز عليها.
الكشف عن العناصر
اكتشاف الكائنات هو مهمة الرؤية الحاسوبية لاكتشاف الصور وترجمتها. يستخدم التصنيف لتحديد الصور وفرزها وتنظيمها. يتم استخدام اكتشاف الكائنات في العمليات الصناعية والتصنيعية للتحكم في التطبيقات ذاتية التشغيل ومراقبة خطوط الإنتاج. يعتمد مصنعو الكاميرات المنزلية المتصلة ومقدمو الخدمات أيضًا على اكتشاف الكائنات لمعالجة تدفقات الفيديو الحية من الكاميرات لاكتشاف الأشخاص والأشياء في الوقت الفعلي وتقديم تنبيهات قابلة للتنفيذ للمستخدمين النهائيين.
تعقب الكائنات
تتبع الكائنات يستخدم نماذج التعلم العميق لتحديد وتتبع العناصر التي تنتمي إلى الفئات. لديها العديد من التطبيقات الواقعية عبر صناعات متعددة. العنصر الأول لتتبع الكائنات هو اكتشاف الكائن؛ يحتوي الكائن على مربع محيط تم إنشاؤه حوله، ويتم إعطاؤه معرف الكائن (ID)، ويمكن تعقبه من خلال الإطارات. على سبيل المثال، يمكن استخدام تتبع الكائنات لمراقبة حركة المرور في البيئات الحضرية والمراقبة البشرية والتصوير الطبي.
التقسيم
التقسيم عبارة عن خوارزمية رؤية حاسوبية تحدد كائنًا عن طريق تقسيم صور له إلى مناطق مختلفة بناءً على وحدات البكسل المرئية. يعمل التقسيم أيضًا على تبسيط الصورة، مثل وضع شكل أو مخطط تفصيلي لعنصر لتحديد ماهيته. من خلال القيام بذلك، يتعرف التقسيم أيضًا على ما إذا كان هناك أكثر من كائن في الصورة أو الإطار.
على سبيل المثال، إذا كانت هناك قطة وكلب في الصورة، فيمكن استخدام التقسيم للتعرف على الحيوانين. على عكس اكتشاف الكائنات، الذي ينشئ مربعًا حول الكائن، يتتبع التقسيم وحدات البكسل لتحديد شكل الكائن، ما يسهل التحليل والتصنيف.
استرجاع الصور المستند إلى المحتوى
استرجاع الصور المستند إلى المحتوى هو تطبيق لتقنيات الرؤية الحاسوبية التي يمكنها البحث عن صور رقمية محددة في قواعد البيانات الكبيرة. يقوم بتحليل البيانات الوصفية مثل العلامات والأوصاف والتسميات والكلمات الرئيسية. يستخدم الاسترجاع الدلالي أوامر مثل «البحث عن صور للمباني» لاسترجاع المحتوى المناسب.
كيف تساعد AWS في مهام الرؤية الحاسوبية؟
توفر AWS المجموعة الأوسع والأكثر اكتمالاً من خدمات الذكاء الاصطناعي وتعلم الآلة (AI/ML) المتصلة بمجموعة شاملة من مصادر البيانات للعملاء من جميع مستويات الخبرة.
بالنسبة للعملاء الذين يعتمدون على أطر العمل ويديرون البنية التحتية الخاصة بهم، نقوم بتحسين إصدارات أطر عمل التعلم العميق الأكثر شيوعًا، بما في ذلك PyTorch، وMxNet وTensorFlow. توفر AWS مجموعة واسعة وعميقة من خدمات الحوسبة والتخزين والشبكات المدعومة بتعلم الآلة والمخصصة للبنية التحتية، وذلك مع مجموعة مختارة من المعالجات والمسرعات لتلبية احتياجات الأداء والميزانية الفريدة.
بالنسبة إلى العملاء الذين يرغبون في إنشاء حل قياسي للرؤية الحاسوبية عبر أعمالهم، تُسهّل خدمة Amazon SageMaker إعداد البيانات وإنشاء نماذج تعلم الآلة وتدريبها ونشرها لأي حالة استخدام من خلال البنية التحتية المُدارة بالكامل، والأدوات وسير العمل، بما في ذلك عروض من دون تعليمات برمجية لمحللي الأعمال.
بالنسبة للعملاء الذين يفتقرون إلى مهارات تعلم الآلة، أو الذين يحتاجون إلى تسريع الإطلاق والدخول إلى السوق، أو يرغبون في إضافة الذكاء إلى عملية أو تطبيق موجود، تقدم AWS مجموعة من خدمات الرؤية الحاسوبية القائمة على تعلم الآلة. تتيح لك هذه الخدمات إضافة الذكاء بسهولة إلى تطبيقات الذكاء الاصطناعي الخاصة بك من خلال واجهات برمجة التطبيقات المدربة مسبقًا. تقوم Amazon Rekognition بأتمتة تحليل الصور والفيديو باستخدام تعلم الآلة وتحليل ملايين الصور والبث المباشر ومقاطع الفيديو المخزنة في ثوانٍ.
بادر باستخدام الرؤية الحاسوبية من خلال إنشاء حساب AWS مجاني اليوم.