تصميم وتنفيذ كاميرا متحركة لمطابقة الوجه وتتبعه بسرعة آنية

الورقة البحثية بعنوان”تصميم وتنفيذ نظام كاميرا متحركة لمطابقة الوجه وتتبعه بسرعة آنية” وباللغة الانجليزية “Design of Real-Time Vision-Based Face Verification and Tracking Via Pan Tilt Camera”، تأليف نور عمار 2023، تمت المشاركة بالورقة البحثية في مؤتمر ICCIT في تبوك، السعودية، عام 2023، (https://ieeexplore.ieee.org/document/10273925 ). تمت ترجمة الورقة من قبل المؤلفة نفسها، وحقوق الترجمة محفوظة. آخر المقال يحتوي على الورقة البحثية باللغة الإنجليزية الملخص الملخص – رؤية الحاسوب […]

شارك هذا المنشور

الورقة البحثية بعنوان”تصميم وتنفيذ نظام كاميرا متحركة لمطابقة الوجه وتتبعه بسرعة آنية” وباللغة الانجليزية “Design of Real-Time Vision-Based Face Verification and Tracking Via Pan Tilt Camera”، تأليف نور عمار 2023، تمت المشاركة بالورقة البحثية في مؤتمر ICCIT في تبوك، السعودية، عام 2023، (https://ieeexplore.ieee.org/document/10273925 ). تمت ترجمة الورقة من قبل المؤلفة نفسها، وحقوق الترجمة محفوظة.

آخر المقال يحتوي على الورقة البحثية باللغة الإنجليزية

الملخص

الملخص – رؤية الحاسوب والأنظمة المستقلة هي مجالات فرعية للذكاء الاصطناعي. يتم تطبيق التطبيقات القائمة على الرؤية بشكل كبير في مجالات المراقبة والرعاية الصحية والمساعدة. يتم تجميع كاميرا متحركة وتنفيذها في النظام المقترح. تتم معالجة مرحلة التحقق من الوجه في نظام تتبع الوجه المستند إلى محرك الإمالة ومحرك السطح باستخدام نماذج ترميز اللقطة الواحدة. تشير الدراسة إلى تنفيذ نموذجين للترميز، الانحدارات المتجهة (HOG) والشبكة العصبية الالتفافية (CNN). تعتمد خوارزمية الحركة على سلسلة من المعادلات الحسابية. يظهر أداء نموذج ترميز الشبكة العصبية قيم تحقق أكثر دقة، بينما يظهر أداء نموذج ترميز الانحدارات المتجهة قيم تحقق أقل دقة. يظهر أداء التتبع المستند إلى نموذج ترميز الانحدارات المتهة سلوكا حركيا دقيقا للغاية ومبسطا وسريعا، بينما يظهر أداء التتبع المستند إلى نموذج ترميز الشبكة العصبية سلوكا أقل دقة وغير فعال وبطيئا للحركة.

Abstract—Computer vision and autonomous systems are sub-fields of artificial intelligence. Vision-based applications are significantly applied in surveillance, healthcare, and assistance fields. Pan Tilt Camera is assembled and implemented in the proposed system. The face verification stage in Pan Tilt-based face tracking system is processed using One-Shot Encoding models. The study indicates the implementation of two encoding models, Histogram of Oriented Gradient (HOG) and Convolutional Neural Network (CNN) encoding models. The locomotion algorithm is based on a sequence of arithmetical equations. The CNN encoding model performance shows more accurate verification values, whereas HOG encoding model performance shows less accurate verification values. The HOG encoding model-based tracking performance shows highly accurate, streamlined, and rapid locomotion- behavior, whereas the CNN encoding model-based tracking performance shows less accurate, inefficient, and slow locomotion-behavior.

I. المقدمة

أنظمة تتبع الكائنات القائم على الرؤية تلعب دورا مهما في التقنيات عالية المستوى. يتم تطبيق أنظمة تتبع الأشياء القائمة على الرؤية على مجالات متعددة مثل المراقبة بالفيديو والملاحة في المركبات والتحكم الذاتي في الروبوت. أصبح من الشائع الجمع بين الروبوتات ومجال رؤية الحاسوبية فيما يتعلق بالمستوى العالي لقدرات الحوسبة في عصر التكنولوجيا الحالي. يتم تطبيق تتبع الوجه بواسطة الروبوتات المستقرة بشكل كبير على المراقبة [1] والمساعدة التفاعلية الشخصية [2] والرعاية الصحية. يعتمد تتبع الكائنات على طرق متنوعة لطرق التعرف على الوجوه، مثل الأساليب المستندة إلى الألوان والقائمة على الحركة والشكل. تعتمد عملية التتبع على المعايير البصرية المختارة، مثل طرق المعايير المستندة إلى النقاط والقائمة على النواة والقائمة على صور الظِّلال [3].

في هذه الدراسة، تم تصميم بنية الأجهزة للنظام كعين روبوتية تحاكي نظام حركة العين البشرية. في النظام الطبيعي العين البشرية ست عضلات مسؤولة عن حركة العين [4]، بينما في العين الروبوتية، يتم تركيب محركين يعملان بشكل متعامد. يتكون النظام المقترح من التتبع وجهًا لوجه عبر أجهزة التحريك، والتحقق من الوجه المستند إلى الكاميرا. ( servoPan) هو محرك المسؤول عن حركة المحور السيني وهو التحريك السطحي، في حين أن (Tilt servo) هو المحرك المسؤول عن حركة المحور الصادي  وهو الإمالة. اقترح المرجع [5] نظاما لتتبع الوجه يعتمد على نموذج التتالي لهاار (Haar Cascade) الذي ابتكره فيولا وجونز [6] وتم تقييمه بواسطة [7]. يعتمد الطراز [6] على تقنية اختيار الميزات الثنائية لاكتشاف الكائنات لاكتشاف الوجه وتتبعه. ينتج عنه معدل سرعة عالية للكشف عن الأشياء باستثناء عدم وجود ميزة التحقق من الوجه. أشار المرجع [1] إلى نظام (Pan Tilt Zoom) كعين روبوتية ثابتة تتعقب الشخص وتكتشف موقعه في الوقت الفعلي. قدَّم النظام في المصدر [1] نظام اكتشاف الوجه مع ميزة التكبير واستخدم نموذج مدمج من نموذج التتالي [6] ونموذج التحليل التمييزي الخطي (LDA) [8].

في هذه الدراسة، تم تجربة طريقتين لمهمة التحقق من الوجه: نموذج ترميز رسم الانحدارات المتجهة (HOG) الذي ابتكر بواسطة الباحثين في المصدر [9] ونموذج ترميز (OpenFace) [10] الذي يعتمد على خوارزمية التعلم العميق القائمة على الشبكات العصبية العميقة. في مرحلة التتبع، يتم معالجة سلسلة من المعادلات الحسابية للتحكم في قيم الحركة بناء على الملاحظات المرتجعة. يرسل النظام نتائج المعادلات إلى نظام الأجهزة كأوامر. يتحرك نظام الأجهزة يسارًا ويمينًا في نطاق 180 درجة عبر محرك (Pan) ويتحرك لأعلى ولأسفل في نطاق 180 درجة بواسطة محرك (Tilt). تتكون بنية الأجهزة من الوسائل التالية، محركان سيرفو، لوحة تشغيل (PWM)، ولوحة كاميرا، كما هو موضح في الشكل 1. لتقييم الأداء، يتم تنفيذ الكشف عن الوجه القائم على التعاقب الشبيه Haar وتتبعه بهدف قياس ومراقبة سرعة التتبع مقارنة بالنماذج المقترحة. عدد الصور في الثانية المرصود (FPS) لنماذج Haar-Like Cascade وHOG وCNN هي، ترتيبًا، 13 إطارًا في الثانية و1.3 إطارا في الثانية و 0.1 إطارا في الثانية.

يبين أداء التحقق من الوجه بنموذج ترميز CNN نتائج أكثر دقة، بينما يظهر أداء التحقق من الوجه بنموذج ترميز HOG نتائج أقل دقة. يظهر أداء التتبع بنموذج ترميز HOG سلوكًا حركيًا دقيقا للغاية وسلسًا وسريعًا، بينما يظهر أداء التتبع بنموذج ترميز CNN سلوك حركة أقل دقة.

II. بنية النظام ومنهجيته

أ. مكونات النظام

يتكون نظام الأجهزة من وحدة تحكم أحادية اللوحة ، وكاميرا، ومحركين سيرفو، ومنصة بلاستيكية للتحريك / الإمالة، ومورد إمداد طاقة، وشاشة، وشبكة محلية.  ويرد وصف المكونات بالتفصيل في الجدول 2.

الكاميرا متصلة بوسائل الإمالة. Pan هو المحرك المؤازر المسؤول عن حركة المحور x، في حين أن الإمالة هي المحرك المسؤول عن حركة المحور y. تتحكم لوحة القيادة في تنوع أوامر حركة مرور تعديل عرض النبض (PWM) الصادرة من لوحة التحكم.

في هذه الدراسة، تم إشغال قناتين فقط، قناة واحدة لمحرك سيرفو عموم وواحدة أخرى لمحرك سيرفو الإمالة. كما هو موضح في الشكل 1، يوضح مخطط المكون الاتصالات بين الأجهزة والوسائل في النظام المقترح. المكونات التي تتصل مباشرة بلوحة رازبيري باي وهي PCA9685  لوحة تشغيل I2C وكاميرا  ومصدر طاقة، بينما تتصل ماكينات التحريك والإمالة بلوحة محرك I2C PCA9685.

 جدول 1. وصف الوسائل

الوصف

المنتج المستخدم

الوسيلة

حاسوب رازبيري نموذج 4ب و8جيجا ذاكرة وصول.

Raspberry Pi 4 model B, 8RAM

SBC

لوحة تحتوي على كاميرا صغيرة مع منفذ PWM.

 

PiCamera v1.3

 

Camera

محرك بكمية صغيرة من الطاقة وقدرة عالية من التحكم بPWM.

Micro servo 9g SG90 x2

Servo motors

16-Channel 12-bit PWM/Servo Driver with a built-in clock.

Adafruit PCA9685 board

I2C

interface

حامل يتحرك من اليسار إلى اليمين ومن أعلى إلى أسفل. يتم توصيل قطعة الإمالة بمحرك سيرفو وكذلك قطعة التحريك السطحي.

Pan/Tilt Camera anti-vibration

platform

 

Pan/Tilt

شاحن لتزويد SBC واللوحات الكهربائية المتصلة بالطاقة.

5-Volt     power supply

 

Power

حاسوب شخصي لمراقبة ردود الفعل والاكتشافات.

PC

Monitor

شبكة المنطقة المحلية للاتصال عبرها مع SBC.

Wi-Fi

Network

تُعنى لوحة كاميرا Pi المرفقة فقط بالإمالة الحصول على الإدخال المرئي. يوفر مورد الطاقة مكونات نظام الأجهزة بالكامل. شبكة محلية (LAN) توفر الاتصال بين Raspberry Pi وشاشة الحاسوب الشخصي (PC) لمراقبة ردود فعل النظام.

الشكل1. مخطط مكونات نظام تتبع الوجه القائم على الكاميرا المتحركة.

ب. الأدوات والبيئة

1) المكتبات والحزم البرمجية

في هذه الدراسة، تم استخدام مكتبات وحزم متعددة. ومع ذلك، فإن OpenCV هي المكتبة الأكثر فعالية، التي تستخدم لمعالجة الصور والتمثيل [11]. استخدمت حزمة Adafruit-devkit بسبب وجود منظم الطيف I2C PCA9685 وتستخدم لإدارة أوامر PWM التي عادت من المحركات. لوحة Adafruit-devkit تسهل التحكم في الحركة الزاويّة الدورانية للتحريك السطحي وتحريك الإمالة.

2) نماذج التعرف على الوجوه

في هذه الدراسة، تمت معالجة التعرف على الوجوه بناء على نماذج مدربة مسبقا. بالنسبة لمهمة التعرف على الوجوه، تم استخدام ثلاثة نماذج، نموذج الترميز المستند إلى نموذج ترميز رسم الانحدارات المتجهة [9]، ونموذج الترميز المستند إلى الشبكات العصبونية الالتفافية وهو نموذج OpenFace [10] ونموذج  HaaR-like Cascade [6].  (Haar-like cascade) يكتشف فقط الوجوه دون التحقق من الهوية.  يتم استخدامه بهدف قياس سرعة الكشف والتتبع ومراقبة السرعة مقارنة بالتتبع القائم على النماذج المقترحة. كما هو موضح في الشكل 2، يبدأ التحقق من الوجه بالحصول على الصورة، متبوعًا بتغيير حجم الصورة وإعادة تلوينها لتلائمها في نموذج الترميز. بعد مرحلة تحضير الصورة، يقوم النموذج بمسح الوجوه في الصورة المكتسبة وترميز الوجوه التي تم العثور عليها كمصفوفات رقمية. في النهاية، يقارن النموذج تضمين المصفوفات مع الترميز المسبق. إذا تم التحقق من الوجه، فإنه يحده مربع مستطيل وتتكرر الحلقة باستمرار. خلاف ذلك، تتم إعادة تشغيل الخوارزمية.

III. خوارزميات تتبع الوجه

أ. نماذج التعرف على الوجه

1) نموذج (HaaR-like cascade)

الهدف من تطبيق نموذج (HaaR-like cascade) [5] لقياس سرعة عمل النظام (معدل FPS). تهدف مراقبة السرعة إلى الإشارة إلى تقييم نظام الأجهزة والحركة وأداء التغذية المرتدة دون حمولة كبيرة من الحساب.

2) نماذج ترميز الوجه لتحديد هوية صاحب الوجه

أ.‌ إنشاء الصورة الأساسية للوجه الذي يراد تتبعه

هناك ثلاث مراحل لتحديد وجها لوجه. أولًا، تصوير صورة تحتوي على الوجه. ثانيًا، هو اقتصاص الوجه بشكل مستقل بواسطة نموذج التتالي Haar-Like. ثالثًا، ترميز ملامح الوجه باستخدام نماذج الترميز.

ب. نموذج ترميز رسم الانحدارات المتجهة (HOG)

عندما يتم ترميز وجه جديد، لا يكون الوجه بنفس الاتجاه الذي سيتم مقارنته مع الصورة المصورة في التجربة الواقعية. لحل هذه المشكلة، يتم اتباع مجموعة من طريقة أشجار الانحدار [12] لتقدير قيم موضع المعلم. الطريقة تعدل محاذاة الوجه.

 أولًا، يحدد ملامح الوجه، ثم يدور الوجه ليكون في نفس محاذاة وجه الحقيقة المصور للأرض [13]. من إيجابيات استخدام خوارزمية HOG هي أنها خوارزمية تعتبر من خوارزميات تعلم الآلة وتعتبر خوارزمية منخفضة التكلفة بالنسبة للعبء الحسابي وعالية الأداء في التنفيذ والنتائج.

ج‌) نموذج ترميز الشبكة العصبونية الالتفافية (CNN)

في هذه الدراسة، يتم اتباع الطريقة في المصدر [10]. نموذج (OpenFace) يعتمد على خوارزمية ترميز لقطات متعددة. في هذه الدراسة، يتم ترميز لقطة واحدة فقط لمهمة التحقق من الوجه. الخوارزمية هي خوارزمية قائمة على التعلم العميق. إنها تكلفة حسابية عالية، لكنها في نفس الوقت نظام قوي.

الشكل2. نظام التدفق لمطابقة الوجه لنموذج الشبكة العصبية ونموذج الانحدارات المتجهة
الشكل2. نظام التدفق لمطابقة الوجه لنموذج الشبكة العصبية ونموذج الانحدارات المتجهة

ب. إحداثيات منطقة التركيز وإطار التصوير

1) نظام الرؤية والحركة

تعتمد عملية تتبع الوجه على نطاق دوران نصف دورة لكل من الآلتين، كما هو موضح في الشكل 3. مؤازرة المقلاة هي القاعدة بينما أجهزة الإمالة هي الحامل العلوي الذي يحمل الكاميرا. تدور كل مؤازرة في حدود 180 درجة. يتوسع نطاق الرؤية فيما يتعلق بزيادة المسافة. الهدف هو وجها لوجه.

الشكل 3: توضيح لعملية الخوارزمية في الروبوت، مجال الحركة، مجال الرؤية، واستخراج الوجه.
الشكل 3: توضيح لعملية الخوارزمية في الروبوت، مجال الحركة، مجال الرؤية، واستخراج الوجه.

2) متغيرات تأطير الوجه

يتم اعتبار عدة معاملات في خوارزمية تتبع الوجه. المعاملات الأساسية في النظام هم قيم موقع منطقة التركيز، وإحداثيات إطار الصورة، وقيم منطقة التداخل. ببساطة، تعمل التقنية على إبقاء منطقة التركيز متمركزة في وسط مجال رؤية الكاميرا في الروبوت، وهنا نرمز إلى منطقة التداخل. المعاملات بمنطقة التركيز تتغير تبعًا لتنقل الكائن، والعكس صحيح.

الشكل 4. المتغيرات لإحداثيات تأطير الوجه.
الشكل 4. المتغيرات لإحداثيات تأطير الوجه.

يوضح المرجع [15] الميزة التي تشير وترسم المربع المحيط حول منطقة التركيز، حيث إن منطقة التركيز هي المنطقة التي تحتوي على الوجه وهي المنطقة المنشودة للتتبع، بينما يضيف الباحثين في المرجع [16] قيمة قلب المحور y. في مكتبة رؤية الحاسوب (OpenCV)، بدأ المحور الصادي من أعلى مجال الحركة إلى أدناه. كما هو موضح في الشكل 4، يتم حساب إحداثيات منطقة التركيز بناءً على قيم (xmin) و(ymin) و(xmax) و(ymax)، حيث (xmin ، ymin) هي الزاوية اليسرى العليا من RoI و (xmax ، ymax) هي النقطة الواقعة أسفل يمين منطقة التركيز. وفقا للمرجع [16]، فإن مصفوفة B تحتوي على قيم إحداثيات المربع المحيط بمنطقة التركيز ، في حين أن المؤشرين الثالث والرابع هما قيم العرض والارتفاع ، كما هو موضح في المعادلات (2,3).

3) تقسيم إطار الصورة

أداة التحريك السطحية (من اليمين إلى اليسار) تستند إلى إحداثيات المحور السيني وتتمثل الحركة بالمتغير (𝑥) وأداة الإمالة (من أعلى إلى أسفل) تستد إلى المحور الصادي وتتمثل الحركة بالمتغير (𝑦) في النظام، كما هو مبين في المعادلات (4,5). المتجه المنصف العمودي للإطار يقابل (𝑦 −𝑎𝑥𝑒𝑠𝑓𝑟𝑎𝑚𝑒) والمتجه المنصف الأفقي يقابل (𝑥 – axis𝑓𝑟𝑎𝑚𝑒).

(𝛼𝑝𝑎𝑛) و (𝛼𝑡𝑖𝑙𝑡) تظهر المسافة من محاور الإحداثيات. المعلمة 15 تعبر عن قيمة التفاوت من كل جانب من جوانب الإحادثيات كما هو موضح في الشكل 5، والتي ينتج عنها منطقة التفاوت. يتم استنتاج مركز سين ومركز صاد من خلال المعادلات (6،7). المعلمة (S) تستند إلى ضبط المقياس. قيمة ضبط المقياس تبنى على مربعات بكسل الصورة لضبط وتعديل قيم الخطأ (𝛼) تبعًا لحجم الإطار. تم ضبط المقياس بحيث يساوي 75.

الشكل 5. رسم توضيحي لتجزئة الإطار والمعلمات المرتبطة بالهدف.

4) نظام خوارزمية تتبع الوجه

كما هو موضح في الشكل 6، في المرحلة الأولى، يبدأ تدفق النظام بضبط زوايا المحركين (التحريك السطحي وتحريك الإمالة) على 90 درجة، وذلك ينصف الكاميرا في مركز مجال الرؤية. في المرحلة الثانية تتم معالجة الصورة بواسطة مكتبة (OpenCV) ونماذج التعرف على الموجه، كما هو موضح في الشكل 2. في المرحلة الثالثة، تتم عملية البحث عن طريق مسح مجال الرؤية لالتقاط الوجه المنشود للتتبع. في المرحلة الرابعة، يكون القرار في حال تم تحديد ومطابقة الوجه المنشود، حينها يتم حساب قيم (𝛼𝑝𝑎𝑛 , 𝛼𝑡𝑖𝑙𝑡)، كما هو موضح في المعادلات (6،7)، حينها، تبدأ سلسلة من القرارات المنطقية بناءً على المتباينات.  يسند المتغيرين (𝛼𝑝𝑎𝑛 , 𝛼𝑡𝑖𝑙𝑡) إلى  المسافات من المحورين السيني والصادي إلى حدود إطار الوجه، بينما تستند قيمة 15 إلى منطقة التفاوت، كما هو موضح في الكل 5.

الشكل 6. تدفق النظام للبحث عن الوجه، والتعرف عليه، وأوامر تتبع المواقع.
الشكل 6. تدفق النظام للبحث عن الوجه، والتعرف عليه، وأوامر تتبع المواقع.

في حال تجاوزت قيمة ألفا (𝛼) منطقة التفاوت، إذن قيمة التحريك السطحي (pan) ستضبط تبعًا ل قيمة ألفا ومعيار القياس (S)، كما هو موضح في المعادلة (8)، حيث يعبر متغير (𝑚𝑝𝑎𝑛,𝑡𝑖𝑙𝑡) عن الحركة لكلا المحركين السطحي والإمالة بشكل منفصل. بنهاية تدفق النظام، تتكرر العملية على شكل دورة. الهدف من تسلسل الحسابات في تدفق النظام هو المحافظة علة مجال الحركة للمحركات، حيث إن المجال يتراوح بين الزاوية 1 والزاوية 180 لكلا المحركين. المحافظة على الزوايا بين 1 و180 يمنع النظام من الهشاشة وسيكون أكثر تفاعلًا. على سبيل المثال، في حالة تحرك الوجه للأمام في اتجاه واحد على المحور السيني (حركة سطحية)، ستصل زاوية (Pan) لـ 181 درجة، حينها، سيتوقف النظام وتحترق الدائرة الإلكترونية للنظام. بكل الأحوال، تسلسل الحسابات الشرطية هو أبسط تقنية تم تنفيذها لمنع تداخل الحالات وللمحافظة على الحسابات أن تكون بسيطة قدر الإمكان.

IV. التنفيذ والنتائج

لتنفيذ النظام، يتم التقاط الوجه المنشود للتتبع، استنادًا لكلا نموذجي المطابقة (CNN, HOG)، ويتم ترميزه. بعد ذلك، تبدأ خوارزمية تحديد الوجه والتتبع. يتم تنفيذ النظام على مسافة تبدأ من 60 سم إلى 150 سم. كما هو موضح في الجدول 2، تم اختبار التتبع بناء على النماذج الثلاثة لتحديد الوجه بهدف قياس معدل عدد الصور الملتقطة وعدد الوجوه التي تؤدي إلى التداخل. نموذج التتالي (Haar-like Cascade) تم تنفيذه لملاحظة الأداء العام للوحة رازبيري باي ومراقبة سرعة التنفيذ.

الجدول 2. أداء التعرف على الوجه بالنسبة للنماذج الثلاثة، نموذج التتالي، نموذج ترميز الانحدارات المتجهة، نموذج ترميز الشبكة العصبية.

المقياس

نموذج هاار

(HaaR Cascade)

نموذج ترميز الانحدارات المتجهة

(HOG)

نموذج ترميز الشبكة العصبية

(CNN)

صورة ملتقطة (إطار) لكل ثانية (FPS)

13

1.3

0.1

عدد الوجوه المحددة لكل صورة ملتقطة (التداخل)

≥ 1

≈1

Only 1

 

العلامات المسجلة لتداخل نموذج ترميز الشبكة العصبية هي الأكثر ثباتًا، يتبعها نموذج الانحدارات المتجهة، ولكن بالنسبة لنموذج لانحدارات المتجهة تزداد قيم التداخل حين تم التحديد عند مسافة أبعد. لوحظ أفضل أداء للمطابقة في نموذج ترميز الشبكة العصبية ويتبعها نموذج ترميز الانحدارات المتجهة. التتبع القائم على نموذج ترميز الشبكة العصبية يُظهر أبطأ سلوك في الاستجابة، يتبعه التتبع القائم على نموذج الانحدارات المتجهة، بينما التتبع القائم على نموذج التتالي (Haar-like cascade) أظهر أسرع سلوك في الاستجابة. سجل التتبع القائم على نموذج التتالي سرعة أكبر بنحو 10 مرات من التتبع القائم على الانحدارات المتجهة ونحو 130 مرة من التتبع القائم على الشبكة العصبية. أظهر نموذج الشبكة العصبية بتحديد الوجه المتطابق بسلوك تنقلي ثابت وبطيء، وشابه هذا الأداء نموذج الانحدارات المتجهة، باستثناء أن نموذج الشبكة العصبية كان أكثر دقة ف المطابقة. بناء على تم ذكره، سلوك التتبع الأسرع هو القائم على نموذج التتالي، يليه النموذج القائم على الانحدارات المتجهة، يليه النموذج القائم على الشبكة العصبية.

الشكل 7. مسارات تتبع الوجه تبعًا لموقع درجة دوران التحريك السطحي لنموذجي للشبكة العصبية والانحدارات المتجهة.
الشكل 7. مسارات تتبع الوجه تبعًا لموقع درجة دوران التحريك السطحي لنموذجي للشبكة العصبية والانحدارات المتجهة.
الشكل 8. مسارات تتبع الوجه تبعًا لموقع درجة دوران تحريك الإمالة لنموذجي للشبكة العصبية والانحدارات المتجهة.
الشكل 8. مسارات تتبع الوجه تبعًا لموقع درجة دوران تحريك الإمالة لنموذجي للشبكة العصبية والانحدارات المتجهة.

قورِن المسار المقدر مع المسار القياسي بهدف قياس أداء التتبع. المسار المقدر هو قيم إحداثيات تحريك السطح وتحريك الإمالة، حيث إنّ المسارات تم قياسها تبعًا للدالة رقم 8. كما يظهر في الشكل 7 والشكل 8، الرسوم البيانية توضح مواقع التحريك السطحي وتحريك الإمالة بناءً على درجات الدوران لمسارات التتبع لنموذجي مطابقة الوجه، الشبكة العصبية والانحدارات المتجهة تبعًا للوقت. لوحظ أنّ مسار التتبع في نموذج الانحدارات المتجهة أكثر انسيابية وأسرع في الاستجابة، من ذلك يتم استنتاج استهلاك حسابات قليلة.  لوحظ أنّ مسار التتبع في نموذج الشبكة العصبية أقل انسيابية، وأبطأ، حيث إنه يعود باستجابة واحة كل 9 ثوانٍ تقريبًا. من ناحية التتبع، لوحظ أنّ التتبع لكلا النموذجين هو تتبع دقيق مقارب للمسار الصحيح. بناءً على ذلك، تتبع نموذج الانحدارات يعطي أداء أعلى لسلوك تنقل سريع وانسيابي.

الرسم البياني في الشكل 9 يوضح العلاقة بين دقة المطابقة (الاختلاف بين قيم الترميز المسجلة مسبقًا للوجه وقيم الترميز الجديدة لوجه جديد) ومقدار المسافة بُعدًا عن الهدف. أظهرت نتائج نموذج الترميز القائم على الشبكة العصبية أداء أفضل مع مسافات بعيدة، بينما أظهرت نتائج نموذج الترميز القائم على الانحدارات المتجهة أردأ عند بعد المسافة. رغم ذلك، فإن الأخير أظهر سلوكًا أسرع.

الشكل 9. العلاقة بين المسافة والتعرف على الوجه للنموذجين

V. الخاتمة

في هذه الدراسة، تم تصميم وتنفيذ نظام لتتبع وجه لهوية محددة بكاميرا متحركة. النظام مبني على رؤية الحاسوب. تمت معالجة الصورة باستخدام مكتبة (OpenCV). عدة تقنيات تم استخدامها في النظام المنفذ موزعة على عدة مراحل، والتقنيات هي: تقسم إطار الصورة، أوامر التحكم التلقائية، وخوارزمية تجنب الخطأ. مرحلة التعرف على الوجه مبنية على نماذج اللقطة الواحدة من الشبكة العصبية والانحدارات المتجهة، وأيضًا نموذج هاار التتالي (HaaR-Like Cascade). نموذج هاار التتالي تم تنفيذه لملاحظة الأداء العام للوحة الحوسبة الأحادية. أظهرت نتائج التتبع المبني على نموذج ترميز الانحدارات المتجهة أنها أسرع من التتبع المبني على نموذج ترميز الشبكة العصبية. في حين أظهرت النتائج أن مطابقة الوجه لنموذج الشبكة العصبية أفضل وأدق من نموذج الانحدارات المتجهة. نموذج هاار التتالي لتحديد الوجه أظهر أعلى معدل عرض أطر خلال ثانية، متبوع بنموذج الانحدارات المتجهة، متبوع بنموذج بالشبكة العصبية. أفضل طريقة تم استنتاجها من خلال هذه الدراسة هي طريقة التتبع القائمة على نموذج الانحدارات المتجهة ويبرهن ذلك السلوك الانسيابي في التتبع ومطابقة الوجه بدقة مقبولة، ومعالجة الأوامر بثبات، وكونه ملائمًا أكثر للأنظمة المضمنة والحواسيب أحادية اللوحة.

V. المصادر

  1. -H. Kim and J. -W. Choi, “Face Recognition Method Based on Fixed and PTZ Camera Control for Moving Humans,” 2019 Eleventh International Conference on Ubiquitous and Future Networks (ICUFN), Zagreb, Croatia, 2019, pp. 561-563, doi: 10.1109/ICUFN.2019.8806046.
  2. S. M. Sanjaya, D. Anggraeni, K. Zakaria, A. Juwardi and M. Munawwaroh, “The design of face recognition and tracking for human-robot interaction,” 2017 2nd International conferences on Information Technology, Information Systems and Electrical Engineering (ICITISEE), Yogyakarta, Indonesia, 2017, pp. 315-320, doi: 10.1109/ICITISEE.2017.8285519.
  3. R. Balaji and S. Karthikeyan, “A survey on moving object tracking using image processing,” 2017 11th International Conference on Intelligent Systems and Control (ISCO), Coimbatore, India, 2017, pp. 469-474, doi: 10.1109/ISCO.2017.7856037.
  4. Pervus, G. Augustine and D. Fitzpatrick, “Chapter 19. Eye Movements and Sensory Motor Integration,” in Neuroscience, 3rd Edition, Massachusetts, Sinauer Associates, 2001, pp. 453-456.
  5. R. Yosafat, C. Machbub and E. M. I. Hidayat, “Design and implementation of Pan-Tilt control for face tracking,” 2017 7th IEEE International Conference on System Engineering and Technology (ICSET), Shah Alam, Malaysia, 2017, pp. 217-222, doi: 10.1109/ICSEngT.2017.8123449.
  6. Viola and M. J. Jones, “Robust Real-Time Face Detection,” International Journal of Computer Vision, vol. 57, p. 137–154, 2004.
  7. Padilla, C. Filho and M. Costa, “Evaluation of Haar Cascade Classifiers for Face Detection,” in International Conference on Digital Image Processing, vol.6 no.4, p. 362-365. Venice, 2012.
  8. Bansal, A., Mehta, K., & Arora, S. (2012, January). Face recognition using PCA and LDA algorithm. In 2012 second international conference on Advanced Computing & Communication Technologies (pp. 251-254). IEEE. Retrieved from: https://ieeexplore.ieee.org/abstract/document/6168371.
  9. Dalal and B. Triggs, “Histograms of oriented gradients for human detection,” 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05), San Diego, CA, USA, 2005, pp. 886-893 vol. 1, doi: 10.1109/CVPR.2005.177.
  10. Amos, B. Ludwiczuk and M. Satyanarayanan, “OpenFace: A general-purpose face recognition,” Carnegie Mellon University, Pittsburgh, 2016. Retrieved from: http://reports-archive.adm.cs.cmu.edu/anon/anon/2016/CMU-CS-16-118.pdf.
  11. Pulli, A. Baksheev, K. Kornyakov and V. Eruhimov, “Real-time computer vision with OpenCV,” Association for Computing Machinery, vol. 55, no. 6, pp. 61-69, 2012.
  12. Kazemi and J. Sullivan, “One Millisecond Face Alignment with an Ensemble of Regression Trees,” in Computer Vision and Pattern Recognition, Columbus, Ohio, 2014. DOI:10.13140/2.1.1212.2243.
  13. Geitgey, “Machine Learning is Fun! Part 4: Modern Face Recognition with Deep Learning,” Medium, 24 July 2016. [Online]. Available: https://medium.com/@ageitgey/machine-learning-is-fun-part-4- modern-face-recognition-with-deep-learning-c3cffc121d78. [Accessed 7 September 2023].
  14. Kazemi and J. Sullivan, “One Millisecond Face Alignment with an Ensemble of Regression Trees,” in Computer Vision and Pattern Recognition, Columbus, Ohio, 2014. pp. 815- 823.
  15. Schroff, D. Kalenichenko and J. Philbin, “FaceNet: A Unified Embedding for Face Recognition and Clustering,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, 2015. Pp 214 – 223.
  16. Gomaa, M. M. Abdelwahab, M. Abo-Zahhad, T. Minematsu, and R. Taniguchi, “Robust Vehicle Detection and Counting Algorithm Employing a Convolution Neural Network and Optical Flow,” Sensors, vol. 19, no. 20, p. 4588, Oct. 2019, doi: 10.3390/s19204588.

الورقة البحثية الأصلية -حصري لـدى IEEE واكايا-

Powered By EmbedPress

Author

  • نور عمار

    مبرمجة وباحثة في تعلم الآلة. حاصلة على بكالوريوس تقنية معلومات من الجامعة العربية المفتوحة، وماستر علم البيانات والذكاء الاصطناعي من جامعة اسطنبول آيدن. مهتمة بالرؤية الحاسوبية، ومعالجة اللغات الطبيعية، وأتمتة الروبوت.

    View all posts

الدروس:

Uncategorized

الدرس الرابع | التعرف على الوجوه

الدرس الرابع: التعرف على الوجوه محتويات هذا الدرس: خوارزمية هاار التتالي تطبيق عملي: تحديد الوجوه على صورة تطبيق عملي: تحديد الوجوه على فيديو الدروس الأخرى

دورات تعليمية

الدرس الثالث | المرشحات ونواة الالتفاف

الدرس الثالث : المرشحات والنواة الالتفافية محتويات هذا الدرس: المرشحات النواة الالتفافية عملية الترشيح شحذ الصورة تشويش الصورة تحديد الحواف الدروس الأخرى Author نور عمار

دورات أخرى:

دورات تعليمية

الدرس الثالث | المرشحات ونواة الالتفاف

الدرس الثالث : المرشحات والنواة الالتفافية محتويات هذا الدرس: المرشحات النواة الالتفافية عملية الترشيح شحذ الصورة تشويش الصورة تحديد الحواف الدروس الأخرى Author نور عمار

Uncategorized

الدرس الثاني | مساحات الألوان في الصورة

الدرس الثاني: مساحات الألوان في الصورة محتويات هذا الدرس: مساحات ألوان الصورة شرح مبادئ الألوان في الصور تحويل الألوان بين الصور تحويل الصورة الملونة إلى