القيم المتطرفة بعيدة عن باقي القيم

Admin

القيم المتطرفة بعيدة كل البعد عن باقي القيم ، تشير القيم المتطرفة في الإحصاء إلى نقطة بيانات تختلف اختلافًا كبيرًا عن القيم والملاحظات الأخرى ، وقد يكون سبب الانحراف بسبب التباين في القياس ، أو قد يشير إلى خطأ تجريبي.

القيم المتطرفة بعيدة كل البعد عن القيم الأخرى

  • يمكن أن تتضمن القيم المتطرفة ، وهي القيم الأكثر تطرفًا ، الحد الأقصى أو الأدنى للعينة ، أو كليهما ، اعتمادًا على ما إذا كانت عالية جدًا أو منخفضة جدًا. ومع ذلك ، فإن القيم القصوى والدنيا للعينة ليست دائمًا قيم متطرفة ، لأنها قد لا تكون بعيدة بشكل استثنائي عن القيم الأخرى.
  • هذا الحد الأقصى من القيم يمكن أن يسبب مشاكل خطيرة في التحليلات الإحصائية.

سبب ظهور القيم المتطرفة

  • يمكن أن تحدث القيم المتطرفة بالصدفة في أي توزيع ، لكنها تشير غالبًا إما إلى خطأ في القياس أو أن المجموعة لديها توزيع طرف ثقيل.
  • في الحالة الأولى ، قد يرغب المرء في تجاهلها أو استخدام إحصائيات قوية للقيم المتطرفة.
  • تشير الحالة الأخرى إلى أن التوزيع له تحيز كبير وأنه يجب توخي الحذر عند استخدام الأدوات أو الحدس الذي يفترض التوزيع الطبيعي.
  • سبب تكرار القيم المتطرفة بعيدًا عن كل شيء آخر هو الجمع بين توزيعين ، قد يكونان مجموعتين فرعيتين منفصلتين ، أو قد يشير إلى “تجربة صالحة” مقابل “خطأ في القياس”.
  • في معظم عينات البيانات الكبيرة ، تكون بعض نقاطها بعيدة عن متوسط ​​العينة مما يعتبر معقولاً. يمكن أن يحدث هذا نتيجة خطأ منهجي عرضي أو ثغرات في النظرية أدت إلى إنشاء مجموعة مفترضة من التوزيعات الاحتمالية ، أو قد تكون بعض الملاحظات بعيدة عن مركز البيانات.
  • تشير النقاط الخارجية إلى بيانات أو إجراءات خاطئة ، أو مناطق قد لا تكون فيها نظرية معينة صحيحة.
  • في العينات الكبيرة ، من المتوقع وجود عدد قليل من القيم المتطرفة.

اقرأ أيضًا: أفكار كتيب الرياضيات … اكتشف كتيبات الرياضيات الأكثر أهمية للمستويات الابتدائية والمتوسطة

تفسير القيم المتطرفة

القيم المتطرفة بعيدة كل البعد عن القيم الأخرى

  • قيمة خارجية في مجموعة البيانات بعيدة كل البعد عن باقي القيم في مجموعة البيانات
  • قيم غير عادية في مجموعة البيانات. هذه مشكلة للعديد من التحليلات الإحصائية. لأنه يمكن أن يتسبب في تفويت الاختبارات لنتائج مهمة أو تحريف النتائج الحقيقية.
  • هناك طرق مختلفة لاكتشاف الأعراض ، بعضها بيانيًا مثل مخططات الاحتمالات العادية. البعض الآخر يعتمد على النماذج.
  • لا توجد قواعد إحصائية صارمة لتحديد القيم المتطرفة بشكل نهائي.
  • يعتمد العثور على القيم المتطرفة على معرفة المجال وفهم عملية جمع البيانات.
  • يمكن أن تكون القيم المتطرفة أحيانًا أخطاء نريد استبعادها أو حالات شاذة لا نريد تضمينها في تحليلنا. ولكن في أوقات أخرى ، قد تكشف معلومات حول حالات خاصة لبياناتنا قد لا نلاحظها بطريقة أخرى.

طرق إيجاد القيم المتطرفة

استخدام معرفة المجال

  • أحيانًا تكون النطاقات النموذجية للقيمة معروفة.
  • في هذه الحالة ، يتم تحديد “القيم المتطرفة” من خلال المعرفة الحالية التي تحدد النطاق الطبيعي.
  • تعرف على النطاقات التي تتوقعها من بياناتك. إذا حددت النقاط خارج هذا النطاق.

المؤشرات الإحصائية

  • عند استخدام المؤشرات الإحصائية ، يتم تحديد القيم المتطرفة بالرجوع إلى البيانات التي نستخدمها.
  • أنت تحدد مقياسًا لـ “مركز” البيانات ، ثم تحدد المدى الذي يجب أن تنتقل إليه نقطة ما حتى تخرج عن المألوف.

يمكن استخدام مؤشرين إحصائيين مشتركين:

  • المسافة من المتوسط ​​في الانحرافات المعيارية
  • مسافة مقياس الزنبرك تكون بمضاعفات مقياس الزنبرك

لماذا البحث عن القيم المتطرفة مهم

ضمان جودة البيانات

  • أحد أسباب الرغبة في التحقق من القيم المتطرفة هو تأكيد جودة بياناتنا.
  • هناك مصدران محتملان مفقودان في البيانات وأخطاء في إدخال البيانات أو تسجيلها.

رمز البيانات مفقود

في بعض الأحيان عندما تكون القيم غير معروفة ، قد يستخدم عامل إدخال البيانات قيمة للإشارة إليها. تتضمن بعض الأمثلة ما يلي:

  • القيم الرقمية: إذا كانت هناك قيم معروفة بأنها خارج نطاق القيم المتوقعة ، فيمكن استخدامها للإشارة إلى القيم المفقودة.
  • قيم السلسلة: غالبًا ما يمكن استخدام حرف مكرر واحد أو علامة ترقيم أو كلمات محددة لسلسلة مفقودة أو غير معروفة.
  • الانحراف هو الملاحظة التي تكون على مسافة غير طبيعية من القيم الأخرى في عينة عشوائية من المجتمع.

أنواع القيم المتطرفة

يمكن أن تكون القيم المتطرفة من نوعين: أحادي المتغير ومتعدد المتغيرات.

  • أحادي المتغير هي القيم المتطرفة في الفضاء أحادي البعد.
  • تعدد المتغيرات هي القيم المتطرفة في الفضاء ذو ​​الأبعاد n.

يمكن أن تأتي القيم المتطرفة أيضًا في أنواع مختلفة اعتمادًا على البيئة: فهي تشير إلى القيم المتطرفة أو القيم المتطرفة السياقية أو القيم المتطرفة للمجموعة.

  • القيم المتطرفة هي نقاط بيانات فردية بعيدة عن باقي التوزيع.
  • القيم المتطرفة السياقية هي ضوضاء البيانات ، مثل علامات الترقيم عند إجراء تحليل النص أو إشارة ضوضاء الخلفية عند إجراء التعرف على الكلام.
  • يمكن أن تكون القيم المتطرفة الجماعية مجموعات فرعية من الحداثة في البيانات مثل إشارة يمكن أن تشير إلى اكتشاف ظواهر جديدة.

أسباب القيم المتطرفة بعيدة كل البعد عن القيم الأخرى

  • اصطناعي (كاذب) / غير طبيعي
  • طبيعي >> صفة.

أخطاء إدخال البيانات

يمكن أن تؤدي الأخطاء البشرية مثل الأخطاء التي تحدث أثناء جمع القيم المتطرفة أو تسجيلها أو إدخالها إلى قيم متطرفة.

على سبيل المثال: الدخل السنوي للعميل هو 100000 دولار. يحدث خطأ بوضع عامل إدخال بيانات إضافي صفري في الشكل. يصبح الدخل 1،000،000 دولار ، وهو 10 مرات أعلى. كن شاذًا مقارنة ببقية السكان.

خطأ في القياس

المصدر الأكثر شيوعًا للقيم المتطرفة. يحدث هذا عندما يتبين أن أداة القياس المستخدمة معيبة.

على سبيل المثال: يوجد 10 موازين. 9 منها صحيحة وواحدة خاطئة. سيكون الوزن الذي يقيسه الأشخاص على الجهاز المعيب أعلى أو أقل من وزن بقية الأشخاص في المجموعة. وبالتالي ، يمكن أن تؤدي الأوزان المقاسة على آلة معيبة إلى قيم متطرفة.

خطا محاكمة:

سبب آخر للقيم المتطرفة هو الخطأ التجريبي.

على سبيل المثال: في سباق 100 متر مع 7 متسابقين ، أخطأ العداء إشارة البداية التي جعلته يبدأ متأخراً. لذلك ، كان وقت الجري للعدائين أطول من وقت العدائين الآخرين. قد يكون وقت التشغيل الإجمالي غير طبيعي.

تدبر في الخارج

غالبًا ما توجد في التدابير المبلغ عنها ذاتيًا والتي تتضمن بيانات حساسة.

خطأ أثناء معالجة البيانات

عندما نستخرج البيانات ، نستخرج البيانات من مصادر متعددة. ويمكن أن تؤدي بعض أخطاء المعالجة أو الاستخراج إلى ظهور قيم متطرفة في مجموعة البيانات.

معاينة الخطأ

عند قياس ارتفاع الرياضيين ؛ عن طريق الخطأ ، قمنا بتضمين لاعبي كرة السلة في العينة. من الممكن أن ينتج عن هذا التضمين قيم متطرفة في مجموعة البيانات.

تأثير القيم المتطرفة على مجموعة البيانات

  • يمكن أن تؤثر القيم المتطرفة بشكل كبير على نتائج تحليل البيانات والنمذجة الإحصائية.
  • يزيد من تباين الخطأ ويقلل من متانة الاختبارات الإحصائية
  • إذا لم يتم توزيع القيم المتطرفة بشكل عشوائي ، فقد يؤدي ذلك إلى تقليل الحالة الطبيعية
  • يمكن أن يؤدي هذا إلى التحيز أو التأثير في التقديرات التي قد تكون ذات أهمية كبيرة.
  • يمكن أن يؤثر أيضًا على افتراض الانحدار الأساسي وافتراضات النماذج الإحصائية الأخرى.

كيف تكتشف القيم المتطرفة؟

الطريقة الأكثر شيوعًا لاكتشاف القيم المتطرفة هي التصور.

  • استأجر طرقًا مختلفة للتصوير ، مثل Box-plot و Histogram و Scatter Plot
  • نقاط البيانات ، ثلاثة أو أكثر من الانحرافات المعيارية عن المتوسط ​​، غير طبيعية

المراجع

المصدر 1 ، المصدر 2 ، المصدر 3 ، المصدر 4 ، المصدر 5 ، المصدر 6