قدمت جامعة ولاية نيويورك في بوفالو أداة جديدة يمكن أن يتعامل معها الباحثون والمؤرخون، وهي خوارزمية قادرة على "قراءة" الصحافة القديمة، ستكون قادرة على استخراج أسماء الشخصيات البارزة، وبالتالي تسهيل معالجة آلاف الصفحات.
ومسبوقة بالوعد بإحداث ثورة في البحث ضمن مجموعة من المجلات القديمة ، فإن الخوارزمية التي طورتها جامعة بوفالو ستحدد وتصنف الأسماء الصحيحة، بترتيب الأهمية وتكرار حدوثها.
ووفقًا لموقعactualite الفرنسى ستكون الخوارزمية فعالة بشكل خاص في النصوص الممسوحة ضوئيًا باستخدام تقنية التعرف على الأحرف OCR حيث يقولHaimonti Dutta ، الأستاذ المساعد في قسم العلوم وأنظمة الإدارة بالجامعة: "إنها حقيقة معروفة.. عند استخدام برنامجOCR ، غالبًا ما يتم إساءة استخدام النص وهو ما تعالجه التقنية الجديدة بأضافة المزيد من الضبط والتحديد".
ومع ذلك، ستكون الأداة المقترحة قادرة على التعرف على الأسماء الصحيحة بطريقة فعالة، حتى في سياق النص الممسوح ضوئيًا وتحويلها باستخدام أداة التعرف الضوئي على الحروف، وفقًا للتجربة التي أجرتها الجامعة مع نص واحد "تم أرشفته" يدويًا وآخر يتم تحويله ببساطة عن طريق الكمبيوتر، وقد كانت النتائج متشابهة إلى حد كبير.
وتعتمد الخوارزمية على نموذج إحصائي شامل إلى حد ما ، مما يجعل من الممكن تحديد ترتيب الأهمية من عدد معين من المعايير: العنوان المحتمل الذي يسبق الاسم، وسياق استخدام الاسم الصحيح، وتكراره في المقالة و داخل المجموعة.
وعلى وجه الخصوص، عملت الجامعة مع شبكة مكتبات نيويورك ، مكتبة نيويورك العامة (NYPL) ، باستخدام أكثر من 14000 مقالة نشرتها صحيفة The Sun في نيويورك بين نوفمبر وديسمبر 1894 وتم مسحها ضوئيًا من قبل المؤسسة.
وقد أثبتت هذه الطريقة لقارئ الصحافة بالفعل دور بعض الشخصيات الأمريكية الأفريقية في الكفاح من أجل إلغاء العبودية خلال الحرب الأهلية الأمريكية، وفقًا لهيمونتي دوتا.