ICA – Intelligent Content Analysis 

ניתוח טקסט אוטומטי, הפיכת מידע לא מובנה למובנה

מערכת ניתוח הטקסט של מלינגו (ICA) היא מערכת מתקדמת שפותחה ע”י מלינגו, תוך שימוש בכלים אלגוריתמיים של ניתוח טקסט וחילוץ ישויות. בהינתן טקסטים בעברית, בערבית או בפרסית המערכת מחזירה שני פלטים:

ניתוח מלא של הטקסט – המערכת מקבלת כקלט טקסט חופשי ומחזירה ניתוח של כל מילה בטקסט לפי צורת היסוד, חלק הדיבר, שיוך לצירוף מילים, תחיליות, זמן, גוף, בניין וכו’.

ישויות טקסטואליות שנמצאו בטקסט - המערכת מקבלת כקלט טקסט חופשי, ומחלצת ממנו את הישויות המרכזיות המופיעות בו וקטלוג לקטגוריות שונות, כגון שמות אנשים, מקומות, ארגונים, כתובות, מחרוזות חוץ לשוניות בעלות משמעות כגון מספרי טלפון, מספרי רישוי רכב, כרטיסי אשראי, כתובות דוא”ל, אתרי אינטרנט ועוד.

הישויות מחולצות לתקציר שבו הן ממוינות לפי סוג הישות, תת סוג ומספר המופעים.

ICA פועל כממשק תוכנה פתוח בסביבת Windows ב-  .net, C++ ו-JAVA. זהו למעשה API, המאפשר למשתמש לעשות עם הפלטים המופקים מהמערכת שימוש נרחב וגמיש, תוך שילוב קל של המערכת בתוך רכיב תוכנה קיימת.

תוספות למערכת

UDK – User Defined Keyword

רכיב ה-UDK הוא תוסף למערכת ניתוח הטקסט המאפשר הוספה והעשרה של קטגוריות ארגוניות (כמילון קטגוריות מותאם אישית בניהול הלקוח) לצורך התאמה אישית של חילוץ הישויות. יכולת זו מאפשרת לשייך מילים או שמות לקטגוריות חדשות או להוסיפן  לקטגוריות קיימות.

למשל – המשתמש יכול להגדיר שהמילה “חבצלת” תוגדר כישות בקטגוריה “כלי נשק” או כיישות בקטגוריה חדשה שתוגדר לפי צרכיו – לדוגמה – “פרחים” או “צמחים”.

לקסיקון ארגוני 

רכיב הלקסיקון הארגוני גם הוא תוסף למערכת ה-ICA, הניתן לשילוב קל ומהיר במערכת, וביכולתו להשפיע נקודתית על תוצאות ניתוח הטקסט שלה.

למשל – המילה “קרי” יכולה להתייחס ל- קָרִי (תבלין הודי) או ל- קֶרי (שם משפחה). הלקוח יכול להשפיע על תוצאות הניתוח על-ידי מתן דירוג (score) גבוה לתוצאה הרצויה.

לבקשת גרסת הדגמה או לכל שאלה נוספת – צור עימנו קשר.

יצירת קשר

מאפייני ה-ICA של מלינגו

זיהוי ישויות מעולם מושגים רחב

ICA מסוגל לזהות, דרך ניתוח טקסט, ישויות מרכזיות מקטגוריות מובנות רבות ללא צורך בהגדרה ידנית. בין הישויות: שמות מדינות, ערים, אנשים, מונחים רפואיים, כלי נשק, שמות ארגונים ועוד.

שימוש במורפולוגיה

נושאים מזוהים בטקסט גם כאשר הם מופיעים בהטיות, בכתיבים שונים ובצורות שונות, באופן שמבטיח זיהוי מיטבי של הנושאים המרכזיים בטקסט על פי ההקשר שלהם.

התגברות על רב-משמעות

המערכת מבצעת ניתוח מדויק של הטקסט תוך התגברות על רב-משמעות. באופן כזה שם העצם “ברק” המופיע בטקסט יזוהה וינותח באופן שונה מהשם הפרטי “ברק” המופיע בטקסט.

יכולת התאמה אישית של נושאים

ICA מאפשר התאמה אישית בהתאם לדרישות הלקוח ועולם התוכן שלו, ומתן עדיפות לנושאים מתוך עולם המושגים של המשתמש. כמו כן, הלקוח יכול להגדיר נושאים חדשים לזיהוי עפ”י הצורך.

תמיכה בשפות תכנות רבות

המערכת פועלת כ-API, בעל מעטפת בשפות JAVA, .NET ו-++C, כך שהיא ניתנת לשילוב פשוט במערכות הכתובות בשפות אלו.

מיושמת במערכות גדולות

המערכת פועלת כיום באופן מבצעי כחלק ממערכות גדולות העושות בה שימוש בהצלחה רבה.

שימושים אפשריים למערכת ניתוח הטקסט

ניתוח והבנה של טקסטים

חילוץ אוטומטי של מילות מפתח לכל מסמך

קטלוג ותיוג מסמכים

זיהוי הזדמנויות עסקיות – שליפת טקסטים שעוסקים במוצר מסוים

תמצות מסמכים

הפיכת מידע לא מובנה למידע מובנה

שילוב ICA בתהליך החיפוש/אינדוקס (חיפוש מושגי, מימוש פאסטות)

דוגמה לפעילות ה-ICA של מלינגו

הדוגמה הבאה מציגה את יכולת חילוץ הישויות של ה-ICA של מלינגו. בדוגמה נלקח מאמר, אשר בו סומנו ישויות טקסטואליות שנמצאו בו, כמות המופעים של כל ישות בטקסט
וחלוקה לקטגוריות עפ”י נושאים.

ica - sample

בטבלה להלן ניתן לראות דוגמה לניתוח הטקסט של המאמר. בעמודה השמאלית מופיעה בשורה נפרדת כל מילה מתוך המאמר,
ובשאר העמודות – ניתוח המילים – חלק הדיבר שלה, צורת הבסיס שלה, וכו’.

ica - sample - Tokens

מלינגו ברשתות חברתיות

בין לקוחותינו


.