728 x 90

i

Czym jest eksploracja tekstu?

Czym jest eksploracja tekstu?

Eksploracja tekstu (ang. text mining) zajmuje się wykrywaniem wzorców w dokumentach tekstowych. Jest interdyscyplinarną nauką, wywodzącą się z eksploracji danych oraz przetwarzania języka naturalnego (ang. natural language processing). Text mining dostarcza narzędzi znajdujących zastosowanie w wielu niezauważalnych na co dzień dziedzinach życia.

Pozwala m.in. na dostosowywanie reklam do haseł wpisywanych w wyszukiwarki, klasyfikację e-maili ze względu na ich zawartość, udoskonalanie narzędzi służących do tłumaczenia tekstów, itd. Idea text miningu została trafnie sprecyzowana następująco:

Celem eksploracji tekstu jest pozyskiwanie informacji zawartych w dokumentach tekstowych na różne sposoby, włączając w to typowe analizy które są standardowo stosowane w eksploracji danych: odkrywanie wzorców i trendów w danych, związków pomiędzy encjami, przewidywanie reguł, itd.

Eksploracja danych tekstowych wymaga wykorzystania narzędzi z różnych dziedzin, takich jak uczenie maszynowe, lingwistyka komputerowa, statystyka, sztuczna inteligencja, a nawet bibliotekoznawstwo. Powiązania eksploracji tekstu z innymi dziedzinami nauki przedstawia rysunek poniżej:

Na przestrzeni lat postęp informatyki spowodował rozwój wielu zagadnień w tym digitalizacji. Transkrypty uzyskane z systemów konwertujących ludzką mowę na tekst (ang. automatic speech recognition, ASR), a także dokumenty otrzymane z systemów zamienia- jących materiały pisane ręczne w dokumenty elektroniczne (ang. optical character reco- gnition, OCR) zaczęły stanowić nowe źródła danych. Razem z dokumentami tworzonymi i przechowywanymi w postaci cyfrowej, stanowią one olbrzymi zbiór danych. Elektroniczne dokumenty tekstowe ze względu na swój kształt mogą występować się w jednej z trzech form:

  • niestrukturyzowane – są to dokumenty które nie mają żadnej struktury, czyli po pro- stu czysty tekst, przykładem są teksty rozdziałów książek, treści wpisów na blogach, itd.,
  • częściowo ustrukturyzowane – dokumenty mają częściowo predefiniowany format, np. maile w których wyróżnione są metadane, takie jak, adres nadawcy, adres od- biorcy, temat, data wysłania oraz treść maila, jednak przynajmniej część pól tego formatu jest wypełniona czystym tekstem,
  • ustrukturyzowane – dokumenty mają wyraźną strukturę. Przykładem są dokumen- ty automatycznie generowane i zapisywane w formacie .xml, .json oraz tabele baz danych.

Większość dokumentów tekstowych znajduje się w postaci nieustrukturyzowanej. Jeże- li do ich analizy chcemy wykorzystać algorytmy eksploracji danych czy uczenia maszyno- wego musimy najpierw ustrukturyzować te dokumenty, czyli poddać je preprocessingowi. Jego przebieg zależy od konkretnego zadania, jednak zwykle składa się on z kilku stan- dardowych etapów. Przedstawimy je na przykładowym zdaniu: To była szósta rocznica ślubu Wiktorii i Piotra.

  • Tokenizacja – podział tekstu na tokeny (elementarne jednostki). Podstawową jed- nostką jest najczęściej wyraz. Zwykle zakłada się że znakami rozgraniczającymi wyrazy są znaki białe oraz znaki interpunkcyjne. To założenie nie sprawdza się np. w przypadku skrótów („m.in.” zostanie przedstawione jako „m”, „in”), cen produk- tów („1.30 zł” zostanie rozdzielone na „1”, „30”, „zł”).
    To, była, szósta, rocznica, ślubu, Wiktorii, i, Piotra
  • Usuwanie słów ze stop listy – Mianem stop listy określa się zbiór słów, które często pojawiają się w tekście, a ich obecność nie wpływa znacząco na informacje wyni- kające z treści. W języku polskim takimi słowami są np. „być”, „do”, „bo”, „lub”, „i”, „a”, itd.
    szósta, rocznica, ślubu, Wiktorii, Piotra
  • Lematyzacja – proces sprowadzenia wyrazów do ich podstawowych form. Z pra- widłowo zbudowanych zdań uzyskuje się ciąg wyrazów w formie w której można znaleźć je słowniku, np. dla słów będących czasownikami, zadanie polega na prze- kształceniu ich do bezokoliczników.
    To, być, sześć, rocznica, ślub, Wiktoria, i, Piotr
  • Stemming – sprowadzenie słów do ich rdzeni. Proces ten polega na przekształceniu każdego słowa do jego części która nie podlega zmianie podczas odmiany. W efekcie otrzymuje się ciągi liter, które nie muszą być poprawnymi słowami, a jedynie sta- nowią część wspólną odmian danego wyrazu. Stemming jest prostą alternatywą dla lematyzacji. Wykonujemy tylko jedną z tych operacji.
    To, by, sz, rocznic, ślub, Wiktori, i, Piotr

Zwróćmy uwagę, na obecność zagadnień klasyfikacji oraz klasteryzacji dokumentów, któ- re występują również w eksploracji danych, co świadczy o pokrewieństwie tych dwóch dziedzin.

Do zadań eksploracji tekstu ponadto zaliczyć można zagadnienia takie jak ekstrakcja informacji (ang. information extraction), eksploracja sieci Web (ang. web mining), przetwarzanie informacji – mające swe korzenie w naukach dotyczących bibliotekoznawstwa i baz danych, a także ekstrakcja znaczeń (ang. concept extraction) stanowiącą problem lingwistyki komputerowej. Niektórzy zaliczają tu również zagadnienia związane z wyszukiwaniem informacji (ang. information retrieval) jednak inni uważają je za odrębną dziedzinę.

Obraz tytułowy pochodzi z freeimages.com, grafika: slideshare.com

Leave a Comment

Your email address will not be published. Required fields are marked with *

Cancel reply

Inne artykuły