Inverse Document Frequency (Idf, Odwrotna Częstotliwość W Dokumentach)

Ogólna definicja

Inverse Document Frequency (IDF) to termin wywodzący się z dziedziny przetwarzania informacji i języka naturalnego, często wykorzystywany w dziedzinie marketingu online, zwłaszcza w kontekście SEO i analizy treści. Jest to jedna z komponentów algorytmu TF-IDF (Term Frequency-Inverse Document Frequency), który służy do oceny wagi słów kluczowych w kontekście całego zbioru dokumentów.

Zasada działania

Zasada działania IDF opiera się na innym pojęciu – częstości terminu (Term Frequency, TF), czyli liczbie wystąpień danego słowa kluczowego w dokumencie. Jak sama nazwa wskazuje, IDF jest odwrotnością częstości, z jaką dany termin pojawia się w całym zestawie dokumentów (korpora). Częstość tę oblicza się na podstawie logarytmu z ilorazu liczby wszystkich dokumentów przez liczbę dokumentów, w których pojawia się dany termin.

Waga terminów

W praktyce IDF służy do oceny, jak ważne jest dane słowo kluczowe dla całego zbioru dokumentów. Wysoki IDF oznacza, że dany termin jest rzadko stosowany, co przekłada się na większą „cennosc” informacyjną. Z drugiej strony, niski IDF oznacza, że termin jest powszechnie używany i prawdopodobnie mniej istotny.

Zastosowanie w marketingu

SEO: IDF (oraz ogólnie TF-IDF) jest często wykorzystywany w optymalizacji wyszukiwarek (SEO) w celu identyfikacji i oceny słów kluczowych. Algorytm ten pozwala na ocenę, które terminy są unikalne (i potencjalnie wartościowe) dla danej strony lub treści.
Analiza treści: IDF może być wykorzystywany do analizy treści, pozwalając twórcom na zrozumienie, które słowa są najważniejsze w danym tekście.

Wzór matematyczny

IDF dla danej frazy można wyliczyć za pomocą poniższego wzoru:

IDF(t) = log_e(Total number of documents / Number of documents with term t in it)

Zalety i wady

Podobnie jak każda metoda, IDF ma swoje zalety i wady. Zaletą jest możliwość oceny wagi różnych słów kluczowych w dużym zbiorze dokumentów, co jest szczególnie przydatne np. w analizie treści. Do wad można zaliczyć fakt, że metoda nie bierze pod uwagę kontekstu ani sekwencji słów.