jtokeniser

Sezgisel bir şekilde doğal dille ilgilenen bir tenkemenin kümesini birleştiren ücretsiz bir yazılım çözümü
Şimdi İndirin

jtokeniser Sıralama ve Özet

Reklamcılık

  • Rating:
  • Lisans:
  • GPL
  • Yayıncı adı:
  • Andy Roberts
  • İşletim sistemleri:
  • Windows All / Unix
  • Dosya boyutu:
  • 83 KB

jtokeniser Etiketler


jtokeniser Açıklama

Tokening'in kurucu belirteçlerine / kelimelerine sokulması, önemsiz olmayan örnekler için zorlu olabilir. Özellikle, doğal dille uğraşırken, kelimeleri izole etmek için de noktalama işaretlerini göz önünde bulundurmalısınız. Tokenisers'in her biri, Cava.util.StringTokenizer'e benzer bir yapı benimsemek ve sınıflara nasıl başlatılır ve belirteçleri çıkarır. Bu, kullanımı basit oldukları anlamına gelir. Uygulamaya bir metin dosyasını girebilir, kopyalayıp yapıştırabilir veya hatta bir metin dosyası yazabilirsiniz. Seçtiğiniz seçiminizi (ve herhangi bir ilgi seçeneğini) seçmelisiniz ve ardından TOKENISE düğmesine basın. Sonuçlarınız, işlendikleri anda görüntülenir ve seçerseniz sonuçları dosyaya kaydetme seçeneğiniz var. GUI, özellikle bir öğretim ortamında (NLP kursu gibi) TOTEVEISTION yöntemleriyle denemek için kullanışlıdır. Jtokeniser Kütüphanesini kullanmak isteyenler, ancak doğrudan kodu kullanmak için Java programlama deneyimine sahip olmaları da ilgi duyacaktır. Jtokeniser, hepsi bir abtract TOMENISER sınıfından uzanan dört Tokeniser'den oluşuyor: · Whitespacetokeniser - Bu, boşluklar, yeni hatlar, sekmeler ve linefeeds içeren boşluk oluşumundaki bir ipi böler. · StringTokeniser - Bu temel olarak Java.util.StringTokenizer ile aynıdır. Bazı ekstra yöntemlerle (ve TOKENISER'den uzanır). Varsayılan davranışı bir whitespacetokeniser olarak hareket etmektir, ancak, kelime sınırlayıcıları belirtmek için kullanılacak bir karakter kümesi belirleyebilirsiniz. · RegexTookeniser - Bu Tokeniser, bir belirteç ne olduğunu tanımlamak için normal ifadeleri kullanabildiğiniz kadar esnektir. Böylece, "\ w +", ne zaman bir veya daha fazla harfle eşleştiğinde, bir kelimeyi göz önünde bulunduracaktır. Varsayılan olarak, bir boşluk TOMENISer'e eşdeğer normal bir ifade kullanır. · RegexseParatortokeniser - Bu, gelişmiş bir stringtokeniser olarak düşünülebilir. StringToNeniser sınırlayıcıları bir bireysel karakter olarak tanımlamakla sınırlıdır, regexseparatortokeniser, daha zengin ve daha esnek bir yaklaşım için normal ifadeler kullanabilir. · Kütüphanedeki en sofistike tokenisörlerden biri olan BreakiRatortokeniser, ancak kelimeleri izole etmek için doğal dil dizeleri üzerinde kullanılmalıdır. Ayrıca, noktalama işaretlerini nasıl kabul edeceğinizi bilerek, kelimeleri nasıl bulacağınız hakkında yerleşik kurallarla birlikte gelir. · SENTENCETOTINISER - Bu aynı zamanda yukarıdakiler gibi bir breiterater kullanır, ancak cümle sınırlarını bulmaya yönelik ayarlanmıştır. Bu Tokeniser'deki "belirteçler" aslında bireysel cümlelerdir.


jtokeniser İlgili Yazılım