Html ayrıştırıcı

Kütüphane HTML içeriğini ayrıştırmak için
Şimdi İndirin

Html ayrıştırıcı Sıralama ve Özet

Reklamcılık

  • Rating:
  • Lisans:
  • LGPL
  • Fiyat:
  • FREE
  • Yayıncı adı:
  • Derrick Oswald
  • yayıncı web sitesi:
  • İşletim sistemleri:
  • Mac OS X
  • Dosya boyutu:
  • 323 KB

Html ayrıştırıcı Etiketler


Html ayrıştırıcı Açıklama

HTML içeriğini ayrıştırmak için kütüphane HTML ayrıştırıcı, HTML'yi doğrusal veya yuvalanmış bir şekilde ayrıştırmak için kullanılan ücretsiz ve açık kaynaklı bir Java kütüphanesidir. Öncelikle dönüşüm veya ekstraksiyon için kullanılır, HTML özellikleri filtreler, ziyaretçiler, özel etiketler ve kullanımı kolay javabeans. Hızlı, sağlam ve iyi test edilmiş bir pakettir. ExtractionExtraction, Kaynak sayfasını korumak istemeyen tüm bilgi alma programlarını kapsar. Bu kapaklar şöyle kullanır: · Metin ekstraksiyonu, metin arama motoru veritabanları için giriş olarak kullanmak için örneğin, web sayfalarıyla sürünerek veya e-posta adresinden çıkma için, web sayfalarından programatik veri girişi için, web sayfalarından programatik veri girişi için, görüntüler veya ses toplama için · Bir tarayıcı ön ucu, sayfa ekranının ön aşaması · Bağlantı kontrolü, bağlantıların geçerli olması durumunda, saha izlemesi, Sayfa farklılıklarını basitçe diferansın ötesinde kontrol etme, Filtreler, ziyaretçiler ve Javaabean dahil olmak üzere ekstraksiyona yardımcı olmak için HTMLParser Codebase'da birkaç tesisdir. TransformationTransformation, girişin ve çıkışın HTML sayfaları olduğu tüm işlemleri içerir. Bazı örnekler şunlardır: · URL yeniden yazma, bir sayfadaki bazı bağlantıları veya tüm bağlantıları değiştirme · Site yakalama, web'den yerel diske içeriği hareket ettirin · Sansürleme, Sayfalardan Suçlu Kelimeleri ve İfadeleri Çıkarma · HTML Temizleme, Hatalı Sayfaları Düzeltme · Reklam Kaldırma, Mevcut URL'ler Referans Referanslama · XML'ye dönüşüm, mevcut Web sayfalarını XML gereksinimlerine taşıma: · Java Bu sürümde yenilikler: · HTMLParser projesi, yeni bir lisans, yeni bir yapı ortamı, yeni bir depo ve yeni bir Web sitesi ile güncellendi. Bu radikal değişikliği tanımlamak için, sürüm 2.0'a geriledi. · Apache topluluğundan gelen taleplere cevap olarak, HTMLParser lisansı GNU kütüphanesinden veya daha az Genel Kamu Lisansından, daha fazla Apache dostu ortak Public Lisans 1,0'a (http://opensource.org/licenses/cpl1.0.txt) olarak değişti. . · HTMLParser deposu, CVS'den Subversion'a değiştirildi (http://subversion.tigris.org/). · Diğer projelerde otomatik entegrasyonu desteklemek için, Yapı ortamı karınca'dan Maven 2'ye (http://maven.apache.org/) değiştirmiştir. Bu, Web sitesini güncelleme fırsatı sağladı (http://htmlparser.org).


Html ayrıştırıcı İlgili Yazılım