Java Jsoup - Html string naar text

Status
Niet open voor verdere reacties.

Maximvdw

Gebruiker
Lid geworden
7 feb 2009
Berichten
921
Hallo,
Ik was bezig met een RSS reader voor Bukkit (dev.bukkit.org/server-mods/mcrss)
Maar omdat veel van de inhoud van RSS feeds html opmaak bevatten wil ik deze wegfilteren
Ik had gedacht aan Jsoup, omdat ik deze dan ook nog voor wat andere dingen kan gebruiken.
Volgende code heb ik gebruikt:

[JS]
Document plaintText=null;
plainText = Jsoup.parse(html);
[/JS]

Html is een string met html tags erin die zijn gewijzigd zodat ze als gewone text dienen
VOORBEELD:
<div class="field field-name-body field-type-text-with-summary field-label-hidden"><div class="field-items"><div class="field-item even" property="content:encoded"><p>The server will be offline from 13.30 pm GMT+1 For a Unkown time, to do some updates!!</p>
<p>Update1: Almost finished Server will be up in 10 minutes (14.36 GMT+1)</p>
<p>Update2: Server Is back online!</p>
<p>No changes for the players!</p>
</div></div></div>

Bij bovenstaande code word deze text omgezet in HTML (Echt met tags <>)
Maar ik wil eignelijk dat deze weg is dus gewoon de text:

the server will be offline from 13.30 pm GMT+1 For a Unkown time, to do some updates!!

Update1: Almost finished Server will be up in 10 minutes (14.36 GMT+1)

Update2: Server Is back online!

No changes for the players!


Iemand een idee hoe ik dit kan doen :)?
Gr,
Maxim
 
Nop :( Verranderd niets aan uiteindelijke output. (er worden wel tabs gezet nu)
Bedankt voor de reactie
 
Zou het kunnen dat de html code al ge-encode is?

In dit geval moet je eerst de tekst die je in de parse() functie stopt moeten html-decoden.
 
Ik zal volgende code straks nog is proberen:
Eerst de code naar HTML zetten, en deze dan nog is naar text (Theoretisch toch)

Document decode=null;
decode = Jsoup.parse(html);
String plainText = Jsoup.parse(decode.html()).text();

Ik zal wel iets laten weten als het werkt/niet

gr,
maxim
 
Laatst bewerkt:
Sry voor de (zeer) late reactie,
Ik heb het probleem niet kunnen oplossen met Jsoup, maar omdat het over een RSS feed ging met niet al te veel html heb ik dit dmv
Regex epressions eruit kunnen halen
toch bedankt

gr,
Maxim
 
Status
Niet open voor verdere reacties.
Terug
Bovenaan Onderaan