AcidBird
Elite
Bonjour,
J'essaye de récupérer le contenu d'une page web via une application Java. Mon problème est que certains caractère semble non reconnus lors du traitement de la réponse alors que la page s'affiche correctement dansun bronwser ... pour faire simple, voila en simplifié le code qui pose problème :
Le Charset de la page est bien ISO-8859-1 (vérifié, c'est ce qui est stipulé dans l'header de la réponse). Les caractères accentués sont bien traité mais le ' (représenté dans le getResponseBodyAsString() comme un "’" )se retrouve parsé dans response comme un "?".
A noter que si un autre encoding est utilisé, non seulement le ' est mal parsé, mais les caractères accentué aussi.
J'avoue que je ne vois vraiment pas d'ou vient le problème ...
J'essaye de récupérer le contenu d'une page web via une application Java. Mon problème est que certains caractère semble non reconnus lors du traitement de la réponse alors que la page s'affiche correctement dansun bronwser ... pour faire simple, voila en simplifié le code qui pose problème :
Code:
String response = null;
try {
HttpMethodBase m = new GetMethod(replaceBlanks(chapterURL));
m.getParams().setCookiePolicy(CookiePolicy.BROWSER_COMPATIBILITY);
client.executeMethod(m);
response = new String(m.getResponseBodyAsString().getBytes(), "ISO-8859-1");
System.out.println(response);
} catch (IOException e) {
e.printStackTrace(); //To change body of catch statement use File | Settings | File Templates.
log.inform("error while retreiving paragraph");
}
A noter que si un autre encoding est utilisé, non seulement le ' est mal parsé, mais les caractères accentué aussi.
J'avoue que je ne vois vraiment pas d'ou vient le problème ...