Fernando Guillen, a Freelance Web Developer » Blog Archive » Ruby, sustituyendo matches de una regex en un String con matches de la misma regex

Ruby, sustituyendo matches de una regex en un String con matches de la misma regex

Madre mÃa que tÃtulo bueno me ha quedado :)

Esto es una nota mental y puede que si no sabes de que hablo no te interese y si sabes de que hablo ya lo sepas.

Intento sustituir una parte de un String por otra parte que se encuentra en el mismo String.

Es decir, tengo esto “me gusta el heavy y no me gusta el country” y quiero obtener esto otro “me gusta el country y no me gusta el heavy”.

Se puede hacer asÃ:

>> "me gusta el heavy y no me gusta el country".gsub( /me gusta (.*) y no me gusta el (.*)/, 'me gusta \2 y no me gusta el \1' )
=> "me gusta country y no me gusta el el heavy"

Donde \1 y \2 son las ocurrencias de los (.*).

El ejemplo puede parecer un poco tonto, pero esta utilidad me ha venido muy bien para quedarme con el contenido de una etiqueta html:

>> "<body>contenido</body>".gsub( /.*<body[^>]*>(.*)<\/body>.*/mix, '\1' ).strip
=> "contenido"

Que se puede solucionar de muchas otras maneras pero esta me ha parecido la mÃ¡s sencilla.

Escribo esta nota mental por lo poco intuitivo que es el uso de ‘\1′ como cadena sustitutiva pues se supone que las cadenas entre comillas simples no se interpretan…

Otra cosa es que google siempre me llevaba a soluciones como esta:

>> "me gusta el heavy y no me gusta el country".gsub( /me gusta (.*) y no me gusta el (.*)/, "me gusta #{$2} y no me gusta el #{$1}" )
=> "me gusta country y no me gusta el el heavy"

Y aunque parece que funciona no es asÃ porque los contenidos de $1 y $2 los ha cogido del gsub anterior y no de Ã©ste:

>> "me gusta el musical y no me gusta el flamenco".gsub( /me gusta (.*) y no me gusta el (.*)/, "me gusta #{$2} y no me gusta el #{$1}" )
=> "me gusta country y no me gusta el el heavy"
>> "me gusta el musical y no me gusta el flamenco".gsub( /me gusta (.*) y no me gusta el (.*)/, "me gusta #{$2} y no me gusta el #{$1}" )
=> "me gusta flamenco y no me gusta el el musical"

This entry was posted on Jueves, Septiembre 4th, 2008 at 6:47 pm and is filed under how to, nota mental, ruby. You can follow any responses to this entry through the RSS 2.0 feed. You can leave a response, or trackback from your own site.

Balint Erdi Says:
Septiembre 5th, 2008 at 10:11 am

Hola Fernando, estoy disfrutando de tus posts sobre Ruby y aprendiendo contigo. Mi dos cientos de euro (un anglisismo?) es que quizas sea mas intuitivo usar scan or =~ cuando quieres sacar algo del string i no sustituir.

Asi tu ejemplo seria:

"<body>contenido</body>".scan( /.*<body[^>]*>(.*)<\/body>.*/mix) { |m| (... hacer algo con 'contenido' ... }

o bien:

"<body>contenido</body>".scan( /.*<body[^>]*>(.*)<\/body>.*/mix).first.first.strip #ya, es un poco fea, parece que scan en este forma sea un overkill)

Con =~ :

"<body>contenido</body>" =~ /.*<body[^>]*>(.*)<\/body>.*/mix

y tienes ‘contenido’ en $1.

Keep your Ruby posts coming!
Balint

Aitor Says:
Septiembre 5th, 2008 at 10:21 am

IMHO hay formas mÃ¡s directas para el caso de obtener un substring:

<body>contenido</body>"[/REGEXP/, 1]

/REGEXP/.match( "<body>contenido</body>")[1]

Los backreferences (\1, \2…) son mÃ¡s Ãºtiles y estÃ¡n pensados para cuando se usan dentro de la propia REGEXP:

"abbc"[/(.)\1/] -> "bb" #matchea dos caracteres iguales seguidos

fguillen Says:
Septiembre 5th, 2008 at 11:11 am

Balint: Mi dos cientos de euro => Mis dos cÃ©ntimos de euro :)

fguillen Says:
Septiembre 5th, 2008 at 11:20 am

Balint, Aitor: Os he reparado los comentarios pues el cabroncete del wordpress se come muchos caracteres importantes. Espero no haber metido la pata :)

fguillen Says:
Septiembre 5th, 2008 at 11:22 am

Balint, tienes toda la razÃ³n de que el gsub no era buena soluciÃ³n para mi intento de extraer el contenido de una tag xml, ademÃ¡s de lioso no respondÃa bien pues en caso de no encontrar ningÃºn match con la regex devolvÃa todo el string y no es correcto.

Si no hay match no se deberÃa devolver nada.

De hecho, al final mi metodo extractor de bodys queda asÃ:

def get_body_content string
  string.match( /.*<\s*body[^>]*>(.*)<\/body\s*>.*/mi )
  $1.nil? ? nil : $1.strip
end

fguillen Says:
Septiembre 5th, 2008 at 11:23 am

Aitor, increÃblemente instructivos tus ejemplos de malabarismos con regexs, no se me habrÃan ocurrido :)

Balint Erdi Says:
Septiembre 5th, 2008 at 2:24 pm

Ya pensaba que hay solucion mas elegante que la mia, sino no seria ruby :) (Gracias, Aitor)

Balint Erdi Says:
Septiembre 5th, 2008 at 2:26 pm

Porque dos centimos? Dos cientos son mejor, no? ;)

fguillen Says:
Julio 12th, 2009 at 5:32 pm

En realidad la soluciÃ³n buena es usar el ‘xxx \1′ con comillas simples:

>> “me gusta el musical y no me gusta el flamenco”.gsub( /me gusta (.*) y no me gusta el (.*)/, ‘me gusta \2 y no me gusta el \1′ )
=> “me gusta flamenco y no me gusta el el musical”

el verdor Says:
Noviembre 16th, 2009 at 1:41 am

Hola, y como lo harÃas si tienes dos select en un string, y quieres sacar primero un contenido y luego el otro

Thinking on hiring me?

Fernando Guillén

a Freelance Web Developer

Ruby, sustituyendo matches de una regex en un String con matches de la misma regex

10 Comments to “Ruby, sustituyendo matches de una regex en un String con matches de la misma regex”

Leave a comment

Archives

Categories