Python: Informatie filteren dmv een class

Status
Niet open voor verdere reacties.

Jordidebruin

Gebruiker
Lid geworden
5 feb 2010
Berichten
89
Goedemiddag,

Ik ben bezig met het maken van een programma, maar het wil nog niet echt lukken.
Ik heb een bestand met informatie over eiwitten (bestand staat op http://www.filedropper.com/ploop). Dit moet er met het bestand gebeuren:

- Wil alleen de proteïnen overhouden die de regular expression [AG].{4}GK[ST] voldoen.
- Van de overgebleven proteïnen moeten door middel van een class alleen twee gegevens overblijven. Voorbeeld van zo'n proteïne staat hieronder. Wat dik gedrukt en onderstreept is, moet ik uiteindelijk overhouden (Begin van de 1e regel en eind van het tweede stukje).

Eiwitten zijn in het bestand van elkaar gescheiden door middel van 5 witregels.

Kan iemand mij hierin verder helpen? Ik heb zelden met een class gewerkt, en heb echt geen idee hoe ik de gegevens van een bestand op die manier moet filteren...

>sp Q6FJ45 AIM24_CANGA (387 aa)

Altered inheritance of mitochondria protein 24, mitochondrial. [Candida glabrata (strain ATCC 2001 / CBS 138 / JCM 3761 / NBRC 0622 / NRRL Y-65) (Yeast) (Torulopsis glabrata)]

MLKSRFKVVGKEALMASLPLEPSVPMCIRKGCLVSVMAGGAHGSGKTASLVIGHKWVNFWTNLARFRSWNSSLYHVLTTS

GKENRALVAPNISRGSPWLSALKLVVSILSKNSKGITITDPQRSIYPLELDGTQDWNVWGRDSLIAFEQNDSLDIKPASL

SSSLKRDALFSHSHKYQVVTGRGSVLLGGYGDIYSIDLKNSTDDIVINAQNILAVSGKGQTETMNAIENNPFIISHTAAS

NIPEFTSNVQELAAFEDPKQQQSQTIVQKTVKEAARASKAVWHWISYVYKKTVIFSNNNGHNITSPAFVKIKGPRTIIIQ

TSHETTQPVSVSTVDILPRTVENAIPEVVETPKAKSDSYINYATVQPDGNVTFRSVSNFNETIAERY

40 - 47: GahgsGKT
 
Status
Niet open voor verdere reacties.
Terug
Bovenaan Onderaan