DB를 구축할 때 수동으로 구축했는데, CSV 구분자가 ,다보니 .로 들어간게 좀 있어서 그거 수정했음… (마른세수) 효소 이름 오타난것도 수정했습니다…
이래서 손끝 다치면 안됨…
import pandas as pd
enzyme_table = pd.read_csv('/home/koreanraichu/restriction.csv')
# 이쪽은 Finder나 cutter에도 쓰이는 그 DB가 맞습니다.
enzyme_table2 = pd.read_csv('/home/koreanraichu/restriction_RE.csv')
# 이쪽은 restriction site나 cut site에 A,T,G,C가 아닌 다른 알파벳이 들어가기 때문에 여기서 처음 불러오는 DB입니다.
enzyme_table = pd.concat([enzyme_table,enzyme_table2])
enzyme_table = enzyme_table.sort_values('Enzyme')
enzyme_table.reset_index(inplace=True)
# 니네는 꼭 합치고 나면 인덱스도 바꿔줘야되더라...
사실 DB가 두갠데(둘다 GitHub에 올라가 있음), 하나는 Finder랑 Cutter에도 적용중이고 다른 하나는 적용하려면 별도의 처리가 필요해서(그게 RE 들어간 거) 여기에 처음 도입했음. 아직까지 통합DB가 없어서 불러온 다음 합치고 인덱싱 다시 하는 절차가 필요합니다.
enzyme = input("찾고자 하는 효소를 입력해주세요: ")
# 아직 시퀀스로 검색하는 기능은 없습니다.
검색을 시퀀스 or 효소 이름으로 해야되는데… 아직 이름으로만 됩니다.
def SeqtoString (a):
a = enzyme_table.sequence[(enzyme_table['Enzyme'] == enzyme)]
a = a.to_string(index = False)
a = str(a)
return a
def SitetoString (a):
a = enzyme_table.restriction_site[(enzyme_table['Enzyme'] == enzyme)]
a = a.to_string(index = False)
a = str(a)
return a
평범하게 문자열화 해 주는 함수도 있다.
for i in range(len(enzyme_table)):
find_seq = SeqtoString(enzyme)
Site_seq = SitetoString(enzyme_table['restriction_site'][i])
DB_enzyme = enzyme_table['Enzyme'][i]
DB_seq = enzyme_table['sequence'][i]
DB_site = enzyme_table['restriction_site'][i]
if find_seq == str(DB_seq):
print(DB_enzyme,DB_seq,DB_site)
else:
pass
일단 간단하게 출력하게만 하고 검색했는데, HaeIII으로 검색했는데 목록을 보니 해삼이가 있다. (본인 HaeIII 해삼이라고 함)
print("{0} | {1} | {2} | Input enzyme".format(enzyme,find_seq,Site_seq))
for i in range(len(enzyme_table)):
find_seq = SeqtoString(enzyme)
Site_seq = SitetoString(enzyme)
DB_enzyme = enzyme_table['Enzyme'][i]
DB_seq = enzyme_table['sequence'][i]
DB_site = enzyme_table['restriction_site'][i]
if find_seq == str(DB_seq) and DB_enzyme != enzyme:
if Site_seq == DB_site:
print("{0} | {1} | {2} | Isoschizomer".format(DB_enzyme,DB_seq,DB_site))
# 인식하는 시퀀스와 자르는 방식이 같은 제한효소
else:
print("{0} | {1} | {2} | Neoschizomer".format(DB_enzyme,DB_seq,DB_site))
# 인식하는 시퀀스는 같으나 자르는 방식이 다른 제한효소
elif find_seq == str(DB_seq) and DB_enzyme == enzyme:
pass
else:
pass
입력한 효소는 빼고 출력하게 했고, Isoschizomer랑 Neoschizomer도 나눴다. 시퀀스로 검색하는 기능을 넣게 되면, 이 부분도 로직이 바뀌게 된다. (시퀀스로 검색할 경우 해당 시퀀스를 인식하는 제한효소를 다 뽑아와야 함)
Iso = ', '.join(Iso)
Neo = ', '.join(Neo)
print("Isoschizomer: {0} \nNeoschizomer: {1}".format(Iso,Neo))
# 실제로 Isoschizomer인데도 Neoscizomer로 표기하는 문제가 있습니다. (BamHI-Nsp29132OO)
물론 텍스트로도 출력해드립니다. (나름 친절)
참고
Isoschizomer: 인식하는 시퀀스와 자르는 형태가 같은 제한효소
Neoschizomer: 인식하는 시퀀스는 같은데 자르는 형태가 다른 제한효소(예: GGCC를 인식하지만 한놈은 GG/CC로 자르고 한놈은 /GGCC로 자르는 것)
기능 추가
keyword = input("효소 이름으로 찾으실거면 enzyme을, restriction site sequence로 찾으실거면 sequence를 입력해주세요. ")
if keyword == "enzyme":
enzyme = input("찾고자 하는 효소를 입력해주세요: ")
elif keyword == "sequence":
seq = input("찾고자 하는 restriction site sequence를 입력해주세요: ")
else:
print("다시 입력해주세요. ")
# 효소 이름으로 찾느냐, 시퀀스로 찾느냐에 따라 검색 결과가 다릅니다.
효소 이름 혹은 시퀀스로 검색할 수 있습니다.
if keyword == "enzyme":
find_seq = SeqtoString(enzyme)
Site_seq = SitetoString(enzyme)
Iso = []
Neo = []
print("{0} | {1} | {2} | Input enzyme".format(enzyme,find_seq,Site_seq))
for i in range(len(enzyme_table)):
DB_enzyme = str(enzyme_table['Enzyme'][i]).strip()
DB_seq = str(enzyme_table['sequence'][i]).strip().upper()
DB_site = str(enzyme_table['restriction_site'][i]).strip().upper()
if find_seq == str(DB_seq) and DB_enzyme != enzyme:
if Site_seq == DB_site:
Iso.append(DB_enzyme)
print("{0} | {1} | {2} | Isoschizomer".format(DB_enzyme,DB_seq,DB_site))
# 인식하는 시퀀스와 자르는 방식이 같은 제한효소
elif Site_seq != DB_site:
Neo.append(DB_enzyme)
print("{0} | {1} | {2} | Neoschizomer".format(DB_enzyme,DB_seq,DB_site))
# 인식하는 시퀀스는 같으나 자르는 방식이 다른 제한효소
elif find_seq == str(DB_seq) and DB_enzyme == enzyme:
pass
else:
pass
# 여기까지는 효소 이름으로 검색할 때의 코드
이쪽이 효소 이름으로 검색할 때 돌아가는 코드고
else:
find_seq = seq
print("Searched by: {0}".format(seq))
for i in range(len(enzyme_table)):
DB_enzyme = str(enzyme_table['Enzyme'][i]).strip()
DB_seq = str(enzyme_table['sequence'][i]).strip().upper()
DB_site = str(enzyme_table['restriction_site'][i]).strip().upper()
if find_seq == DB_seq:
print("{0} | {1} | {2}".format(DB_enzyme,DB_seq,DB_site))
else:
pass
# 여기까지는 인식 시퀀스로 검색할 때의 코드
이쪽은 시퀀스로 검색할 때 돌아가는 코드. …이거 sticky나 blunt만 볼 수도 있으면 좋을텐데.
Reply