Universität Bonn

Proteinfunktionsvorhersage

In der postgenomischen Ära ist es unmöglich, die meisten neuen Proteine ​​auf andere Weise als mit computergestützten Methoden zu annotieren. Unser Tool AHRD annotiert Proteine ​​automatisch mit menschenlesbaren Beschreibungen und Termen der Genontologie (GO) auf genomischer Ebene.

AHRD

Die zum Beispiel durch BLAST berechnete Sequenzähnlichkeit wird für die großangelegte Annotation von Proteinsequenzen verwendet. Diese automatisierten Annotationen werden in nicht kuratierten Proteindatenbanken als für Menschen lesbare Beschreibungen oder Genontologie-Annotationen verbreitet. Um die Fehlerfortpflanzung durch einfache Übertragung von Annotationen aus der ähnlichsten Datenbankübereinstimmung zu vermeiden, haben wir AHRD (Automatic Assignment of Human Readable Descriptions) entwickelt. Es ist dem Arbeitsablauf menschlicher Kuratoren bei der Auswertung von Ähnlichkeitssuchergebnissen nachempfunden. Basierend auf der semantischen Ähnlichkeit von GO-Subgraphen haben wir AHRD mit heuristischen Algorithmen für maschinelles Lernen optimiert. AHRD kann Probleme überwinden, die durch falsche Annotationen, das Fehlen ähnlicher Sequenzen und teilweise Alignments verursacht werden.

Vorhersage von menschenlesbaren Beschreibungen

AHRD entfernt Beschreibungen, die Hinweise auf eine vorherige Annotationsübertragung enthalten, da die Beschreibung so nah wie möglich an der Primärquelle sein sollte. Danach werden die Beschreibungen in ihre Wörter zerlegt, die im Folgenden als Token bezeichnet werden. Token, von denen bekannt ist, dass sie allen Arten von Proteinbeschreibungen gemeinsam sind und allgemein als nicht informativ angesehen werden, werden ignoriert. Alle anderen punkten durch ihre Fülle an Beschreibungen von Proteinen mit einem hohen Bit-Score-Suchergebnis, einer guten Alignment-Überlappung und einem Ursprung in einer vertrauenswürdigen Datenbank. Anschließend können die Beschreibungskandidaten nach ihren Tokens geordnet werden und das beste Ergebnis kann für die Annotationsübergabe an die Abfrage verwendet werden.

Vorhersage von Gen Ontologie Termen

Frühere Versionen von AHRD haben GO-Annotationen von Referenzproteinen ausschlielich auf Basis der Eigenschaft ihrer für Menschen lesbaren Beschreibungen bewertet. Um die GO-Term-Annotationsleistung von AHRD zu verbessern, haben wir ein Kandidatenprotein-Scoring-Verfahren implementiert, das direkt auf GO-Annotationen basiert. Aber für die Vorhersage von GO-Begriffen ist es genauso wichtig, elektronisch übertragene Proteinannotationen zu vermeiden, wie für die Beschreibungsvorhersage. Wir unterziehen daher die Kandidaten-Referenzproteine ​​für die Annotation mit GO-Begriffen den gleichen Filterschritten, die an den Beschreibungskandidaten durchgeführt werden. Das von AHRD verwendete GO-Begriffsannotationsverfahren profitiert auch von Qualitätsindikatoren, die in der Beschreibung menschenlesbarer Beschreibungen ermittel werden. GO-Begriffe werden danach bewertet, wie oft sie in den Annotationen von Proteinen gefunden werden, die unter die folgenden Kriterien fallen: Sie stammen aus kuratierten Datenbanken, sie haben einen hohen Suchwert (in Bezug auf die Suchanfrage), sie haben eine gute Alignment-Überlappung mit der Abfrage und sind mit experimentellen Beweiscodes annotiert. Das Kandidatenprotein mit der GO-Term-Annotation mit der höchsten Punktzahl wird dann für die Übertragung der Funktion auf die Abfrage verwendet.


AHRD in the CAFA-Herausforderung

Die CAFA-Herausforderung (Critical Assessment of Functional Annotation) ist ein wiederkehrender gemeinschaftsweiter Wettbewerb zum Testen konkurrierender computergestützter Vorhersagewerkzeuge für Proteinfunktionen. Wir haben 2017 an CAFA3 und CAFA-π (https://doi.org/10.1186/s13059-019-1835-833)) ) teilgenommen. Und 2019 an CAFA4.


AHRD Entwicklung

AHRD ist in JAVA gedchrieben und mit Git versioniert. Es wurde mit Ant erstellt und ist auf GitHub frei verfügbar. Da AHRD eine Terminalanwendung ist, ist es möglich, es in bestehende Arbeitsabläufe zu integrieren, um die Automatisierung zu erleichtern.

Unter Verwendung von Conda und Snakemake haben wir einen Workflow-Wrapper für AHRD namens AHRD_Snakemake erstellt. Es macht es sehr einfach, eine FASTA query Datei zu annotieren, indem es sich um alle notwendigen Downloads, Sequenzähnlichkeitssuchen und Parameterkonfiguration sowie gleichzeitig um die erforderlichen Softwareabhängigkeiten kümmert. Natürlich ist AHRD_Snakemake auch auf GitHub frei verfügbar.


Wird geladen