Add files via upload

Marktechpost · web-flow · commit 404afd0ad313 · 2025-10-17T14:36:44.000-07:00
diff --git a/Data Science/Unified_Tool_Orchestration_Framework_Marktechpost.ipynb b/Data Science/Unified_Tool_Orchestration_Framework_Marktechpost.ipynb
@@ -0,0 +1,355 @@
+{
+  "nbformat": 4,
+  "nbformat_minor": 0,
+  "metadata": {
+    "colab": {
+      "provenance": []
+    },
+    "kernelspec": {
+      "name": "python3",
+      "display_name": "Python 3"
+    },
+    "language_info": {
+      "name": "python"
+    }
+  },
+  "cells": [
+    {
+      "cell_type": "code",
+      "source": [
+        "import re, json, time, random\n",
+        "from dataclasses import dataclass\n",
+        "from typing import Callable, Dict, Any, List, Tuple\n",
+        "\n",
+        "@dataclass\n",
+        "class ToolSpec:\n",
+        "    name: str\n",
+        "    description: str\n",
+        "    inputs: Dict[str, str]\n",
+        "    outputs: Dict[str, str]\n",
+        "\n",
+        "def parse_doc_to_spec(name: str, doc: str) -> ToolSpec:\n",
+        "    desc = doc.strip().splitlines()[0].strip() if doc.strip() else name\n",
+        "    arg_block = \"\\n\".join([l for l in doc.splitlines() if \"--\" in l or \":\" in l])\n",
+        "    inputs = {}\n",
+        "    for line in arg_block.splitlines():\n",
+        "        m = re.findall(r\"(--?\\w[\\w-]*|\\b\\w+\\b)\\s*[:=]?\\s*(\\w+)?\", line)\n",
+        "        for key, typ in m:\n",
+        "            k = key.lstrip(\"-\")\n",
+        "            if k and k not in inputs and k not in [\"Returns\",\"Output\",\"Outputs\"]:\n",
+        "                inputs[k] = (typ or \"str\")\n",
+        "    if not inputs: inputs = {\"in\": \"str\"}\n",
+        "    return ToolSpec(name=name, description=desc, inputs=inputs, outputs={\"out\":\"json\"})"
+      ],
+      "metadata": {
+        "id": "Xk2RZH5ZSjHn"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "def tool_fastqc(seq_fasta: str, min_len:int=30) -> Dict[str,Any]:\n",
+        "    seqs = [s for s in re.split(r\">[^\\n]*\\n\", seq_fasta)[1:]]\n",
+        "    lens = [len(re.sub(r\"\\s+\",\"\",s)) for s in seqs]\n",
+        "    q30 = sum(l>=min_len for l in lens)/max(1,len(lens))\n",
+        "    gc = sum(c in \"GCgc\" for s in seqs for c in s)/max(1,sum(lens))\n",
+        "    return {\"n_seqs\":len(lens),\"len_mean\":(sum(lens)/max(1,len(lens))),\"pct_q30\":q30,\"gc\":gc}\n",
+        "\n",
+        "def tool_bowtie2_like(ref:str, reads:str, mode:str=\"end-to-end\") -> Dict[str,Any]:\n",
+        "    def revcomp(s):\n",
+        "        t=str.maketrans(\"ACGTacgt\",\"TGCAtgca\"); return s.translate(t)[::-1]\n",
+        "    reads_list=[r for r in re.split(r\">[^\\n]*\\n\", reads)[1:]]\n",
+        "    ref_seq=\"\".join(ref.splitlines()[1:])\n",
+        "    hits=[]\n",
+        "    for i,r in enumerate(reads_list):\n",
+        "        rseq=\"\".join(r.split())\n",
+        "        aligned = (rseq in ref_seq) or (revcomp(rseq) in ref_seq)\n",
+        "        hits.append({\"read_id\":i,\"aligned\":bool(aligned),\"pos\":ref_seq.find(rseq)})\n",
+        "    return {\"n\":len(hits),\"aligned\":sum(h[\"aligned\"] for h in hits),\"mode\":mode,\"hits\":hits}\n",
+        "\n",
+        "def tool_bcftools_like(ref:str, alt:str, win:int=15) -> Dict[str,Any]:\n",
+        "    ref_seq=\"\".join(ref.splitlines()[1:]); alt_seq=\"\".join(alt.splitlines()[1:])\n",
+        "    n=min(len(ref_seq),len(alt_seq)); vars=[]\n",
+        "    for i in range(n):\n",
+        "        if ref_seq[i]!=alt_seq[i]: vars.append({\"pos\":i,\"ref\":ref_seq[i],\"alt\":alt_seq[i]})\n",
+        "    return {\"n_sites\":n,\"n_var\":len(vars),\"variants\":vars[:win]}\n",
+        "\n",
+        "FASTQC_DOC = \"\"\"FastQC-like quality control for FASTA\n",
+        "--seq_fasta: str  --min_len: int   Outputs: json\"\"\"\n",
+        "BOWTIE_DOC = \"\"\"Bowtie2-like aligner\n",
+        "--ref: str  --reads: str  --mode: str  Outputs: json\"\"\"\n",
+        "BCF_DOC = \"\"\"bcftools-like variant caller\n",
+        "--ref: str  --alt: str  --win: int  Outputs: json\"\"\""
+      ],
+      "metadata": {
+        "id": "iH7D9NKDSkHx"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "@dataclass\n",
+        "class MCPTool:\n",
+        "    spec: ToolSpec\n",
+        "    fn: Callable[..., Dict[str,Any]]\n",
+        "\n",
+        "class MCPServer:\n",
+        "    def __init__(self): self.tools: Dict[str,MCPTool] = {}\n",
+        "    def register(self, name:str, doc:str, fn:Callable[...,Dict[str,Any]]):\n",
+        "        spec = parse_doc_to_spec(name, doc); self.tools[name]=MCPTool(spec, fn)\n",
+        "    def list_tools(self) -> List[Dict[str,Any]]:\n",
+        "        return [dict(name=t.spec.name, description=t.spec.description, inputs=t.spec.inputs, outputs=t.spec.outputs) for t in self.tools.values()]\n",
+        "    def call_tool(self, name:str, args:Dict[str,Any]) -> Dict[str,Any]:\n",
+        "        if name not in self.tools: raise KeyError(f\"tool {name} not found\")\n",
+        "        spec = self.tools[name].spec\n",
+        "        kwargs={k:args.get(k) for k in spec.inputs.keys()}\n",
+        "        return self.tools[name].fn(**kwargs)\n",
+        "\n",
+        "server=MCPServer()\n",
+        "server.register(\"fastqc\", FASTQC_DOC, tool_fastqc)\n",
+        "server.register(\"bowtie2\", BOWTIE_DOC, tool_bowtie2_like)\n",
+        "server.register(\"bcftools\", BCF_DOC, tool_bcftools_like)\n",
+        "\n",
+        "Task = Tuple[str, Dict[str,Any]]\n",
+        "PIPELINES = {\n",
+        "    \"rnaseq_qc_align_call\":[\n",
+        "        (\"fastqc\", {\"seq_fasta\":\"{reads}\", \"min_len\":30}),\n",
+        "        (\"bowtie2\", {\"ref\":\"{ref}\", \"reads\":\"{reads}\", \"mode\":\"end-to-end\"}),\n",
+        "        (\"bcftools\", {\"ref\":\"{ref}\", \"alt\":\"{alt}\", \"win\":15}),\n",
+        "    ]\n",
+        "}\n",
+        "\n",
+        "def compile_pipeline(nl_request:str) -> List[Task]:\n",
+        "    key = \"rnaseq_qc_align_call\" if re.search(r\"rna|qc|align|variant|call\", nl_request, re.I) else \"rnaseq_qc_align_call\"\n",
+        "    return PIPELINES[key]"
+      ],
+      "metadata": {
+        "id": "CGM9J07zSm-p"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "source": [
+        "def mk_fasta(header:str, seq:str)->str: return f\">{header}\\n{seq}\\n\"\n",
+        "random.seed(0)\n",
+        "REF_SEQ=\"\".join(random.choice(\"ACGT\") for _ in range(300))\n",
+        "REF = mk_fasta(\"ref\",REF_SEQ)\n",
+        "READS = mk_fasta(\"r1\", REF_SEQ[50:130]) + mk_fasta(\"r2\",\"ACGT\"*15) + mk_fasta(\"r3\", REF_SEQ[180:240])\n",
+        "ALT = mk_fasta(\"alt\", REF_SEQ[:150] + \"T\" + REF_SEQ[151:])\n",
+        "\n",
+        "def run_pipeline(nl:str, ctx:Dict[str,str]) -> Dict[str,Any]:\n",
+        "    plan=compile_pipeline(nl); results=[]; t0=time.time()\n",
+        "    for name, arg_tpl in plan:\n",
+        "        args={k:(v.format(**ctx) if isinstance(v,str) else v) for k,v in arg_tpl.items()}\n",
+        "        out=server.call_tool(name, args)\n",
+        "        results.append({\"tool\":name,\"args\":args,\"output\":out})\n",
+        "    return {\"request\":nl,\"elapsed_s\":round(time.time()-t0,4),\"results\":results}"
+      ],
+      "metadata": {
+        "id": "eb6JS_luSo19"
+      },
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 2,
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "id": "nb0-nNYkRHuC",
+        "outputId": "e42167a9-40f4-45b2-a5d9-9ed195bd6d84"
+      },
+      "outputs": [
+        {
+          "output_type": "stream",
+          "name": "stdout",
+          "text": [
+            "== TOOLS ==\n",
+            "[\n",
+            "  {\n",
+            "    \"name\": \"fastqc\",\n",
+            "    \"description\": \"FastQC-like quality control for FASTA\",\n",
+            "    \"inputs\": {\n",
+            "      \"seq_fasta\": \"str\",\n",
+            "      \"min_len\": \"int\"\n",
+            "    },\n",
+            "    \"outputs\": {\n",
+            "      \"out\": \"json\"\n",
+            "    }\n",
+            "  },\n",
+            "  {\n",
+            "    \"name\": \"bowtie2\",\n",
+            "    \"description\": \"Bowtie2-like aligner\",\n",
+            "    \"inputs\": {\n",
+            "      \"ref\": \"str\",\n",
+            "      \"reads\": \"str\",\n",
+            "      \"mode\": \"str\"\n",
+            "    },\n",
+            "    \"outputs\": {\n",
+            "      \"out\": \"json\"\n",
+            "    }\n",
+            "  },\n",
+            "  {\n",
+            "    \"name\": \"bcftools\",\n",
+            "    \"description\": \"bcftools-like variant caller\",\n",
+            "    \"inputs\": {\n",
+            "      \"ref\": \"str\",\n",
+            "      \"alt\": \"str\",\n",
+            "      \"win\": \"int\"\n",
+            "    },\n",
+            "    \"outputs\": {\n",
+            "      \"out\": \"json\"\n",
+            "    }\n",
+            "  }\n",
+            "]\n",
+            "\n",
+            "== INDIVIDUAL BENCH ==\n",
+            "[\n",
+            "  {\n",
+            "    \"tool\": \"fastqc\",\n",
+            "    \"ok\": true,\n",
+            "    \"ms\": 0,\n",
+            "    \"out_keys\": [\n",
+            "      \"n_seqs\",\n",
+            "      \"len_mean\",\n",
+            "      \"pct_q30\",\n",
+            "      \"gc\"\n",
+            "    ],\n",
+            "    \"err\": null\n",
+            "  },\n",
+            "  {\n",
+            "    \"tool\": \"bowtie2\",\n",
+            "    \"ok\": true,\n",
+            "    \"ms\": 0,\n",
+            "    \"out_keys\": [\n",
+            "      \"n\",\n",
+            "      \"aligned\",\n",
+            "      \"mode\",\n",
+            "      \"hits\"\n",
+            "    ],\n",
+            "    \"err\": null\n",
+            "  },\n",
+            "  {\n",
+            "    \"tool\": \"bcftools\",\n",
+            "    \"ok\": true,\n",
+            "    \"ms\": 0,\n",
+            "    \"out_keys\": [\n",
+            "      \"n_sites\",\n",
+            "      \"n_var\",\n",
+            "      \"variants\"\n",
+            "    ],\n",
+            "    \"err\": null\n",
+            "  }\n",
+            "]\n",
+            "\n",
+            "== PIPELINE BENCH ==\n",
+            "{\n",
+            "  \"pipeline\": \"rnaseq_qc_align_call\",\n",
+            "  \"ok\": true,\n",
+            "  \"ms\": 0,\n",
+            "  \"n_steps\": 3\n",
+            "}\n",
+            "\n",
+            "== PIPELINE RUN ==\n",
+            "{\n",
+            "  \"request\": \"Run RNA-seq QC, align, and variant call.\",\n",
+            "  \"elapsed_s\": 0.0001,\n",
+            "  \"results\": [\n",
+            "    {\n",
+            "      \"tool\": \"fastqc\",\n",
+            "      \"args\": {\n",
+            "        \"seq_fasta\": \">r1\\nGAGCGTATGCGCCCAGTAACCAATGCCTGTTGAGATGCCAGACGCGTAACCAAAACATAGAAACCATCAATAGACAGGTC\\n>r2\\nACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGT\\n>r3\\nTTTATTACTAGCTTAATGGTATCACATTGACAAACACGGCATTAAGTAGCGACGAAACGG\\n\",\n",
+            "        \"min_len\": 30\n",
+            "      },\n",
+            "      \"output\": {\n",
+            "        \"n_seqs\": 3,\n",
+            "        \"len_mean\": 66.66666666666667,\n",
+            "        \"pct_q30\": 1.0,\n",
+            "        \"gc\": 0.46\n",
+            "      }\n",
+            "    },\n",
+            "    {\n",
+            "      \"tool\": \"bowtie2\",\n",
+            "      \"args\": {\n",
+            "        \"ref\": \">ref\\nTTAGTTGTGCCGCAGCGAAGTAGTGCTTGAAATATGCGACCCCTAAGTAGGAGCGTATGCGCCCAGTAACCAATGCCTGTTGAGATGCCAGACGCGTAACCAAAACATAGAAACCATCAATAGACAGGTCATAATCGGTCCACCGGATCATTGGTGCATAGAGCCTGGGCGTTAACGCCCTTTATTACTAGCTTAATGGTATCACATTGACAAACACGGCATTAAGTAGCGACGAAACGGGATTTGCCTGACCGGGGAGAAGCCGGTCGATCAGCAGTGGTAATTGGATATTAGGCCTAA\\n\",\n",
+            "        \"reads\": \">r1\\nGAGCGTATGCGCCCAGTAACCAATGCCTGTTGAGATGCCAGACGCGTAACCAAAACATAGAAACCATCAATAGACAGGTC\\n>r2\\nACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGT\\n>r3\\nTTTATTACTAGCTTAATGGTATCACATTGACAAACACGGCATTAAGTAGCGACGAAACGG\\n\",\n",
+            "        \"mode\": \"end-to-end\"\n",
+            "      },\n",
+            "      \"output\": {\n",
+            "        \"n\": 3,\n",
+            "        \"aligned\": 2,\n",
+            "        \"mode\": \"end-to-end\",\n",
+            "        \"hits\": [\n",
+            "          {\n",
+            "            \"read_id\": 0,\n",
+            "            \"aligned\": true,\n",
+            "            \"pos\": 50\n",
+            "          },\n",
+            "          {\n",
+            "            \"read_id\": 1,\n",
+            "            \"aligned\": false,\n",
+            "            \"pos\": -1\n",
+            "          },\n",
+            "          {\n",
+            "            \"read_id\": 2,\n",
+            "            \"aligned\": true,\n",
+            "            \"pos\": 180\n",
+            "          }\n",
+            "        ]\n",
+            "      }\n",
+            "    },\n",
+            "    {\n",
+            "      \"tool\": \"bcftools\",\n",
+            "      \"args\": {\n",
+            "        \"ref\": \">ref\\nTTAGTTGTGCCGCAGCGAAGTAGTGCTTGAAATATGCGACCCCTAAGTAGGAGCGTATGCGCCCAGTAACCAATGCCTGTTGAGATGCCAGACGCGTAACCAAAACATAGAAACCATCAATAGACAGGTCATAATCGGTCCACCGGATCATTGGTGCATAGAGCCTGGGCGTTAACGCCCTTTATTACTAGCTTAATGGTATCACATTGACAAACACGGCATTAAGTAGCGACGAAACGGGATTTGCCTGACCGGGGAGAAGCCGGTCGATCAGCAGTGGTAATTGGATATTAGGCCTAA\\n\",\n",
+            "        \"alt\": \">alt\\nTTAGTTGTGCCGCAGCGAAGTAGTGCTTGAAATATGCGACCCCTAAGTAGGAGCGTATGCGCCCAGTAACCAATGCCTGTTGAGATGCCAGACGCGTAACCAAAACATAGAAACCATCAATAGACAGGTCATAATCGGTCCACCGGATCATTGGTGCATAGAGCCTGGGCGTTAACGCCCTTTATTACTAGCTTAATGGTATCACATTGACAAACACGGCATTAAGTAGCGACGAAACGGGATTTGCCTGACCGGGGAGAAGCCGGTCGATCAGCAGTGGTAATTGGATATTAGGCCTAA\\n\",\n",
+            "        \"win\": 15\n",
+            "      },\n",
+            "      \"output\": {\n",
+            "        \"n_sites\": 300,\n",
+            "        \"n_var\": 0,\n",
+            "        \"variants\": []\n",
+            "      }\n",
+            "    }\n",
+            "  ]\n",
+            "}\n"
+          ]
+        }
+      ],
+      "source": [
+        "def bench_individual() -> List[Dict[str,Any]]:\n",
+        "    cases=[\n",
+        "        (\"fastqc\", {\"seq_fasta\":READS,\"min_len\":25}),\n",
+        "        (\"bowtie2\", {\"ref\":REF,\"reads\":READS,\"mode\":\"end-to-end\"}),\n",
+        "        (\"bcftools\", {\"ref\":REF,\"alt\":ALT,\"win\":10}),\n",
+        "    ]\n",
+        "    rows=[]\n",
+        "    for name,args in cases:\n",
+        "        t0=time.time(); ok=True; err=None; out=None\n",
+        "        try: out=server.call_tool(name,args)\n",
+        "        except Exception as e: ok=False; err=str(e)\n",
+        "        rows.append({\"tool\":name,\"ok\":ok,\"ms\":int((time.time()-t0)*1000),\"out_keys\":list(out.keys()) if ok else [],\"err\":err})\n",
+        "    return rows\n",
+        "\n",
+        "def bench_pipeline() -> Dict[str,Any]:\n",
+        "    t0=time.time()\n",
+        "    res=run_pipeline(\"Run RNA-seq QC, align, and variant call.\", {\"ref\":REF,\"reads\":READS,\"alt\":ALT})\n",
+        "    ok = all(step[\"output\"] for step in res[\"results\"])\n",
+        "    return {\"pipeline\":\"rnaseq_qc_align_call\",\"ok\":ok,\"ms\":int((time.time()-t0)*1000),\"n_steps\":len(res[\"results\"])}\n",
+        "\n",
+        "print(\"== TOOLS ==\"); print(json.dumps(server.list_tools(), indent=2))\n",
+        "print(\"\\n== INDIVIDUAL BENCH ==\"); print(json.dumps(bench_individual(), indent=2))\n",
+        "print(\"\\n== PIPELINE BENCH ==\"); print(json.dumps(bench_pipeline(), indent=2))\n",
+        "print(\"\\n== PIPELINE RUN ==\"); print(json.dumps(run_pipeline(\"Run RNA-seq QC, align, and variant call.\", {\"ref\":REF,\"reads\":READS,\"alt\":ALT}), indent=2))"
+      ]
+    }
+  ]
+}