如何使用ML模型和FastAPI处理多个用户的请求？

2024-03-29

我正在研究通过FastAPI分发人工智能模块的过程。

我创建了一个 FastAPI 应用程序，它使用预先学习的机器学习模型来回答问题。

在这种情况下，一个用户使用是没有问题的，但是当多个用户同时使用时，响应可能会太慢。

那么，当多个用户输入问题时，有没有办法复制模型并一次性加载呢？

class sentencebert_ai():
    def __init__(self) -> None:
        super().__init__()

 def ask_query(self,query, topN):
        startt = time.time()

        ask_result = []
        score = []
        result_value = []  
        embedder = torch.load(model_path)
        corpus_embeddings = embedder.encode(corpus, convert_to_tensor=True)
        query_embedding = embedder.encode(query, convert_to_tensor=True)
        cos_scores = util.pytorch_cos_sim(query_embedding, corpus_embeddings)[0] #torch.Size([121])121개의 말뭉치에 대한 코사인 유사도 값이다.
        cos_scores = cos_scores.cpu()

        top_results = np.argpartition(-cos_scores, range(topN))[0:topN]

        for idx in top_results[0:topN]:        
            ask_result.append(corpusid[idx].item())
            #.item()으로 접근하는 이유는 tensor(5)에서 해당 숫자에 접근하기 위한 방식이다.
            score.append(round(cos_scores[idx].item(),3))

        #서버에 json array 형태로 내보내기 위한 작업
        for i,e in zip(ask_result,score):
            result_value.append({"pred_id":i,"pred_weight":e})
        endd = time.time()
        print('시간체크',endd-startt)
        return result_value
        # return ','.join(str(e) for e in ask_result),','.join(str(e) for e in score)



class Item_inference(BaseModel):
    text : str
    topN : Optional[int] = 1

@app.post("/retrieval", tags=["knowledge recommendation"])
async def Knowledge_recommendation(item: Item_inference):
  
    # db.append(item.dict())
    item.dict()
    results = _ai.ask_query(item.text, item.topN)

    return results


if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument("--port", default='9003', type=int)
    # parser.add_argument("--mode", default='cpu', type=str, help='cpu for CPU mode, gpu for GPU mode')
    args = parser.parse_args()

    _ai = sentencebert_ai()
    uvicorn.run(app, host="0.0.0.0", port=args.port,workers=4)

修正版本

@app.post("/aaa") def your_endpoint(request: Request, item:Item_inference): start = time.time() model = request.app.state.model item.dict() #커널 실행시 필요 _ai = sentencebert_ai() results = _ai.ask_query(item.text, item.topN,model) end = time.time() print(end-start) return results ```

首先，您不应该在每次请求到达时都加载模型，而应该在启动时加载一次（您可以使用启动事件 https://fastapi.tiangolo.com/advanced/events/#startup-event为此）和将其存储在应用程序实例上 https://www.starlette.io/applications/#accessing-the-app-instance——使用通用的app.state属性（参见实现State https://github.com/encode/starlette/blob/212fa46b23be0701a5963cdeff14f05ed352e22a/starlette/datastructures.py#L674也）——您可以稍后检索，如所述here https://stackoverflow.com/a/71537393/17865804 and here https://stackoverflow.com/a/71298949/17865804。例如：

from fastapi import Request

@app.on_event("startup")
async def startup_event():
    app.state.model = torch.load('<model_path>')

其次，如果你没有任何async您必须在端点内执行的函数await，你可以定义你的端点def代替async def。这样，FastAPI 将并发处理请求，因为每个请求将在单独的线程中运行；然而，async def端点在主线程上运行，即服务器顺序处理请求，只要没有await调用此类路由内的某些 CPU/IO 绑定（阻塞）操作。如果是这样，则关键字await会将函数控制传递回事件循环，从而允许事件循环中的其他任务/请求运行。请看一下答案here https://stackoverflow.com/a/71188190/17865804 and here https://stackoverflow.com/a/71517830/17865804以及其中包含的所有参考文献，以理解async/await，以及使用之间的区别def and async def。示例为def端点：

@app.post('/')
def your_endpoint(request: Request):
    model = request.app.state.model
    # run your synchronous ask_query() function here

或者，如上所述here https://stackoverflow.com/a/71517830/17865804，您最好可以在单独的进程中运行 CPU 密集型任务，使用ProcessPoolExecutor https://docs.python.org/3/library/concurrent.futures.html#concurrent.futures.ProcessPoolExecutor，并与asyncio，为了await它完成工作并返回结果 - 在这种情况下，您需要使用以下命令定义端点async def，作为await关键字仅在async功能。请注意，重要的是保护代码的主循环以避免子进程的递归生成 https://stackoverflow.com/a/45302590， ETC。;也就是说，您的代码必须位于if __name__ == '__main__' https://stackoverflow.com/questions/419163/what-does-if-name-main-do。例子：

from fastapi import FastAPI, Request
import concurrent.futures
import asyncio
import uvicorn

class MyAIClass():
    def __init__(self) -> None:
        super().__init__()

    def ask_query(self, model, query, topN):
        # ...
 
ai = MyAIClass()
app = FastAPI()

@app.on_event("startup")
async def startup_event():
    app.state.model = torch.load('<model_path>')

@app.post('/')
async def your_endpoint(request: Request):
    model = request.app.state.model

    loop = asyncio.get_running_loop()
    with concurrent.futures.ProcessPoolExecutor() as pool:
        res = await loop.run_in_executor(pool, ai.ask_query, model, item.text, item.topN)


if __name__ == '__main__':
    uvicorn.run(app)

Note如果你打算拥有若干工人 https://fastapi.tiangolo.com/deployment/server-workers/同时活跃，每个工人都有自己的记忆 https://fastapi.tiangolo.com/deployment/concepts/#memory-per-process换句话说，工作人员不共享相同的内存，因此每个工作人员都会将自己的 ML 模型实例加载到内存 (RAM) 中。例如，如果您的应用程序使用四个工作线程，则模型将被加载四次到 RAM 中。因此，如果模型以及代码中的其他变量消耗大量内存，每个进程/工人将消耗等量的内存。如果您想避免这种情况，您可以看看如何在多个工作人员之间共享对象 https://stackoverflow.com/questions/65686318/sharing-python-objects-across-multiple-workers，以及 - 如果您正在使用Gunicorn 作为 Uvicorn 工人的流程经理 https://fastapi.tiangolo.com/deployment/server-workers/#gunicorn-with-uvicorn-workers——你可以使用 Gunicorn 的--preload https://docs.gunicorn.org/en/stable/settings.html#preload-app旗帜。根据文档：

命令行: --preload

Default: False

在分叉工作进程之前加载应用程序代码。

通过预加载应用程序，您还可以节省一些 RAM 资源加快服务器启动时间。不过，如果您推迟申请加载到每个工作进程，您可以重新加载您的应用程序代码通过重新启动工人即可轻松完成。

Example:

gunicorn --workers 4 --preload --worker-class=uvicorn.workers.UvicornWorker app:app

Note你不能结合 Gunicorn 的--preload https://docs.gunicorn.org/en/stable/settings.html#preload-app with --reload https://docs.gunicorn.org/en/stable/settings.html#reload标志，因为当代码预加载到主进程中时，如果您的应用程序代码发生更改，新的工作进程（将自动创建）仍将在内存中保留旧代码，因为fork() https://en.wikipedia.org/wiki/Fork_(system_call) works.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用ML模型和FastAPI处理多个用户的请求？的相关文章

使用 OpenCV 和/或 Numpy 对两个图像进行 Alpha 混合 [重复]

这个问题在这里已经有答案了我想将一个填充纯色的半透明矩形添加到已加载的半透明 PNG 中这是我正在使用的输入图像示例该图像加载了标准cv2 IMREAD UNCHANGED标志以便完美保留 alpha 通道该输入图像存储在imag
Java 的支持向量机？

我想用Java编写一个智能监视器它可以随时发出警报detects即将到来的性能问题我的 Java 应用程序正在以结构化格式将数据写入日志文件
Python 子进程（ffmpeg）仅在我按 Ctrl-C 程序时启动？

我正在尝试使用 Cygwin 和 Python 2 7 并行运行一些 ffmpeg 命令这大概是我所拥有的 import subprocess processes set commands ffmpeg i input mp4 outpu
pandas Wide_to_long 后缀参数

我对在 pandas 中使用 Wide to long 时的参数有疑问有一个参数叫suffix我不明白在文档中它说后缀 str 默认 d 捕获所需后缀的正则表达式 d 捕获数字后缀没有数字的后缀可以用否定字符类 D 指定您还可以进
如何在 Google App Engine 的 Python 中获取 StringProperty 的值？

如何获取 nbd Model 的值我想返回由多个字段组成的描述但我无法让它工作这是我的班级代码 class User ndb Model name ndb StringProperty email ndb StringProperty
matplotlib 中的 R 风格数据轴缓冲区

R 绘图自动设置 x 和 y 限制以在数据和轴之间留出一些空间我想知道 matplotlib 是否有办法自动执行相同的操作如果没有是否有一个好的公式或经验法则来说明 R 如何设置其轴限制在 matplotlib 中您可以通过
Perl 是否有相当于 Python 的 `if __name__ == '__main__'` 的功能？

有没有一种方法可以确定当前文件是否是 Perl 源中正在执行的文件在 Python 中我们使用以下结构来做到这一点 if name main This file is being executed raise NotImplemente
神经网络不能立即重现？

通过使用反向传播导数弹性的前馈神经网络中的随机权重初始化误差图上的初始位置位于某个随机谷的顶部该随机谷可能是也可能不是局部最小值可以使用方法来克服局部最小值但假设这些方法没有被使用或者在给定的地形上不能很好地工作那么神经网络
如何在Python代码中查找列号

简短问题当按上述方式调用函数时我可以找到行号here https stackoverflow com questions 3056048 filename and line number of python script 同样如何找到
NumPy 和 SciPy - .todense() 和 .toarray() 之间的区别

我想知道使用是否有什么区别优点缺点 toarray vs todense 在稀疏 NumPy 数组上例如 import scipy as sp import numpy as np sparse m sp sparse bsr mat
Python——捕获异常的效率[重复]

这个问题在这里已经有答案了可能的重复 Python 常见问题解答异常有多快 https stackoverflow com questions 8107695 python faq how fast are exceptions 我记得
在 iPython/pandas 中绘制多条线会生成多个图

我试图了解 matplotlib 的状态机模型但在尝试在单个图上绘制多条线时遇到错误据我了解以下代码应该生成包含两行的单个图 import pandas as pd import pandas io data as web aapl
在谷歌云上训练神经网络时出现“无法获取路径的文件系统”错误

我正在使用 Google Cloud 在云上训练神经网络如下例所示 https cloud google com blog big data 2016 12 how to classify images with tensorflow u
用于多个窗口的 Tkinter 示例代码，为什么按钮无法正确加载？

我正在编写一个程序应该按一下按钮即可打开一个窗口按另一个按钮关闭新打开的窗口我使用类以便稍后可以将代码插入到更大的程序中但是我无法正确加载按钮 import tkinter as tk class Demo1 tk Frame
Selenium 不会在新选项卡中打开新 URL（Python 和 Chrome）

我想使用 Selenium WebDriver 和 Python 在不同的选项卡中打开相当多的 URL 我不确定出了什么问题 driver webdriver Chrome driver get url1 time sleep 5 driv
如何分析组合的 python 和 c 代码

我有一个由多个 python 脚本组成的应用程序其中一些脚本正在调用 C 代码该应用程序现在的运行速度比以前慢得多因此我想对其进行分析以查看问题所在是否有工具软件包或只是一种分析此类应用程序的方法有一个工具可以将 python
Python 导入非常慢 - Anaconda python 2.7

我的 python import 语句变得非常慢我使用 Anaconda 包在本地运行 python 2 7 导入模块后我编写的代码运行得非常快似乎只是导入需要很长时间例如我使用以下代码运行了一个 tester py 文件 imp
在 Python 中访问 argparse 的参数值

我正在尝试为我的程序设置一些简单的标志参数但无法弄清楚如何访问它们我有 argparser parser argparse ArgumentParser description Simple PostScript Interpreter
如何在Tensorflow中保存估计器以供以后使用？

我按照教程 TF Layers 指南构建卷积神经网络以下是代码 https github com tensorflow tensorflow blob r1 1 tensorflow examples tutorials layers
Python 中的字符串slugification

我正在寻找 slugify 字符串的最佳方法蛞蝓是什么 https stackoverflow com questions 427102 in django what is a slug 我当前的解决方案基于这个食谱 http code

随机推荐

将 PDF 转换为 PNG Node.JS

我正在构建一个 Node js 应用程序来将 PDF 转换为 PNG 并显示在用户页面上该应用程序将像这样工作用户上传 PDF 到服务器服务器将 PDF 页面转换为单独的 PNG 在用户页面上显示 PNG 我发现了一个很棒的软件包名
在 Silverlight 8.1 应用程序中注册后台任务

我正在开发一个使用 BLE 与某个项目通信的应用程序我需要从它接收后台通知我知道存在GattCharacteristicNotificationTrigger但我找不到任何方法在 Silverlight 8 1 应用程序中注册后台任务
固定卡满足 FITS 标准是什么意思？

我正在尝试使用 FITS 文件我有以下代码 from astropy io import fits from astropy wcs import WCS hdul fits open fitsfilename 0 wcs WCS hdu
在 jsf 页面中使用 commandButton 来下载文件

使用 jsf 页面中的命令按钮下载文件使用 JSF 和 Richfaces 我有一个表扩展 ExtendedDataModel 实现可修改可序列化其中包含一些数据并且每行都有一个下载按钮
tabBar 存在时出现奇怪的定位问题

我们有一个带有 UIPickerView 和工具栏 216 44 的自定义视图在初始化时 viewDidLoad 使用以下代码将此自定义视图推送到屏幕下方 CGPoint newOrigin newOrigin x pickerViewO
如何显示有关图像的所有元数据？

我正在尝试使用 Pillow 读取图像的元数据TAGS功能我使用以下代码来获取此信息 imports from PIL import Image from PIL ExifTags import TAGS imagename image
UITapGestureRecognizer 选择器，发送者是手势，而不是 ui 对象

我有一系列使用标签来识别的图像视图我在图像中添加了单击手势 UITapGestureRecognizer singleTap UITapGestureRecognizer alloc initWithTarget self action
ruby redis 客户端扫描与密钥

我正在寻找一些有关 redis 的 ruby 客户端的文档但没有成功我正在使用密钥但我听说它们在生产 redis 中的性能很糟糕 redis Redis new host Settings redis host port Settin
内联访问等待值（JS）？

首先我写了这样的东西 async function const value await Promise resolve a 3 a console log value catch console error 但我很快得出结论这行不通因为
带有后代和后代 text() 谓词的 XPath 查询

我想构造一个 XPath 查询它将返回 div 或 table 元素只要它有包含文本 abc 的后代需要注意的是它不能有任何 div 或 table 后代 div table table div
对于 python 的 pip，requirements.txt 中 ruby 的 gem 中的 twiddle-wakka (~>) 相当于什么？

我已经看到 ruby 的 gem 文件中使用了 twiddle wakka 运算符 gt 文档 http docs rubygems org read chapter 16 来指定兼容的最后一个点版本如下所示 gt 0 3 1 is sa
Objective-C 调用 Swift 函数

Swift 函数定义于MySwift swift File func SomeSwift SomeSwift 没有在任何 Swift 类中定义它只是一个纯函数 After CMD B to build the project open P
.NET Core 项目添加对 .NET Framework 项目的引用。为什么有可能？

我有以下项目 NET Core 2 0 Web 应用程序 NET Standard 2 0 类库 NET Framework 4 5 类库我将 net框架类库的引用添加到asp net core web api项目中看起来效果很好我想
如何在运行不同 php 版本的服务器上安装 laravel

我在默认运行 php 5 3 的服务器下安装 laravel 时遇到问题但我可以选择一个 php 版本在任何特定目录下运行 guzzlehttp guzzle 4 1 2 requires php gt 5 4 0 gt your PHP
feed_dict 中的喂养问题（Tensorflow）

我的 raw data 是 PTB 数据集我通过以下代码生成批次 def generate batches raw data batch size unrollings global data index data len len raw
IE 11 平滑滚动不触发中间滚动事件

如果我们做一个简单的测试用例例如 document documentElement addEventListener scroll function console log document documentElement scrollT
如何在 VBA for Excel 中引用复选框

我使用开发人员功能区 gt 插入 gt ActiveX 控件 gt 复选框创建了一个复选框我想编写一个子代码当选中该框时 PCAPV10 工作表中的一系列值将复制到 BOM 工作表上的一个范围中我不确定我是否在代码中正确引用了我的复选
OpenGL显示列表大小的限制

有谁知道将太多 OpenGL 调用放入显示列表中是否会导致其失败如果是这样有人估计有多少个电话可以做到这一点吗和显存有关系吗我从 JOGL 调用 OpenGL 但我认为这并不重要根据这个文档页 http www opengl or
将 varchar 值转换为数据类型 int 时转换失败

我有一个 varchar 1000 列声明为包含所有数字的字段如下所示我想执行以下脚本我需要这个才能工作 Declare PostalCode varchar 1000 0 set PostalCode 7005036 7004168
如何使用ML模型和FastAPI处理多个用户的请求？

我正在研究通过FastAPI分发人工智能模块的过程我创建了一个 FastAPI 应用程序它使用预先学习的机器学习模型来回答问题在这种情况下一个用户使用是没有问题的但是当多个用户同时使用时响应可能会太慢那么当多个用户输入问题时

如何使用ML模型和FastAPI处理多个用户的请求？

如何使用ML模型和FastAPI处理多个用户的请求？ 的相关文章

随机推荐

热门标签

如何使用ML模型和FastAPI处理多个用户的请求？的相关文章