steipete · steipete · Jun 10, 2026 · Jun 4, 2026 · Jun 10, 2026 · Jun 10, 2026
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -12,6 +12,7 @@
 
 - CLI cache: include local media `fileMtime` when writing transcript cache entries so repeated unchanged audio/video extraction can hit cache (#240, #241, thanks @alfozan).
 - CLI: pass Codex image attachments to `codex exec` so local image summaries no longer fail before starting (#242, #243, thanks @alfozan).
+- OpenAI-compatible gateways: honor `OPENAI_USE_CHAT_COMPLETIONS=false` and `openai.useChatCompletions=false` so custom base URLs can use the Responses API (#235, #236, thanks @mzbgf).
 - Chrome extension: abort stale side-panel summary streams on tab changes so delayed output from a closed or replaced tab cannot render under the new page title.
 - Core: extract video IDs from YouTube `/live/` URLs so live and premiere links no longer abort summarization (#232, thanks @devYRPauli).
 - Chrome extension: keep YouTube slide cards on the shared slide-summary path so local browser thumbnails receive the same summary text shape as CLI `--slides`.

diff --git a/src/daemon/agent-model.ts b/src/daemon/agent-model.ts
@@ -58,27 +58,28 @@ function overrideModelGatewaySettings({
   provider: string;
   model: Model<Api>;
   baseUrl: string | null;
-  forceOpenAiChatCompletions: boolean;
+  forceOpenAiChatCompletions: boolean | undefined;
 }) {
   const nextModel = baseUrl ? ({ ...model, baseUrl } as Model<Api>) : model;
   if (provider !== "openai") return nextModel;
   const effectiveBaseUrl =
     typeof nextModel.baseUrl === "string" && nextModel.baseUrl.trim().length > 0
       ? nextModel.baseUrl.trim()
       : null;
-  const shouldUseChatCompletions =
-    forceOpenAiChatCompletions ||
-    isCustomOpenAiBaseUrl(effectiveBaseUrl) ||
-    (effectiveBaseUrl !== null && isOpenRouterBaseUrl(effectiveBaseUrl));
+  const isOpenRouterBase = effectiveBaseUrl !== null && isOpenRouterBaseUrl(effectiveBaseUrl);
+  const shouldUseChatCompletions = isOpenRouterBase
+    ? true
+    : typeof forceOpenAiChatCompletions === "boolean"
+      ? forceOpenAiChatCompletions
+      : isCustomOpenAiBaseUrl(effectiveBaseUrl);
   if (!shouldUseChatCompletions) return nextModel;
-  const headers =
-    effectiveBaseUrl !== null && isOpenRouterBaseUrl(effectiveBaseUrl)
-      ? {
-          ...((nextModel as Model<Api> & { headers?: Record<string, string> }).headers ?? {}),
-          "HTTP-Referer": "https://github.com/steipete/summarize",
-          "X-Title": "summarize",
-        }
-      : (nextModel as Model<Api> & { headers?: Record<string, string> }).headers;
+  const headers = isOpenRouterBase
+    ? {
+        ...((nextModel as Model<Api> & { headers?: Record<string, string> }).headers ?? {}),
+        "HTTP-Referer": "https://github.com/steipete/summarize",
+        "X-Title": "summarize",
+      }
+    : (nextModel as Model<Api> & { headers?: Record<string, string> }).headers;
   return {
     ...nextModel,
     api: "openai-completions",
@@ -95,7 +96,7 @@ function resolveModelWithFallback({
   provider: string;
   modelId: string;
   baseUrl: string | null;
-  forceOpenAiChatCompletions: boolean;
+  forceOpenAiChatCompletions: boolean | undefined;
 }): Model<Api> {
   try {
     const model = getModel(provider as never, modelId as never);
@@ -108,10 +109,15 @@ function resolveModelWithFallback({
     });
   } catch (error) {
     if (baseUrl) {
+      const isOpenRouterBase = isOpenRouterBaseUrl(baseUrl);
+      const api =
+        provider === "openai" && forceOpenAiChatCompletions === false && !isOpenRouterBase
+          ? "openai-responses"
+          : "openai-completions";
       return createSyntheticModel({
         provider: provider as never,
         modelId,
-        api: "openai-completions",
+        api,
         baseUrl,
         allowImages: false,
       });
@@ -299,13 +305,19 @@ export async function resolveAgentModel({
   const applyBaseUrlOverride = (provider: string, modelId: string) => {
     const baseUrl = providerBaseUrlMap[provider] ?? null;
     const providerForPiAi = provider === "nvidia" || provider === "ollama" ? "openai" : provider;
+    const forceOpenAiChatCompletions =
+      provider === "nvidia" || provider === "ollama"
+        ? true
+        : provider === "openai"
+          ? openaiUseChatCompletions
+          : undefined;
     return {
       provider,
       model: resolveModelWithFallback({
         provider: providerForPiAi,
         modelId,
         baseUrl,
-        forceOpenAiChatCompletions: provider === "openai" && openaiUseChatCompletions,
+        forceOpenAiChatCompletions,
       }),
     };
   };

diff --git a/src/daemon/chat.ts b/src/daemon/chat.ts
@@ -111,10 +111,12 @@ function resolveOpenAiUseChatCompletions({
 }: {
   env: Record<string, string | undefined>;
   configForCli: SummarizeConfig | null;
-}): boolean {
+}): boolean | undefined {
   const envValue = parseBooleanEnv(env.OPENAI_USE_CHAT_COMPLETIONS);
   if (envValue !== null) return envValue;
-  return configForCli?.openai?.useChatCompletions === true;
+  return typeof configForCli?.openai?.useChatCompletions === "boolean"
+    ? configForCli.openai.useChatCompletions
+    : undefined;
 }
 
 export async function streamChatResponse({
@@ -182,7 +184,7 @@ export async function streamChatResponse({
           transport: "native" as const,
           openaiApiKeyOverride: null,
           openaiBaseUrlOverride: null,
-          forceChatCompletions: false,
+          forceChatCompletions: undefined,
         };
       }
       return {
@@ -205,11 +207,17 @@ export async function streamChatResponse({
               ? envState.nvidiaBaseUrl
               : requested.requiredEnv === "OLLAMA_BASE_URL"
                 ? envState.ollamaBaseUrl
-                : (requested.openaiBaseUrlOverride ?? null),
+                : requested.provider === "openai"
+                  ? (requested.openaiBaseUrlOverride ?? envState.providerBaseUrls.openai)
+                  : (requested.openaiBaseUrlOverride ?? null),
         forceChatCompletions:
-          Boolean(requested.forceChatCompletions) ||
-          requested.requiredEnv === "OLLAMA_BASE_URL" ||
-          (requested.provider === "openai" && openaiUseChatCompletions),
+          typeof requested.forceChatCompletions === "boolean"
+            ? requested.forceChatCompletions
+            : requested.requiredEnv === "OLLAMA_BASE_URL"
+              ? true
+              : requested.provider === "openai"
+                ? openaiUseChatCompletions
+                : undefined,
         requestOptions: requested.requestOptions,
       };
     }
@@ -312,7 +320,18 @@ export async function streamChatResponse({
     timeoutMs: 30_000,
     fetchImpl,
     forceOpenRouter: attempt.forceOpenRouter,
-    forceChatCompletions: attempt.requiredEnv === "OPENAI_API_KEY" && openaiUseChatCompletions,
+    openaiBaseUrlOverride:
+      attempt.transport === "openrouter"
+        ? undefined
+        : attempt.requiredEnv === "OPENAI_API_KEY"
+          ? envState.providerBaseUrls.openai
+          : undefined,
+    forceChatCompletions:
+      attempt.transport === "openrouter"
+        ? undefined
+        : attempt.requiredEnv === "OPENAI_API_KEY"
+          ? openaiUseChatCompletions
+          : undefined,
     requestOptions: mergeModelRequestOptions(openaiRequestOptions, attempt.requestOptions),
   });
   for await (const chunk of result.textStream) {

diff --git a/src/llm/providers/openai.ts b/src/llm/providers/openai.ts
@@ -95,7 +95,11 @@ export function resolveOpenAiClientConfig({
     }
   })();
 
-  const useChatCompletions = Boolean(forceChatCompletions) || isOpenRouter || isCustomBaseURL;
+  const useChatCompletions = isOpenRouter
+    ? true
+    : typeof forceChatCompletions === "boolean"
+      ? forceChatCompletions
+      : isCustomBaseURL;
   return {
     apiKey,
     baseURL: baseURL ?? undefined,

diff --git a/src/run/flows/url/types.ts b/src/run/flows/url/types.ts
@@ -85,7 +85,7 @@ export type UrlFlowModel = {
   configForModelSelection: SummarizeConfig | null;
   envForAuto: Record<string, string | undefined>;
   cliAvailability: Partial<Record<CliProvider, boolean>>;
-  openaiUseChatCompletions: boolean;
+  openaiUseChatCompletions: boolean | undefined;
   openaiRequestOptions?: ModelRequestOptions;
   openaiRequestOptionsOverride?: ModelRequestOptions;
   openaiWhisperUsdPerMinute: number;

diff --git a/src/run/run-config.ts b/src/run/run-config.ts
@@ -14,7 +14,7 @@ export type ConfigState = {
   videoMode: ReturnType<typeof parseVideoMode>;
   cliConfigForRun: SummarizeConfig["cli"] | undefined;
   configForCli: SummarizeConfig | null;
-  openaiUseChatCompletions: boolean;
+  openaiUseChatCompletions: boolean | undefined;
   openaiRequestOptions: ModelRequestOptions | undefined;
   openaiRequestOptionsOverride: ModelRequestOptions | undefined;
   configModelLabel: string | null;
@@ -79,7 +79,7 @@ export function resolveConfigState({
     );
     if (envValue !== null) return envValue;
     const configValue = config?.openai?.useChatCompletions;
-    return typeof configValue === "boolean" ? configValue : false;
+    return typeof configValue === "boolean" ? configValue : undefined;
   })();
 
   const openaiRequestOptions: ModelRequestOptions | undefined = (() => {

diff --git a/src/run/summary-engine.ts b/src/run/summary-engine.ts
@@ -36,7 +36,7 @@ export type SummaryEngineDeps = {
   plain: boolean;
   verbose: boolean;
   verboseColor: boolean;
-  openaiUseChatCompletions: boolean;
+  openaiUseChatCompletions: boolean | undefined;
   openaiRequestOptions?: ModelRequestOptions;
   openaiRequestOptionsOverride?: ModelRequestOptions;
   cliConfigForRun: Parameters<typeof runCliModel>[0]["config"];
@@ -337,8 +337,13 @@ export function createSummaryEngine(deps: SummaryEngineDeps) {
         transport: attempt.transport === "openrouter" ? "openrouter" : "native",
       });
     const forceChatCompletions =
-      Boolean(attempt.forceChatCompletions) ||
-      (deps.openaiUseChatCompletions && parsedModelEffective.provider === "openai");
+      typeof attempt.forceChatCompletions === "boolean"
+        ? attempt.forceChatCompletions
+        : attempt.transport === "openrouter"
+          ? undefined
+          : parsedModelEffective.provider === "openai"
+            ? deps.openaiUseChatCompletions
+            : undefined;
 
     const maxOutputTokensForCall = await deps.resolveMaxOutputTokensForCall(
       parsedModelEffective.canonical,

diff --git a/tests/daemon.agent-model.test.ts b/tests/daemon.agent-model.test.ts
@@ -1,5 +1,8 @@
+import { mkdtempSync } from "node:fs";
+import { tmpdir } from "node:os";
+import { join } from "node:path";
 import { describe, expect, it } from "vitest";
-import { resolveApiKeyForModel } from "../src/daemon/agent-model.js";
+import { resolveAgentModel, resolveApiKeyForModel } from "../src/daemon/agent-model.js";
 
 const emptyApiKeys = {
   openaiApiKey: null,
@@ -24,4 +27,78 @@ describe("daemon agent model resolution", () => {
       }),
     ).toBe("proxy-secret");
   });
+
+  it("honors explicit OpenAI Responses routing for agent custom base URLs", async () => {
+    const home = mkdtempSync(join(tmpdir(), "summarize-agent-openai-responses-"));
+
+    const resolved = await resolveAgentModel({
+      env: {
+        HOME: home,
+        OPENAI_API_KEY: "sk-openai",
+        OPENAI_BASE_URL: "https://gateway.example/v1",
+        OPENAI_USE_CHAT_COMPLETIONS: "false",
+      },
+      pageContent: "Hello",
+      modelOverride: "openai/gpt-5.4",
+    });
+
+    expect(resolved.provider).toBe("openai");
+    expect(resolved.model?.api).toBe("openai-responses");
+    expect(resolved.model?.baseUrl).toBe("https://gateway.example/v1");
+  });
+
+  it("keeps OpenRouter base URLs on chat completions for agents", async () => {
+    const home = mkdtempSync(join(tmpdir(), "summarize-agent-openrouter-base-"));
+
+    const resolved = await resolveAgentModel({
+      env: {
+        HOME: home,
+        OPENAI_API_KEY: "sk-openrouter-via-openai",
+        OPENAI_BASE_URL: "https://openrouter.ai/api/v1",
+        OPENAI_USE_CHAT_COMPLETIONS: "false",
+      },
+      pageContent: "Hello",
+      modelOverride: "openai/openai/gpt-5-mini",
+    });
+
+    expect(resolved.provider).toBe("openai");
+    expect(resolved.model?.api).toBe("openai-completions");
+    expect(resolved.model?.baseUrl).toBe("https://openrouter.ai/api/v1");
+  });
+
+  it("keeps NVIDIA agent models on chat completions", async () => {
+    const home = mkdtempSync(join(tmpdir(), "summarize-agent-nvidia-"));
+
+    const resolved = await resolveAgentModel({
+      env: {
+        HOME: home,
+        NVIDIA_API_KEY: "sk-nvidia",
+        OPENAI_USE_CHAT_COMPLETIONS: "false",
+      },
+      pageContent: "Hello",
+      modelOverride: "nvidia/z-ai/glm5",
+    });
+
+    expect(resolved.provider).toBe("nvidia");
+    expect(resolved.model?.api).toBe("openai-completions");
+    expect(resolved.model?.baseUrl).toBe("https://integrate.api.nvidia.com/v1");
+  });
+
+  it("keeps Ollama agent models on chat completions", async () => {
+    const home = mkdtempSync(join(tmpdir(), "summarize-agent-ollama-"));
+
+    const resolved = await resolveAgentModel({
+      env: {
+        HOME: home,
+        OLLAMA_BASE_URL: "http://ollama-box:11434/v1",
+        OPENAI_USE_CHAT_COMPLETIONS: "false",
+      },
+      pageContent: "Hello",
+      modelOverride: "ollama/qwen3:14b",
+    });
+
+    expect(resolved.provider).toBe("ollama");
+    expect(resolved.model?.api).toBe("openai-completions");
+    expect(resolved.model?.baseUrl).toBe("http://ollama-box:11434/v1");
+  });
 });